Reward Modeling — Neural net chấm điểm thay con người

Reward Model là 'trọng tài' AI tự động chấm điểm câu trả lời, giúp huấn luyện LLM bằng RLHF mà không cần con người ngồi canh từng token.

RLHF (Reinforcement Learning from Human Feedback) là bí kíp khiến ChatGPT trở nên "hiểu chuyện", nhưng bạn không thể thuê cả ngàn người ngồi chấm điểm từng câu trả lời trong khi model đang train. Reward Modeling chính là giải pháp: dạy một neural network học "gu" của con người từ hàng nghìn ví dụ đã chấm, rồi để nó làm trọng tài tự động chấm điểm 24/7.

Vấn đề

Để biến một base model thành assistant hữu ích, chỉ dùng Supervised Fine-Tuning là không đủ. SFT chỉ dạy model bắt chước câu trả lời có sẵn — nó không thể tạo ra câu trả lời tốt hơn con người, vì không có cơ chế để đánh giá "tốt" hay "xấu".

Muốn vượt qua giới hạn đó, cần dùng Reinforcement Learning (RL): cho model tự thử nghiệm nhiều cách trả lời, rồi thưởng cho cái hay nhất. Vấn đề? RL cần reward signal liên tục cho mỗi bước. Bạn không thể ngồi canh từng token để chấm điểm real-time. Giải pháp cũ — viết rule-based reward (đếm từ khóa, check định dạng) — quá thô sơ để capture khái niệm phức tạp như "helpful" hay "harmless".

Cần một "cỗ máy chấm điểm" tự động học được khẩu vị của con người.

Ý tưởng cốt lõi

Reward Model (RM) chính là cỗ máy đó. Đây là một neural network riêng biệt (thường là một LLM nhỏ hoặc một classifier head gắn trên hidden states) nhận vào cặp (prompt, response) và xuất ra một con số scalar: reward. Số càng cao, câu trả lời càng được coi là "tốt" theo tiêu chuẩn người chấm.

Cách huấn luyện RM rất tinh tế: thay vì để người đánh số tuyệt đối (cho điểm 1-10), ta dùng pairwise comparison. Cho người xem hai câu trả lời A và B cho cùng một prompt, hỏi "Cái nào hay hơn?". Dữ liệu này dễ thu thập hơn (người ta biết cái nào hơn dễ hơn là biết chính xác điểm số), và quan trọng hơn — nó loại bỏ bias về độ dài (người hay thích câu dài hơn nếu chấm số tuyệt đối).

RM được huấn luyện để dự đoán xác suất người chọn A hơn B qua công thức Bradley-Terry:

P(A > B) = σ(r(A) - r(B))

Trong đó σ là sigmoid, r(A) là reward của câu A. Nếu RM cho A điểm cao hơn B nhiều, thì xác suất người thích A phải gần 1. RM học bằng cách minimize cross-entropy trên các cặp so sánh này.

Aha moment: Đây chính là bước "đào tạo food critic". Đầu tiên, critic nếm thử hàng nghìn món ăn đã được Michelin chấm điểm để học gu thẩm mỹ. Sau đó, critic một mình có thể chấm điểm 10,000 món/ngày, cho phép đầu bếp (LLM) thử nghiệm hàng loạt công thức mới và biết ngay món nào ngon.

Khi RM đã sẵn sàng, nó thay thế hoàn toàn human trong RL loop. Khi policy model (LLM đang train) sinh ra câu trả lời, RM chấm điểm ngay lập tức, cung cấp reward signal để thuật toán RL (thường là PPO) tính gradient và cập nhật model.

Tại sao nó hoạt động

Bản chất toán học nằm ở việc học hàm reward từ dữ liệu tương đối. Con người giỏi nói "cái này hơn cái kia" nhưng kém ở gán số tuyệt đối. RM chuyển đổi những so sánh rời rạc thành một hàm liên tục có thể tối ưu hóa.

Trong phase RL, RLHF sử dụng RM như sau:

Policy sinh ra completion cho một prompt
RM chấm điểm completion đó
Policy cố gắng maximize expected reward, nhưng bị ràng buộc bởi KL penalty — một khoảng cách đo lường độ "lệch lạc" so với model gốc, tránh việc model hack reward bằng cách sinh ra văn bản vô nghĩa nhưng được RM điểm cao.

Điều quan trọng là RM giải quyết credit assignment problem: trong một câu trả lời dài, đâu là phần gây ra chất lượng tốt/xấu? RM cho điểm toàn bộ câu, nhưng thông qua gradient của policy, ảnh hưởng lan tỏa ngược về từng token, dạy model tránh cụm từ gây hại và ưu tiên cấu trúc hữu ích.

Một biến thể gần đây là Process Reward Model (PRM) — không chỉ chấm đáp án cuối (outcome reward), mà chấm từng bước suy luận (step-by-step). Điều này giúp RL làm việc hiệu quả hơn trên bài toán đòi hỏi reasoning dài, nhưng đòi hỏi dữ liệu human label đắt đỏ hơn nhiều.

Ý nghĩa thực tế

Reward Modeling là bước ngoặt scalability cho alignment. Không có nó, RLHF chỉ là lý thuyết đẹp trên giấy — bạn không thể thuê đủ người để chấm điểm hàng triệu câu trả lời mỗi ngày. Với RM, quá trình này chuyển thành tính toán GPU song song.

So sánh với các cách alignment khác:

SFT: Học bắt chước (imitation). Giới hạn bởi chất lượng dữ liệu human viết sẵn.
RM + RL: Học tối ưu (optimization). Có thể vượt qua chất lượng human demonstration bằng cách khám phá không gian câu trả lời rộng hơn và dùng RM để chọn lọc.

Ai đang dùng: OpenAI (ChatGPT), Anthropic (Claude), DeepSeek, và mọi hệ thống RLHF production khác. RM là thành phần không thể thiếu trong pipeline chuyển base model thành assistant.

Nhưng có những lỗ hổng nghiêm trọng:

Reward Hacking: Model có thể tìm ra "lỗi" trong RM — những câu trả lời vô nghĩa nhưng kích hoạt neuron gây điểm cao (ví dụ: spam từ "helpful assistant" nhiều lần). Đây là lý do cần KL penalty và liên tục cập nhật RM.
Distribution Shift: RM làm việc kém trên những câu trả lời quá khác biệt so với training data. Khi policy khám phá vùng mới, RM có thể đánh giá sai.
Chi phí thu thập dữ liệu: Dù tự động hóa được RL, bạn vẫn cần hàng nghìn comparison chất lượng cao từ human để train RM ban đầu — vẫn tốn kém và chậm.

Đào sâu hơn

Paper gốc: Training language models to follow instructions with human feedback (Ouyang et al., 2022 — InstructGPT). Định nghĩa nền tảng về RM và PPO trong LLM.
Paper tiếp theo: Constitutional AI (Anthropic, 2022). Thay vì dùng human label cho RM, dùng chính AI để chấm điểm theo nguyên tắc (RLAIF), giải quyết vấn đề scalability của dữ liệu human.

Cùng cụm

RLHF — Pipeline đầy đủ sử dụng Reward Model để huấn luyện LLM bằng PPO
Constitutional AI — Cách bỏ qua human label hoàn toàn, dùng AI làm judge cho chính nó
Supervised Fine-Tuning — Bước đầu tiên trước khi cần đến RM

Đọc tiếp

DPO — Cách bỏ qua cả Reward Model lẫn RL, optimize trực tiếp trên preference data
GRPO — Không cần RM riêng, dùng so sánh nhóm response và rule-based reward
RLVR — Dùng reward có thể verify được (math, code) thay vì learned RM, tránh reward hacking