RLHF — Cách ChatGPT học để trở nên helpful

Từ mô hình biết 'đoán chữ' thành trợ lý AI thực thụ: hiểu cách RLHF dùng phản hồi người dùng để dạy LLM cách hữu ích, trung thực, và vô hại.

ChatGPT không sinh ra đã biết cách từ chối câu hỏi nguy hiểm, cũng không tự hiểu rằng "tôi không biết" tốt hơn là bịa ra câu trả lời. Trước khi qua "trường luyện", GPT-4 chỉ là máy đoán chữ thông minh. Để biến nó thành trợ lý AI thực thụ, kỹ sư dùng RLHF — Reinforcement Learning from Human Feedback — một quy trình dạy máy học "sở thích" của con người qua phản hồi từng chút một.

Vấn đề

Pre-trained models (như GPT-3) được huấn luyện để dự đoán token tiếp theo trong văn bản. Kỹ năng này khiến chúng thông thạo ngữ pháp và kiến thức thế giới, nhưng không biết cách trở thành "trợ lý hữu ích". Chúng có thể đưa ra câu trả lời dài dòng vô nghĩa, thiên vị, toxic, hoặc bịa đặt (hallucination) mà tưởng là đúng.

SFT (Supervised Fine-Tuning) giúp ích bằng cách bắt chước câu trả lời mẫu, nhưng có giới hạn: nó chỉ dạy "cái gì" đúng, không dạy "tại sao" cái này tốt hơn cái kia. Khi có nhiều cách trả lời đều đúng ngữ pháp, làm sao chọn cái "hay hơn" theo chuẩn người dùng? Cần một la bàn để định hướng.

Ý tưởng cốt lõi

RLHF là pipeline ba giai đoạn biến phản hồi con người thành tín hiệu huấn luyện:

1. Supervised Fine-Tuning (Warmup)
Cho model học cách trả lời cơ bản từ ~10-100k ví dụ (prompt → response). Đây là điểm khởi đầu để model hiểu format hội thoại.

2. Reward Modeling
Thu thập so sánh từ người dùng — cho họ xem hai câu trả lời A và B cho cùng một câu hỏi, chọn cái tốt hơn. Dùng dữ liệu này để huấn luyện một Reward Model — mạng neural chấm điểm chất lượng bất kỳ output nào trên thang điểm scalar. Reward Model học cách dự đoán: "Người dùng sẽ thích câu này bao nhiêu điểm?"

3. PPO Optimization
Dùng thuật toán Reinforcement Learning (Proximal Policy Optimization) để tinh chỉnh model chính (gọi là Policy). Model sinh thử nhiều câu trả lời, Reward Model chấm điểm, và Policy chỉ giữ lại các hướng đi được điểm cao — nhưng với ràng buộc KL divergence để không đi quá xa khỏi model gốc (tránh "reward hacking").

Đây là "aha moment": Reward Model không dạy model nói gì, mà dạy "thế nào là tốt". Nó giống như người thầy chấm điểm bài luận — không viết hộ học sinh, nhưng cho biết bài nào đạt. PPO là quá trình thử-nghiệm-lỗi: model tự khám phá không gian câu trả lời, chỉ giữ lại những gì Reward Model "vỗ tay".

Tại sao nó hoạt động

Cơ chế này hiệu quả nhờ ba yếu tố cốt lõi:

Bradley-Terry Model
Biến các so sánh pairwise (thích A hơn B) thành điểm số liên tục, cho phép Reward Model học hàm giá trị (value function) từ dữ liệu tương đối. Không cần định nghĩa "tuyệt đối" thế nào là tốt — chỉ cần biết A > B.

Generalization
Reward Model học khái niệm trừu tượng về "helpfulness" từ ví dụ cụ thể, giúp phát hiện câu trả lời tốt ngay cả trong tình huống chưa từng thấy. Nó trở thành "proxy" cho sự đánh giá của con người.

KL Constraint
Trong PPO, hàm reward không chỉ là điểm từ Reward Model mà còn trừ đi KL divergence giữa policy hiện tại và model SFT gốc. Điều này ngăn model "gaming the system" — ví dụ: lặp lại từ khóa để đánh lừa Reward Model mà thực chất là vô nghĩa. Nó buộc model vừa cải thiện, vừa giữ bản sắc ngôn ngữ tự nhiên.

Ý nghĩa thực tế

RLHF là công nghệ cốt lõi đằng sau ChatGPT, Claude, và Llama Instruct. Không có nó, các model chỉ là "parrot" biết nối chữ; với nó, chúng trở thành trợ lý biết từ chối, thừa nhận không biết, và trả lời theo ý người dùng.

Tuy nhiên, RLHF truyền thống (dùng PPO) có nhược điểm: tốn kém (cần 4 model trong VRAM: Policy, Reference, Reward, Value), phức tạp (hyperparameter sensitive), và có thể gây "over-alignment" — model trở nên quá nịnh nọt hoặc từ chối quá mức để an toàn.

Hiện nay, nhiều hệ thống chuyển sang DPO (Direct Preference Optimization) — biến thể loại bỏ Reward Model và RL loop, biến bài toán thành classification đơn giản hơn. Hoặc GRPO cho reasoning tasks. Nhưng RLHF vẫn là nền tảng để hiểu tại sao các model hiện đại lại "hữu ích" theo cách chúng ta mong muốn.

Đào sâu hơn

Paper gốc: "Training language models to follow instructions with human feedback" (InstructGPT, 2022) — bài báo gốc từ OpenAI thiết lập chuẩn RLHF cho LLM.
Cùng cụm:
- Supervised Fine-Tuning — Bước 1 trong pipeline alignment, dạy model bắt chước output tốt
- Reward Modeling — Bước 2, cách xây dựng bộ chấm điểm thay con người
Đọc tiếp:
- DPO — RLHF không cần reward model, phương pháp đơn giản hơn đang thay thế PPO
- Constitutional AI — Cách Anthropic dùng AI thay người để tạo phản hồi theo "hiến pháp", giảm phụ thuộc vào labeler
- GRPO — Tối ưu cho reasoning, loại bỏ cả Value Model để tiết kiệm memory