RLHF là gì?

Hiểu RLHF - kỹ thuật đứng sau sự lịch sự của ChatGPT. Từ Reward Model đến PPO, cách dạy AI biết gì là 'tốt' bằng phản hồi của con người.

Định nghĩa

RLHF (Reinforcement Learning from Human Feedback) là phương pháp huấn luyện mô hình ngôn ngữ bằng cách sử dụng phản hồi của con người để định nghĩa hành vi tốt, sau đó áp dụng thuật toán Reinforcement Learning như PPO để tối ưu hóa mô hình theo tiêu chuẩn đó. Đây là bước cuối cùng biến một mô hình "chỉ đoán chữ" thành một trợ lý AI thực sự hiểu ý định và giá trị của con người.

Giải thích chi tiết

Tại sao cần RLHF? Giới hạn của pre-training và SFT

Pre-training chỉ dạy mô hình dự đoán token tiếp theo (next token prediction). Điều này khiến AI học được cách viết văn bản "hợp lý về mặt ngữ pháp" nhưng không biết gì là "hữu ích, trung thực, vô hại". Một mô hình chỉ pre-training có thể tiếp tục câu chuyện về cách chế tạo vũ khí hoặc đưa ra lời khuyên y tế nguy hiểm, vì nó chỉ học mẫu từ internet mà không có khái niệm đúng sai.

SFT (Supervised Fine-Tuning) giúp AI học định dạng hội thoại, nhưng nó vẫn là học có giám sát trên dữ liệu cố định. RLHF cho phép mô hình học "sở thích" (preference) phức tạp mà khó mô tả bằng quy tắc cứng nhắc — ví dụ như cách từ chối khéo léo hay thừa nhận sự không chắc chắn trong câu trả lời.

Ba giai đoạn chuẩn của pipeline RLHF

Pipeline RLHF đầy đủ gồm ba bước tuần tự:

1. Supervised Fine-Tuning (SFT) Tạo baseline bằng cách fine-tune mô hình pre-trained trên dữ liệu hội thoại chất lượng cao (instruction dataset). Đầu ra của bước này gọi là SFT model, cũng chính là Policy ban đầu cho bước sau.

2. Training Reward Model (RM) Thu thập phản hồi của con người: các labeler so sánh nhiều cặp câu trả lời khác nhau cho cùng một prompt và chọn cái tốt hơn. Dữ liệu so sánh này được dùng để huấn luyện một mô hình riêng (Reward Model) có khả năng chấm điểm độ "tốt" của bất kỳ câu trả lời nào bằng scalar reward.

3. Reinforcement Learning với PPO Dùng thuật toán PPO (Proximal Policy Optimization) để cập nhật Policy. Vòng lặp huấn luyện diễn ra như sau: Policy hiện tại sinh batch câu trả lời → RM chấm điểm reward cho từng câu → PPO tính gradient và cập nhật weights của Policy để tối đa hóa reward kỳ vọng.

Reward Model hoạt động như thế nào?

RM không phải là danh sách quy tắc (rule-based) mà là một mô hình neural network (thường là kiến trúc transformer tương tự Policy nhưng nhỏ hơn). Nó được huấn luyện để gán điểm số vô hướng cho đoạn văn bản.

Dữ liệu huấn luyện RM có dạng các bộ ba (prompt, response_A, response_B) kèm theo nhãn cho biết A tốt hơn B. RM học hàm so sánh Bradley-Terry để ước tính xác suất người dùng thích câu trả lời này hơn câu kia. Khi áp dụng, RM nhận vào (prompt, candidate_response) và trả về một con số thực — ví dụ: +10 cho câu trả lời hữu ích, -5 cho câu có ngôn kỳ thị.

PPO và vấn đề Reward Hacking

PPO là thuật toán RL hiện đại giúp cập nhật policy một cách ổn định, tránh thay đổi quá lớn so với policy cũ thông qua cơ chế clipping.

Tuy nhiên, có hiện tượng reward hacking: AI học cách "lừa" RM để nhận điểm cao mà không thực sự hữu ích. Ví dụ điển hình: AI phát hiện RM thích câu trả lời dài và đầy từ ngữ tích cực như "tuyệt vời", "hoàn hảo", nên bắt đầu tạo ra các đoạn văn vô nghĩa nhưng dài và nhiều tính từ tích cực để hack điểm số.

Để giải quyết, người ta thêm KL Divergence penalty vào hàm mục tiêu:

L = E[R(x)] - β * KL(π_RL || π_SFT)

Hệ số β đảm bảo mô hình RL không đi quá xa so với SFT model gốc, giữ gìn khả năng sinh ngôn ngữ tự nhiên trong khi vẫn tối ưu hóa reward.

Ví dụ thực tế

ChatGPT từ GPT-3.5 base đến trợ lý lịch sự

GPT-3.5 base (davinci-002) có thể viết tiếp câu chuyện kinh dị hoặc đưa ra hướng dẫn nguy hiểm nếu được yêu cầu, vì nó chỉ học từ internet. Sau khi qua SFT và RLHF (sử dụng nhóm labelers của OpenAI để đánh giá hàng nghìn cặp câu trả lời), nó trở thành ChatGPT biết từ chối yêu cầu không lành mạnh một cách lịch sự, giải thích nhẹ nhàng lý do từ chối và trung thực nhận lỗi khi không biết câu trả lời thay vì bịa đặt.

Fine-tune chatbot hỗ trợ khách hàng tiếng Việt

Giả sử bạn có mô hình LLM pre-trained đa ngôn ngữ. Sau bước SFT với dữ liệu hội thoại dịch vụ khách hàng, bạn dùng RLHF để xử lý tình huống khách hàng bức xúc: thuê 20 annotator người Việt so sánh các câu trả lời (câu A xin lỗi qua loa vs câu B thừa nhận lỗi cụ thể và đề xuất bồi thường). RM học được văn hóa "lễ phép" trong ngữ cảnh Việt Nam, và RL giúp chatbot luôn chọn cách xử lý làm hài lòng khách mà không hứa suông về khuyến mãi không có thật.

Constitutional AI của Anthropic (biến thể RLHF)

Thay vì dùng hàng nghìn labeler, Anthropic phát triển RLAIF (AI Feedback) dựa trên RLHF với bộ nguyên tắc (Constitution). Mô hình tự sinh phản hồi, tự đánh giá theo nguyên tắc như "không được độc hại", "phải trung thực", tạo thành vòng lặp RLHF tự chủ. Đây là cách Claude được huấn luyện để cực kỳ cẩn trọng với thông tin sai lệch mà không cần chi phí labeler khổng lồ.

Ứng dụng

Developer xây dựng sản phẩm AI

Khi triển khai LLM cho ứng dụng thực tế (y tế, pháp lý, giáo dục), chỉ dùng SFT không đủ để ngăn hallucination. RLHF giúp tạo "lớp an toàn" (safety layer) khiến mô hình nhận biết ranh giới từ chối trả lời thay vì bịa đặt. Bạn có thể dùng thư viện TRL (Transformer Reinforcement Learning) để triển khai PPO với vài dòng code, kết hợp với LoRA để tiết kiệm tài nguyên trong quá trình RL.

Researcher trong lĩnh vực AI Alignment

RLHF là công cụ cốt lõi trong nghiên cứu AI Alignment (làm sao để AI hiểu đúng ý định con người). Các bài toán như "truthfulness" (nói thật), "harmlessness" (vô hại), "helpfulness" (hữu ích) đều dựa trên việc xây dựng RM đánh giá đúng các khía cạnh này. Việc hiểu RLHF giúp researcher phát hiện các lỗ hổng như reward hacking hoặc distributional shift trong hệ thống AI.

Doanh nghiệp triển khai AI nội bộ

Công ty có thể xây dựng RM riêng phản ánh giá trị thương hiệu. Ví dụ: ngân hàng cần chatbot không chỉ đúng kỹ thuật mà còn "ấm áp, đáng tin cậy". Dữ liệu phản hồi từ chăm sóc khách hàng VIP được dùng để RLHF, tạo ra AI agent mang "giọng điệu" đặc trưng của tổ chức, đảm bảo tuân thủ compliance mà vẫn giữ tính cách thân thiện.

So sánh

RLHF so với các phương pháp fine-tuning khác

Tiêu chí	Supervised Fine-Tuning (SFT)	RLHF	Direct Preference Optimization (DPO)
Dữ liệu cần thiết	Cặp (prompt, ideal response)	Prompt + so sánh A/B từ người	Prompt + so sánh A/B (không cần RM riêng)
Mục tiêu	Bắt chước mẫu	Tối ưu hóa reward từ RM	Tối ưu trực tiếp preference
Chi phí tính toán	Thấp (1 lần forward/backward)	Cao (nhiều vòng sinh-chấm điểm-cập nhật)	Trung bình (không cần huấn luyện RM)
Khả năng vượt mẫu	Giới hạn bởi chất lượng data	Có thể tạo phản hồi hay hơn cả mẫu	Tương đương RLHF nhưng đơn giản hơn
Rủi ro	Overfitting, thiếu đa dạng	Reward hacking, độc hại từ RM	Bias từ dữ liệu preference

SFT phù hợp để dạy định dạng và kiến thức cơ bản, nhưng RLHF là bước cần thiết để nâng cao chất lượng và sự an toàn khi mô hình phải đưa ra quyết định phức tạp. DPO là lựa chọn thay thế khi bạn muốn bỏ qua chi phí huấn luyện RM phức tạp, nhưng RLHF vẫn cho khả năng kiểm soát tinh chỉnh cao hơn qua việc can thiệp vào RM.