TROISINH
FrontierReasoning & RL

RLVR — Reward từ kết quả verify được (math, code), không hack được

RLVR dùng verifier xác định (unit test, math checker) thay vì reward model học được, loại bỏ reward hacking và tạo nên DeepSeek-R1 chỉ với RL thuần túy

DeepSeek-R1-Zero đã chứng minh một điều gây sốc: có thể huấn luyện model suy luận đạt trình độ o1 mà không cần một dữ liệu SFT nào, chỉ bằng cách dùng Reinforcement Learning với reward có thể verify được. Đây là bước ngoặt trong alignment — thay vì dạy model "làm hài lòng người đánh giá", ta dạy model "giải đúng bài toán". Kết quả là một hệ thống không thể bị "hack" reward và scale được với dữ liệu tự sinh vô hạn.

Vấn đề

RLHF truyền thống dựa trên reward model — một mạng neural được huấn luyện để dự đoán con người thích output nào hơn. Cách này có ba lỗ hổng chết người:

  1. Reward hacking: Model học cách trigger reward model mà không thực sự giải quyết vấn đề (ví dụ: spam từ khóa để đạt điểm cao, hoặc format đẹp nhưng nội dung sai)
  2. Drift: Reward model sai lệch dần so với thực tế khi policy model evolve
  3. Chi phí: Cần hàng nghìn labeler người để đánh giá subjective quality, không scale cho math/code

Với các bài toán có đáp án đúng/sai rõ ràng (math, code, logic), tại sao không dùng trực tiếp verifier thay vì mạng neural để đánh giá?

Ý tưởng cốt lõi

RLVR (Reinforcement Learning with Verifiable Rewards) thay thế reward model bằng các binary verifier không thể bị thao túng: compiler check syntax, unit test check output, hoặc symbolic solver check math proof. Reward chỉ có hai giá trị — 1 nếu đúng, 0 nếu sai.

Cơ chế then chốt là GRPO (Group Relative Policy Optimization) — một biến thể của PPO được tinh gọn:

  • Với mỗi prompt, sinh ra KK completions (thường K=8K=8 đến 1616)
  • Chạy verifier trên từng completion để có reward Ri{0,1}R_i \in \{0,1\}
  • Tính relative advantage: A^i=Riμσ\hat{A}_i = \frac{R_i - \mu}{\sigma} với μ\mu là mean reward của cả nhóm
  • Update policy để tăng likelihood của các completion có advantage dương, giảm các cái âm

Đây là phần quan trọng nhất: Không cần Value Model (critic) để ước tính giá trị tuyệt đối của state. Việc so sánh tương đối trong nhóm (KK sample từ cùng một prompt) tạo ra baseline động, xử lý được vấn đề sparse rewards (hầu hết sample ban đầu đều sai, nhưng vẫn có thể biết cái nào "ít sai hơn").

Nhiều người nhầm tưởng RLVR "dạy" model cách suy luận. Thực tế, RLVR là search compression, không phải capability expansion. Model base (như Qwen2.5 hoặc Llama) đã chứa latent knowledge để giải các bài toán — nó chỉ bị chôn vùi trong 99% paths sai. RLVR dùng verifier như một bộ lọc để concentrate probability mass vào đúng 1% paths đúng đó. Như tinh chỉnh radio: tín hiệu đã có sẵn trong không khí, bạn chỉ cần khóa đúng tần số và triệt nhiễu.

Tại sao nó hoạt động

Verifiers không thể bị hack: Khác với reward model neural có thể bị "bypass" bằng pattern matching, một unit test cho bài toán "2+2=?" chỉ pass khi output đúng là 4. Không có cách nào "đánh lừa" compiler hay symbolic math solver bằng cách viết dài dòng hay dùng từ ngữ hoa mỹ.

Self-baseline từ group: Trong RL truyền thống, việc định nghĩa "tốt" là khó với sparse binary rewards (0 hoặc 1). GRPO giải quyết bằng cách so sánh với chính phân phối hiện tại của model — nếu 7/8 completions đều sai nhưng 1 cái đúng, cái đúng có advantage cao dù reward tuyệt đối chỉ là 1.

Memory efficiency: Loại bỏ Value Model giảm ~40-50% memory usage trong training, cho phép train model reasoning trên GPU consumer (16GB VRAM) mà vẫn dùng GRPO hiệu quả.

Curriculum tự động: Có thể layer rewards — đầu tiên reward format đúng, sau đó reward syntax đúng, cuối cùng reward execution đúng. Điều này ngăn model exploit lỗ hổng của verifier yếu (ví dụ: code chạy được nhưng logic sai).

Ý nghĩa thực tế

DeepSeek-R1-Zero là proof-of-concept mạnh nhất: model base được huấn luyện hoàn toàn bằng RLVR mà không qua SFT (Supervised Fine-Tuning) nào, đạt performance ngang OpenAI o1 trên math benchmarks. Điều này chứng minh reasoning capability có thể emerge từ pure RL với verifiable rewards.

Kết quả thực tế:

  • Qwen2.5-1.5B với RLVR tăng +11.9 điểm GSM8K so với SFT baseline
  • Databricks dùng execution-based verification cho Text2SQL, tăng từ 73.5% lên 75.68% BIRD accuracy
  • Berkeley INTUITOR chứng minh RLVR có thể train với chỉ 1 example và match supervised methods

Limitations rõ ràng:

  • Domain restriction: Chỉ hoạt động nơi có ground truth xác định (math, code, logic, structured data). Vô dụng cho creative writing, brand voice, hay subjective alignment.
  • Search compression risk: Model có thể chỉ trở nên "tự tin hơn" vào các strategies đã có sẵn, thay vì phát minh ra cách giải mới. Để thực sự phát hiện insight mới cần exploration tốt hơn.
  • Verifier quality: Nếu verifier chỉ check surface-level (ví dụ: SQL syntax đúng nhưng logic query sai), model sẽ exploit ngay lập tức.

Đào sâu hơn

Paper gốc:

Bài liên quan TroiSinh:

Cùng cụm reasoning-rl:

Đọc tiếp (Prerequisites & Alignment):

External Resources:

On this page