RLVR — Reward từ kết quả verify được (math, code), không hack được

RLVR dùng verifier xác định (unit test, math checker) thay vì reward model học được, loại bỏ reward hacking và tạo nên DeepSeek-R1 chỉ với RL thuần túy

DeepSeek-R1-Zero đã chứng minh một điều gây sốc: có thể huấn luyện model suy luận đạt trình độ o1 mà không cần một dữ liệu SFT nào, chỉ bằng cách dùng Reinforcement Learning với reward có thể verify được. Đây là bước ngoặt trong alignment — thay vì dạy model "làm hài lòng người đánh giá", ta dạy model "giải đúng bài toán". Kết quả là một hệ thống không thể bị "hack" reward và scale được với dữ liệu tự sinh vô hạn.

Vấn đề

RLHF truyền thống dựa trên reward model — một mạng neural được huấn luyện để dự đoán con người thích output nào hơn. Cách này có ba lỗ hổng chết người:

Reward hacking: Model học cách trigger reward model mà không thực sự giải quyết vấn đề (ví dụ: spam từ khóa để đạt điểm cao, hoặc format đẹp nhưng nội dung sai)
Drift: Reward model sai lệch dần so với thực tế khi policy model evolve
Chi phí: Cần hàng nghìn labeler người để đánh giá subjective quality, không scale cho math/code

Với các bài toán có đáp án đúng/sai rõ ràng (math, code, logic), tại sao không dùng trực tiếp verifier thay vì mạng neural để đánh giá?

Ý tưởng cốt lõi

RLVR (Reinforcement Learning with Verifiable Rewards) thay thế reward model bằng các binary verifier không thể bị thao túng: compiler check syntax, unit test check output, hoặc symbolic solver check math proof. Reward chỉ có hai giá trị — 1 nếu đúng, 0 nếu sai.

Cơ chế then chốt là GRPO (Group Relative Policy Optimization) — một biến thể của PPO được tinh gọn:

Với mỗi prompt, sinh ra $K$ completions (thường $K=8$ đến $16$ )
Chạy verifier trên từng completion để có reward $R_i \in \{0,1\}$
Tính relative advantage: $\hat{A}_i = \frac{R_i - \mu}{\sigma}$ với $\mu$ là mean reward của cả nhóm
Update policy để tăng likelihood của các completion có advantage dương, giảm các cái âm

Đây là phần quan trọng nhất: Không cần Value Model (critic) để ước tính giá trị tuyệt đối của state. Việc so sánh tương đối trong nhóm ( $K$ sample từ cùng một prompt) tạo ra baseline động, xử lý được vấn đề sparse rewards (hầu hết sample ban đầu đều sai, nhưng vẫn có thể biết cái nào "ít sai hơn").

Nhiều người nhầm tưởng RLVR "dạy" model cách suy luận. Thực tế, RLVR là search compression, không phải capability expansion. Model base (như Qwen2.5 hoặc Llama) đã chứa latent knowledge để giải các bài toán — nó chỉ bị chôn vùi trong 99% paths sai. RLVR dùng verifier như một bộ lọc để concentrate probability mass vào đúng 1% paths đúng đó. Như tinh chỉnh radio: tín hiệu đã có sẵn trong không khí, bạn chỉ cần khóa đúng tần số và triệt nhiễu.

Tại sao nó hoạt động

Verifiers không thể bị hack: Khác với reward model neural có thể bị "bypass" bằng pattern matching, một unit test cho bài toán "2+2=?" chỉ pass khi output đúng là 4. Không có cách nào "đánh lừa" compiler hay symbolic math solver bằng cách viết dài dòng hay dùng từ ngữ hoa mỹ.

Self-baseline từ group: Trong RL truyền thống, việc định nghĩa "tốt" là khó với sparse binary rewards (0 hoặc 1). GRPO giải quyết bằng cách so sánh với chính phân phối hiện tại của model — nếu 7/8 completions đều sai nhưng 1 cái đúng, cái đúng có advantage cao dù reward tuyệt đối chỉ là 1.

Memory efficiency: Loại bỏ Value Model giảm ~40-50% memory usage trong training, cho phép train model reasoning trên GPU consumer (16GB VRAM) mà vẫn dùng GRPO hiệu quả.

Curriculum tự động: Có thể layer rewards — đầu tiên reward format đúng, sau đó reward syntax đúng, cuối cùng reward execution đúng. Điều này ngăn model exploit lỗ hổng của verifier yếu (ví dụ: code chạy được nhưng logic sai).

Ý nghĩa thực tế

DeepSeek-R1-Zero là proof-of-concept mạnh nhất: model base được huấn luyện hoàn toàn bằng RLVR mà không qua SFT (Supervised Fine-Tuning) nào, đạt performance ngang OpenAI o1 trên math benchmarks. Điều này chứng minh reasoning capability có thể emerge từ pure RL với verifiable rewards.

Kết quả thực tế:

Qwen2.5-1.5B với RLVR tăng +11.9 điểm GSM8K so với SFT baseline
Databricks dùng execution-based verification cho Text2SQL, tăng từ 73.5% lên 75.68% BIRD accuracy
Berkeley INTUITOR chứng minh RLVR có thể train với chỉ 1 example và match supervised methods

Limitations rõ ràng:

Domain restriction: Chỉ hoạt động nơi có ground truth xác định (math, code, logic, structured data). Vô dụng cho creative writing, brand voice, hay subjective alignment.
Search compression risk: Model có thể chỉ trở nên "tự tin hơn" vào các strategies đã có sẵn, thay vì phát minh ra cách giải mới. Để thực sự phát hiện insight mới cần exploration tốt hơn.
Verifier quality: Nếu verifier chỉ check surface-level (ví dụ: SQL syntax đúng nhưng logic query sai), model sẽ exploit ngay lập tức.

Đào sâu hơn

Paper gốc:

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models — Giới thiệu GRPO, nền tảng toán học cho RLVR
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning — DeepSeek-R1-Zero, chứng minh RLVR pure có thể tạo reasoning mà không cần SFT data

Bài liên quan TroiSinh:

Cùng cụm reasoning-rl:

GRPO — So sánh nhóm response thay vì dùng critic, memory giảm nửa — Chi tiết thuật toán GRPO, cách tính advantage và loại bỏ Value Model
DAPO & Dr-GRPO — Fix entropy collapse và variance trong RL dài — Các biến thể nâng cao của GRPO để ổn định training trên long-horizon reasoning
Process Reward Models — Thưởng từng bước suy luận, không chỉ đáp án cuối — Khi cần reward dày hơn binary 0/1, PRM cho điểm từng bước suy luận
Reasoning Distillation — Model nhỏ "học cách nghĩ" từ model lớn — Cách transfer capability từ model đã train bằng RLVR sang model nhỏ hơn
Test-Time Compute Scaling — Không cần model to hơn, chỉ cần nghĩ lâu hơn — RLVR thường đi kèm với test-time compute để tăng cơ hội tìm ra đáp án đúng

Đọc tiếp (Prerequisites & Alignment):

RLHF — Reward từ con người, dạy model theo preference — Hiểu baseline PPO và reward model để thấy tại sao RLVR là bước nhảy vọt
DPO — RLHF không cần reward model, không cần RL loop — So sánh với offline alignment method khác
Online DPO — Generate response on-the-fly thay vì offline dataset cố định — Khi cần online learning nhưng không có verifier xác định

External Resources:

Promptfoo: RLVR Explained — Giải thích trực quan về "search compression" vs "capability expansion"
Fireworks AI: Reinforcement Learning with Verifiable Reward — GRPO intuition và production tips