GRPO — So sánh nhóm response thay vì dùng critic, memory giảm nửa

GRPO loại bỏ Value Model trong PPO bằng cách dùng thống kê nhóm response để tính advantage, giảm 50% memory và mở đường cho reasoning models như DeepSeek-R1

DeepSeek-R1 đã chứng minh rằng không cần SFT data cũng có thể dạy model suy luận toán học cực kỳ hiệu quả — bí quyết nằm ở GRPO, một biến thể RL loại bỏ hoàn toàn Critic network và thay bằng cách so sánh tương đối giữa các câu trả lời trong cùng một nhóm. Kỹ thuật này cắt giảm 50% memory training và là nền tảng cho làn sóng "GPU poor" reasoning models đang nổi lên trong cộng đồng open-source.

Vấn đề

PPO (Proximal Policy Optimization) — thuật toán RLHF truyền thống — yêu cầu duy trì đồng thời bốn mô hình: Policy, Reference, Reward, và Value (Critic). Value Model đặc biệt tốn kém: nó phải dự đoán giá trị kỳ vọng (expected return) cho từng trạng thái — trong khi "trạng thái" của LLM là chuỗi token độ dài biến đổi, không gian trạng thái cực kỳ lớn và không có cấu trúc rõ ràng.

Với sparse binary rewards (1 nếu đáp án đúng, 0 nếu sai), việc huấn luyện Critic để dự đoán "giá trị tương lai" trở thành bài toán thống kê bất khả thi: Critic cố gắng đoán xác suất một chuỗi suy luận chưa hoàn thành sẽ đúng hay sai, trong khi chính sự đúng sai chỉ được xác định ở bước cuối cùng. Điều này tạo ra gradient noise cao, training instability, và đòi hỏi gấp đôi VRAM (phải lưu gradient cho cả Policy và Critic).

Ý tưởng cốt lõi

GRPO (Group Relative Policy Optimization) nhận ra rằng việc dự đoán giá trị tuyệt đối là lãng phí thống kê đối với reasoning tasks. Thay vì hỏi "Giá trị của trạng thái này là bao nhiêu?", GRPO hỏi "Câu trả lời này tốt hơn hay tệ hơn những gì tôi thường tạo ra?"

Thay vì huấn luyện một Value Model riêng, GRPO sinh ra một nhóm $G$ response (thường $G=8$ đến $16$ ) từ cùng một prompt dưới policy hiện tại, tính reward cho từng response, rồi dùng giá trị trung bình của chính nhóm đó làm baseline:

$\hat{A}_i = \frac{R_i - \mu}{\sigma}$

Trong đó $\mu$ là mean và $\sigma$ là độ lệch chuẩn của reward trong nhóm. Advantage âm nghĩa là "tệ hơn trung bình", dương nghĩa là "tốt hơn trung bình".

Đây là "aha moment" của GRPO: baseline tự điều chỉnh (self-tuning) và luôn fresh. Không cần neural network để ước lượng giá trị, không có parameters phụ cần optimize, không bị distribution shift giữa Value Model và Policy Model.

Cơ chế này hoạt động hiệu quả nhờ ba lý do cốt lõi:

Self-baseline không cần training: Mean của nhóm là ước lượng không thiên lệch (unbiased estimator) cho expected return của policy hiện tại trên prompt đó. Nó luôn cập nhật theo khả năng hiện tại của model — khi model giỏi hơn, baseline tự động tăng.
Xử lý sparse rewards: Với binary reward (0/1), nếu trong nhóm 8 câu trả lời có 3 đúng và 5 sai, GRPO tự động gán advantage +0.5 cho đúng và -0.5 cho sai — signal rõ ràng mà không cần Critic phải "đoán" xác suất.
Giảm variance: Trung bình của $G$ mẫu giảm phương sai đi $\sqrt{G}$ . Với $G=16$ , variance giảm 4 lần so với ước lượng single-sample, tạo gradient ổn định hơn cả khi dùng Critic network phức tạp.

Tại sao nó hoạt động

Mathematically, GRPO tận dụng tính chất relative comparison thay vì absolute prediction. Trong PPO, Critic cố gắng học hàm $V(s)$ để tính advantage $A = R - V(s)$ . Nhưng với LLM, $s$ là chuỗi token dài và phức tạp, việc học $V(s)$ tương đương với việc học một hàm đánh giá "một nửa bài toán đang làm dở có dẫn đến đáp án đúng không" — cực kỳ khó khăn vì cùng một prefix có thể dẫn đến nhiều đáp án khác nhau tùy thuộc vào các bước suy luận tiếp theo.

GRPO sidesteps vấn đề này bằng cách so sánh within-group. Nếu policy hiện tại tạo ra cả câu đúng và câu sai từ cùng một prompt, chúng ta biết chắc chắn rằng câu đúng tốt hơn câu sai — không cần biết giá trị tuyệt đối của chúng là bao nhiêu.

Về mặt tính toán, GRPO chỉ yêu cầu backpropagation qua Policy model. Không có Value Model nghĩa là không cần lưu gradients cho Critic, giảm ~50% memory usage (từ ~32GB xuống ~16GB cho model 7B). Điều này cho phép các nhóm nghiên cứu nhỏ (GPU poor) có thể fine-tune reasoning models ngay trên consumer hardware như RTX 4090.

Tuy nhiên, "vanilla" GRPO có điểm yếu: nếu tất cả response trong nhóm đều đúng hoặc đều sai (all-correct/all-wrong groups), variance bị collapse về zero và gradient biến mất. Đây là lý do các biến thể như DAPO và Dr-GRPO ra đời — chúng thêm dynamic sampling (chỉ giữ lại các nhóm có đủ cả đúng và sai) và điều chỉnh clipping để tránh entropy collapse.

Ý nghĩa thực tế

GRPO là nền tảng của DeepSeek-R1 và DeepSeek-R1-Zero — model đạt performance tương đương OpenAI o1 mà không cần một dòng SFT data nào, chỉ dùng RLVR (Reinforcement Learning with Verifiable Rewards) thuần túy. Điều này chứng minh rằng reasoning capability có thể emerge từ việc tối ưu reward verifiable (như kết quả phép tính toán học, unit test code) mà không cần dữ liệu human demonstration.

So sánh với DPO (Direct Preference Optimization) — cũng bỏ Critic nhưng dùng offline dataset cố định — GRPO là online method: nó sinh response mới liên tục trong quá trình training, cho phép policy khám phá các chiến lược suy luận mới mà không bị giới hạn bởi dữ liệu cũ.

Hạn chế: GRPO chỉ hoạt động tốt với verifiable rewards — những bài toán có đáp án đúng/sai rõ ràng như toán học, lập trình, logic. Với các task mở như creative writing hoặc đánh giá subjective quality (ví dụ: "câu trả lời này hay hơn?"), việc định nghĩa reward rõ ràng là bất khả thi, và GRPO sẽ không hiệu quả bằng RLHF truyền thống hoặc KTO.

Đào sâu hơn

Paper gốc:

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models (Feb 2024) — Giới thiệu GRPO và chứng minh hiệu quả trên bài toán toán học.
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (Jan 2025) — Scaling GRPO lên reasoning models cấp độ SOTA mà không cần SFT data.

Cùng cụm:

Test-Time Compute Scaling — GRPO là engine cho việc scaling inference-time computation thông qua RL.
Process Reward Models — Kết hợp GRPO với PRM để thưởng từng bước suy luận thay vì chỉ thưởng kết quả cuối.
DAPO & Dr-GRPO — Các cải tiến fix entropy collapse và variance issues trong GRPO vanilla.
RLVR — Nguyên lý dùng verifiable rewards làm nền tảng cho GRPO.
Reasoning Distillation — Chuyển giao capability từ model lớn (được train bằng GRPO) sang model nhỏ.

Đọc tiếp:

RLHF — Cơ chế alignment truyền thống mà GRPO thay thế/cải tiến.
DPO — Phương pháp alignment offline không cần RL, đối chiếu với GRPO online.