Process Reward Models — Thưởng từng bước suy luận, không chỉ đáp án cuối

PRM giải quyết bài toán gán tín dụng (credit assignment) trong reasoning dài bằng cách đánh giá từng bước suy luận thay vì chỉ chấm điểm đáp án cuối. Đây là...

Khi DeepSeek-R1 giải một bài toán Olympiad, nó không đoán đáp án rồi viết lý lẽ cho có. Nó thực sự thử nghiệm từng bước, nhận ra lỗi ở bước 3, quay lại, thử phương pháp khác. Làm sao dạy model cách "tự sửa lỗi" này? Bí mật nằm ở Process Reward Models (PRM) — thay vì chỉ thưởng cho đáp án đúng, ta thưởng cho từng dòng suy luận đúng.

Vấn đề

Outcome Reward Models (ORM) — phương pháp truyền thống trong RLHF — chỉ nhìn vào kết quả cuối cùng: nếu đáp án là "42", model nhận reward +1; nếu là "43", nhận 0. Điều này tạo ra credit assignment problem kinh điển: khi chuỗi suy luận (Chain-of-Thought) dài 1000 token và kết quả sai, model không biết lỗi nằm ở bước tính toán hay bước biến đổi đại số. Nó giống như chấm một bài thi Toán chỉ bằng cách nhìn đáp số cuối — học sinh không biết mình sai ở đâu để sửa.

Hệ quả là lãng phí compute. Model sinh ra hàng nghìn token "thinking" nhưng chỉ nhận phản hồi duy nhất ở cuối. Với test-time compute, nơi ta muốn model "nghĩ lâu hơn" bằng cách thử nhiều lối đi khác nhau, ORM trở nên bất khả thi: bạn không thể cắt bỏ nhánh suy luận tồi nếu không biết nó tồi từ bước nào.

Ý tưởng cốt lõi

PRM chuyển từ sparse reward (thưa thớt) sang dense reward (dày đặc) bằng cách gán điểm cho từng bước trung gian. Thay vì hỏi "đáp án đúng không?", PRM hỏi "bước suy luận này có hợp lý không?"

Cơ chế hoạt động như một giám khảo duyệt từng dòng bài làm:

Step-level labeling: Dữ liệu huấn luyện gồm chuỗi suy luận được con người gán nhãn từng bước (hoặc dùng verifier tự động cho math/code). Mỗi token/step có nhãn + (đúng) hoặc - (sai).
Prefix scoring: PRM tính xác suất $P(\text{correct} | \text{prefix})$ — khả năng chuỗi suy luận từ đầu đến bước hiện tại là đúng đắn. Điều này tạo ra "bản đồ địa hình" của không gian suy luận, cho biết đâu là lối đi an toàn.
Guided search: Kết hợp với Monte Carlo Tree Search (MCTS) hoặc Beam Search, PRM đóng vai trò heuristic. Nếu một nhánh suy luận nhận điểm thấp ở bước 5, ta cắt bỏ ngay (pruning) thay vì tốn FLOPs đi đến cuối mới biết sai.

Đây là lý do tại sao RLVR (Reinforcement Learning with Verifiable Rewards) hoạt động hiệu quả với PRM: trong toán học, bạn có thể tự động verify từng bước biến đổi đại số bằng symbolic solver, tạo reward dày đặc mà không cần label thủ công.

That's it. PRM không dạy model "cách suy nghĩ" — nó chỉ cung cấp hệ thống phản hồi chi tiết để model tự tìm ra cách suy nghĩ hiệu quả hơn qua thử và sai.

Tại sao nó hoạt động

Giải quyết bài toán gán tín dụng (Credit Assignment)

Trong RL, khi reward chỉ xuất hiện ở cuối episode dài, gradient phải lan truyền ngược qua hàng nghìn token — vanishing gradient problem. PRM biến chuỗi dài thành nhiều "checkpoint" ngắn, mỗi checkpoint có reward riêng, giúp gradient flow ổn định hơn. Mathematically, thay vì tối ưu $\mathbb{E}[R_\text{final}]$ , ta tối ưu $\sum_{t} \gamma^t r_t$ với $r_t$ là reward tại bước $t$ .

Tận dụng Test-Time Compute

GRPO và các biến thể như DAPO sinh ra nhóm (group) gồm nhiều chuỗi suy luận song song. PRM cho phép so sánh các chuỗi này không chỉ bằng kết quả cuối (binary), mà bằng tổng điểm các bước (continuous). Điều này tạo ra advantage signal mượt mà hơn cho policy gradient, tránh hiện tượng "tất cả đều sai như nhau" hoặc "tất cả đều đúng như nhau" khi dùng ORM.

Process vs Outcome: Trade-off rõ ràng

Nhiều người nhầm tưởng PRM thay thế hoàn toàn ORM. Thực tế, chúng bổ trợ nhau: PRM tốt cho việc "dò đường" trong không gian suy luận rộng, ORM đơn giản hơn cho các bài toán một bước (single-hop). Trong DeepSeek-R1, người ta dùng PRM để tạo "dấu vết suy luận" (reasoning traces) chất lượng cao, rồi dùng distillation để chuyển giao kiến thức này sang model nhỏ hơn.

Ý nghĩa thực tế

Benchmark thực tế: Trên bộ dữ liệu MATH (Olympiad-level), PRM vượt trội ORM đáng kể. Khi kết hợp với Best-of-N sampling (chọn đáp án tốt nhất trong N lần thử), PRM đạt accuracy cao hơn 15-20% so với ORM cùng compute budget. Đặc biệt, PRM cho phép "early stopping" — nếu chuỗi suy luận đi vào ngõ cụt (ví dụ: chia cho 0), model dừng ngay thay vì lãng phí token sinh thêm vô nghĩa.

Ai đang dùng: OpenAI (o1, o3), DeepSeek (R1-Zero), và Google DeepMind (AlphaProof) đều sử dụng PRM hoặc biến thể để tạo reward signal cho reasoning dài. Trong cộng đồng open-source, Open-R1 sử dụng PRM để tạo synthetic data cho reasoning distillation.

Limitations thực tế:

Chi phí dữ liệu: Gán nhãn từng bước đắt gấp 10-100 lần so với gán nhãn kết quả cuối. Đây là lý do RLVR tập trung vào math/code — những domain có verifier tự động.
Định nghĩa "bước" mơ hồ: Một "bước" là một token, một dòng, hay một suy luận logic? Sự không nhất quán trong segmentation ảnh hưởng đến chất lượng PRM.
Over-optimization: Model có thể học "hack" PRM bằng cách viết các bước trông hợp lý nhưng thực chất là tautology (ví dụ: "Bước 1: Ta cần chứng minh điều này. Bước 2: Điều này đúng vì ta đã chứng minh.").

Đào sâu hơn

Paper gốc:

Let's Verify Step by Step (OpenAI, 2023) — Công trình nền tảng định nghĩa PRM và chứng minh lợi thế trên MATH benchmark
A Survey of Process Reward Models (2025) — Tổng quan toàn diện về các phương pháp xây dựng và huấn luyện PRM

Bài liên quan TroiSinh:

Cùng cụm Reasoning & RL:

GRPO — So sánh nhóm response thay vì dùng critic, memory giảm nửa. PRM thường được dùng làm reward source cho GRPO thay vì binary verifier.
Test-Time Compute Scaling — Không cần model to hơn, chỉ cần nghĩ lâu hơn. PRM là cơ chế cho phép "nghĩ lâu" hiệu quả bằng cách search qua không gian suy luận.
RLVR — Reward từ kết quả verify được (math, code). PRM mở rộng RLVR từ final-answer verification xuống step-level verification.
Reasoning Distillation — Model nhỏ "học cách nghĩ" từ model lớn. PRM thường dùng để lọc các reasoning traces chất lượng cao trước khi distil.

Đọc tiếp:

DPO — RLHF không cần reward model. PRM là bước tiến hóa từ binary reward sang dense reward, có thể xem là "DPO cho từng bước suy luận".
Constitutional AI — Model tự critique theo nguyên tắc. PRM có thể xem là một dạng "critic" chuyên biệt cho reasoning steps.

External Resources:

OpenAI: Learning to Reason with LLMs — Giải thích cách o1 sử dụng PRM để tối ưu chuỗi suy luận
Hugging Face Open-R1 — Implementation open-source của PRM cho cộng đồng reproduction DeepSeek-R1