Test-Time Compute Scaling — Không cần model to hơn, chỉ cần nghĩ lâu hơn
Hiểu bản chất Test-Time Compute: thay vì huấn luyện model khổng lồ, hãy để model 'suy nghĩ' lâu hơn khi inference. Từ Chain-of-Thought đến GRPO và RLVR.
DeepSeek-R1 và OpenAI o3 không chỉ là model lớn hơn — họ dùng chiến lược "suy nghĩ lâu hơn" khi trả lời. Đây là Test-Time Compute Scaling: thay vì đốt tiền pre-training để tăng tham số, ta đổi FLOPs sang giai đoạn inference, ép model khai thác triệt để khả năng suy luận ẩn vốn có. Một model 7B được phép "nghĩ" qua 10,000 tokens có thể đánh bại model 70B "đoán ngay" trên bài toán phức tạp — đây là bước chuyển từ System 1 (phản xạ nhanh) sang System 2 (suy luận chậm) trong AI.
Vấn đề
Pre-training đang chạm giới hạn vàng. Dữ liệu chất lượng cao trên internet đang cạn kiệt, và chi phí train model lớn tăng theo hàm mũ trong khi hiệu quả tăng theo logarit. Nhưng điều tệ hơn: model nhỏ thường đã biết cách giải bài toán, nhưng lại bị ép buộc phải "đoán liều" (next-token prediction) thay vì được phép kiểm chứng, backtrack, và tính toán từng bước như con người.
Khi bạn hỏi GPT-4 một bài toán olympiad, nó thường đúng ở lần thử thứ 5 nếu được phép thử nhiều lần. Test-time compute scaling hệ thống hóa hiện tượng này: thay vì hy vọng 1 sample đúng, ta dùng thêm compute để tìm ra lời giải trong không gian câu trả lời.
Ý tưởng cốt lõi
Test-time compute scaling không phải là "chạy model nhiều lần đơn thuần", mà là chiến lược phân bổ FLOPs động trong inference để chuyển đổi implicit reasoning thành explicit reasoning trace. Có hai trục chính:
1. Parallel Scaling (Search-based) Thay vì sinh 1 câu trả lời, sinh candidates (Best-of-N) và dùng Reward Model (ORM/PRM) hoặc verifier để chọn câu tốt nhất. Đây là "thử nhiều cách làm song song rồi chọn cách đúng".
2. Sequential Scaling (Revision-based)
Cho phép model sửa lại đáp án qua nhiều bước (Chain-of-Thought dài, self-correction, beam search trên không gian reasoning). "Budget forcing" (s1 paper) thậm chí ép model nghĩ thêm bằng cách append wait tokens vào context khi nó muốn dừng sớm.
Compute-Optimal Scaling — insight then chốt từ DeepMind 2024 — là việc phân bổ FLOPs không đều: câu hỏi dễ thì trả lời ngay (tiết kiệm), câu khó thì dùng deep reasoning hoặc wide search. Đây là lần đầu tiên LLM có khái niệm "suy nghĩ nhanh cho câu dễ, suy nghĩ kỹ cho câu khó", giống như con người.
Tại sao điều này khác biệt? Truyền thống CoT chỉ là "viết suy nghĩ ra". Test-time compute scaling bao gồm cả việc train model để tự tạo ra các bước suy nghĩ đó thông qua GRPO và RLVR — cho phép model học cách "nghĩ" mà không cần human demonstration dài dòng.
Tại sao nó hoạt động
Giải nén suy nghĩ (Decompression of Reasoning) Văn bản con người là dạng nén lossy. Khi viết lời giải toán, ta bỏ qua 20 bước tư duy trung gian. Test-time compute ép model materialize các bước này thành tokens (CoT) hoặc latent states, biến "nhảy vọt trực giác" thành "tính toán từng bước".
Verifier là chìa khóa Không phải sinh nhiều là đủ — cần cách chọn câu trả lời đúng. Process Reward Models (PRM) thưởng từng bước đúng thay vì chỉ thưởng đáp án cuối, giúp beam search hiệu quả hơn trong không gian suy luận. Điều này đặc biệt quan trọng với RLVR — reward từ kết quả verify được (math, code) không thể bị hack bằng style hay độ dài câu trả lời.
GRPO: Train để nghĩ lâu GRPO loại bỏ Critic model (Value Model) trong PPO, dùng group-relative baseline để train model tự tạo ra các chuỗi suy nghĩ dài với chi phí memory thấp hơn 50%. Điều này làm cho việc train model reasoning khả thi trên phần cứng consumer (16GB VRAM), mở đường cho Reasoning Distillation — model nhỏ học "cách nghĩ" từ model lớn qua synthetic CoT data.
Ý nghĩa thực tế
Benchmarks thực tế:
- DeepMind (2024): Model nhỏ + optimal test-time compute vượt model lớn gấp 14 lần về FLOPs-matched evaluation trên MATH-500.
- s1 (Stanford, 2025): Budget forcing đạt 1000x test-time scaling với Qwen2.5-32B, cạnh tranh với o1-preview.
- ARC-AGI: Ryan Greenblatt đạt 42% score nhờ heavy test-time compute scaling với open models.
Ai đang dùng: OpenAI (o1/o3 series), DeepSeek (R1 với GRPO), Qwen (QwQ), Google (AlphaProof), và cộng đồng open-source (Open-R1).
Limitations thực tế:
- Hardware underutilization: Sequential scaling khiến GPU chạy không hiệu quả (low arithmetic intensity) so với batch processing thuần túy.
- Verifier bottleneck: Không có verifier tốt (PRM chất lượng cao), test-time compute chỉ là expensive random search.
- Latency: Không phù hợp real-time apps (chat, autocomplete) — chủ yếu dùng cho offline reasoning hoặc agent tasks.
- Unlearning risk: Model có thể "sửa sai" theo hướng xấu hơn nếu revision chain không được kiểm soát.
Đào sâu hơn
Paper gốc:
- "Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters" (DeepMind, 2024) — arXiv:2408.03314
- "s1: Simple test-time scaling" (Stanford, 2025) — arXiv:2501.19393
- "The Art of Scaling Test-Time Compute for Large Language Models" (2025) — arXiv:2512.02008
Cùng cụm:
- GRPO — Thuật toán RL để train model reasoning không cần Critic model
- Process Reward Models — Verifier cho từng bước suy luận
- RLVR — Reward từ kết quả verify được (math/code)
- Reasoning Distillation — Chuyển "cách nghĩ" từ model lớn sang model nhỏ
- DAPO & Dr-GRPO — Fix entropy collapse và variance trong RL dài hạn
Đọc tiếp:
- RLHF — Prerequisite: hiểu reward models và PPO trước khi đi sâu vào GRPO
- DPO — So sánh với phương pháp alignment không cần RL
- Constitutional AI — Self-critique mechanism liên quan đến reasoning verification
Native Long-Context Training — Train dài từ đầu, reason tốt hơn extend
Tại sao train model từ đầu với context 128K tốt hơn hẳn việc 'kéo dài' model 4K? Giải mã bản chất native long-context training và tại sao attention cần được 'luyện' đúng từ đầu.
GRPO — So sánh nhóm response thay vì dùng critic, memory giảm nửa
GRPO loại bỏ Value Model trong PPO bằng cách dùng thống kê nhóm response để tính advantage, giảm 50% memory và mở đường cho reasoning models như DeepSeek-R1