Reasoning Distillation — Model nhỏ 'học cách nghĩ' từ model lớn

Reasoning distillation truyền không chỉ đáp án mà cả quy trình suy luận từ model lớn sang model nhỏ, biến 7B thành 'cỗ máy tư duy' chỉ với 17k ví dụ.

DeepSeek-R1 gây chấn động khi chứng minh một model 7B parameters có thể suy luận toán học ngang ngửa GPT-4 — không phải nhờ kiến thức mới, mà nhờ học được "cách nghĩ" từ model lớn. Đây là reasoning distillation: thay vì dạy model nhỏ cái gì đúng, ta dạy chúng làm thế nào để đi từ câu hỏi đến đáp án qua từng bước trung gian.

Vấn đề

Các model nhỏ (7B-14B) thường thất bại ở bài toán đòi hỏi suy luận nhiều bước — không phải vì thiếu dữ liệu thực tế, mà vì thiếu khả năng phân rã vấn đề (decomposition). Khi bạn hỏi "nếu A > B và B > C thì A so với C thế nào?", model nhỏ có thể đoán đúng "A > C" nhờ pattern matching, nhưng sẽ thất bại ở bài toán phức tạp hơn đòi hỏi 5-6 bước logic liên tiếp.

Distillation truyền thống chỉ truyền phân phối đầu ra (soft targets) — dạy model nhỏ bắt chước câu trả lời cuối cùng. Điều này bỏ qua hoàn toàn "lộ trình tư duy" (reasoning trace) mà model lớn đã thực hiện. Kết quả: model nhỏ như học sinh chỉ chép đáp án mà không có bản tính toán — biết kết quả nhưng không biết cách suy luận.

Ý tưởng cốt lõi

Giả thuyết Latent Program: Model lớn không chỉ "biết nhiều hơn" — chúng thực thi các thuật toán ngầm (implicit algorithms). Khi model 540B giải toán, nó không retrieve đáp án từ bộ nhớ, mà chạy một chương trình tâm trí: phân rã → tính toán → xác minh. Distillation truyền thống nén trạng thái cuối của chương trình này; reasoning distillation nén source code của nó.

Cơ chế cốt lõi gồm ba bước:

Chain-of-Thought Transfer. Thay vì cặp (input → answer), ta tạo bộ ba (input → CoT → answer). Model nhỏ học dự đoán không chỉ token cuối cùng, mà cả chuỗi suy luận trung gian. Đây là việc externalize "System 2 thinking" — biến tư duy tự động thành quy trình tường minh mà model có thể học.

Rejection Sampling với Verifiable Intermediates. Synthetic CoT từ model lớn thường chứa lỗi logic. Nhưng với các bài toán có ground truth (math, code), ta có thể lọc: chỉ giữ lại những chuỗi suy luận dẫn đến đáp án đúng. Điểm mạnh: bạn không thể "reject sample" một trực giác mơ hồ của con người, nhưng có thể verify từng bước tính toán của LLM. Điều này tạo ra bộ dữ liệu chất lượng cao hơn human labeling truyền thống.

Feature Geometry & Compositional Learning. Phân tích representation của Baek & Tegmark (ICLR 2025) cho thấy distillation thực sự tạo ra các "hướng suy luận" mới trong không gian activation của model nhỏ — các vector tương ứng với self-reflection, kiểm chứng, và tạo giả thuyết thay thế. Đây không phải ma thuật, mà là cấu trúc hình học học được.

Tại sao 17k ví dụ lại đủ? Vì suy luận là compositional. Thay vì học 1000 bài toán như 1000 pattern riêng lẻ, model học ~100 "primitive tư duy" (so sánh, xác minh, phân rã) có thể kết hợp giải 1000 bài. Bạn đang dạy bảng chữ cái, không phải thuộc lòng từ điển.

Tại sao nó hoạt động

Toán học đằng sau reasoning distillation khác biệt ở chỗ nó tối ưu hóa trên chuỗi thay vì điểm. Trong standard SFT, loss function là cross-entropy trên token cuối cùng. Trong reasoning distillation, loss tính trên toàn bộ chuỗi CoT, ép buộc model học gradient qua các bước trung gian.

Điều này tạo ra học chuyển giao thuật toán: model nhỏ không chỉ nhớ mapping từ A đến B, mà học được control flow — khi nào cần dừng lại kiểm tra, khi nào cần backtrack, khi nào cần thử phương án khác. Nghiên cứu từ Google (2023) cho thấy T5 770M parameters sau distillation vượt trội PaLM 540B (lớn hơn 700 lần) trên GSM8K, chỉ vì nó học được thuật toán trong khi PaLM chỉ dựa vào scale thuần túy.

Tuy nhiên, cơ chế này chỉ hoạt động khi có verifiable intermediates. Nếu bài toán không có đáp án rõ ràng (ví dụ: viết văn sáng tạo), rejection sampling trở nên vô nghĩa và chất lượng CoT giảm sút. Đây là lý do reasoning distillation thường giới hạn ở math, code, và logic có cấu trúc.

Ý nghĩa thực tế

Democratization of Reasoning. DeepSeek-R1 distilled cho phép chạy model suy luận mạnh mẽ trên consumer hardware (24GB VRAM) với chi phí inference bằng 1/100 model gốc. Điều này chuyển dịch computational bottleneck từ pre-training sang inference — thay vì train model to hơn, ta dùng model nhỏ hơn nhưng "nghĩ lâu hơn" và "nghĩ có hệ thống hơn".

Trade-offs và Limitations. Model học trò bị giới hạn bởi "trần nhà" của thầy — nếu thầy không biết giải topology phức tạp, trò cũng không thể học. Ngoài ra, distilled models thường exhibit "over-thinking": sinh ra các bước suy luận dài dòng không cần thiết thay vì "incisive thinking" trực tiếp. Self-distillation (model tự sinh dữ liệu cho chính mình) có thể gây degrade reasoning nếu chuỗi suy luận bị cắt ngắn quá mức (arXiv:2603.24472).

Quality của Synthetic Data. Khi reasoning traces chứa lỗi logic tinh vi, model học trò có xu hướng overfit vào các lỗi này. Cần verifier cứng rắn (compiler, unit test, formal proof checker) để đảm bảo chất lượng, không chỉ dựa vào majority voting.

Đào sâu hơn

Paper gốc:

"Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes" (Google Research, 2023) — nền tảng của CoT distillation
"DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning" (2025) — ứng dụng distillation với 17k examples
"Towards Understanding Distilled Reasoning Models: A Representational Approach" (Baek & Tegmark, ICLR 2025) — phân tích geometry của reasoning vectors

Cùng cụm (Reasoning & RL):

Test-Time Compute Scaling — Không cần model to hơn, chỉ cần nghĩ lâu hơn — cách khác để đạt reasoning mà không cần distillation
GRPO — So sánh nhóm response thay vì dùng critic, memory giảm nửa — thuật toán RL thường đi kèm với reasoning distillation trong pipeline như R1
Process Reward Models — Thưởng từng bước suy luận, không chỉ đáp án cuối — cần thiết để verify CoT trong rejection sampling
DAPO & Dr-GRPO — Fix entropy collapse và variance trong RL dài — kỹ thuật training stability khi scale reasoning
RLVR — Reward từ kết quả verify được (math, code), không hack được — cơ chế tạo dữ liệu sạch cho distillation

Đọc tiếp:

RLHF — Alignment cơ bản, prerequisite cho việc hiểu cách model lớn được train trước khi làm "thầy" cho model nhỏ
DPO — RLHF không cần reward model, không cần RL loop — alternative alignment method nếu không có verifiable rewards