Instruction Tuning — Từ 'nối text' thành 'làm theo lệnh'

Cách biến model 'tiên tri' thành trợ lý thực thụ — từ next-token prediction sang instruction following chỉ bằng cách đổi cách format data huấn luyện

Trước khi có Instruction Tuning, GPT-3 chỉ là một cỗ máy "nối chữ". Bạn hỏi "Thủ đô của Pháp là gì?", nó có thể trả lời "Thủ đô của Đức là gì?" — vì nó được huấn luyện để đoán tiếp tục tiêu đề diễn đàn, không phải để trả lời câu hỏi. Instruction Tuning chính là cây cầu biến model từ "kẻ đoán chữ" thành "trợ lý biết nghe lệnh" — và đây là bước bắt buộc trong pipeline tạo nên ChatGPT.

Vấn đề

Pre-training — giai đoạn model đọc hàng terabyte text từ internet — tạo ra một "con vẹt thống kê" với kiến thức khổng lồ nhưng không có khái niệm về "tuân thủ chỉ thị". Model học được rằng sau chuỗi "Hôm nay trời" thường đến "nắng", nhưng không học được rằng khi thấy tiền tố "### Human: ... ### Assistant:" thì phải trả lời câu hỏi.

Cách tiếp cận cũ là Few-shot Prompting — chèn 3-4 ví dụ mẫu vào context để "dạy" model cách định dạng. Nhưng cách này lãng phí context window (bạn phải dùng 1000 token để dạy format thay vì chứa nội dung thực sự) và không scale được — nếu model chưa từng thấy task lạ, few-shot có thể hoàn toàn vô hiệu.

Vấn đề cốt lõi: Làm sao để "bake" khả năng làm theo lệnh vào chính trọng số model, thay vì dựa vào prompt kỹ thuật?

Ý tưởng cốt lõi

Instruction Tuning là Supervised Fine-Tuning (SFT) trên data được định dạng lại thành cặp (instruction, response). Thay vì huấn luyện trên raw text ngẫu nhiên từ web, bạn huấn luyện trên hàng triệu cặp "câu hỏi - câu trả lời" chất lượng cao.

Format dữ liệu trông như thế này:

### Instruction:
Viết một đoạn code Python để đọc file CSV.

### Response:
import pandas as pd
df = pd.read_csv('data.csv')
...

Hoặc format Alpaca nổi tiếng:

Dưới đây là một chỉ thị mô tả tác vụ...
### Instruction:
`{viết lại câu hỏi}`

### Response:
`{câu trả lời mong muốn}`

Điểm mấu chốt: Bạn không thay đổi kiến trúc model hay thuật toán tối ưu. Vẫn là objective quen thuộc "dự đoán token tiếp theo" (next-token prediction). Nhưng vì dữ liệu huấn luyện giờ có cấu trúc Q&A, model học được rằng khi thấy pattern "### Instruction:", đầu ra cần là câu trả lời hữu ích chứ không phải tiếp tục pattern cũ.

Đây chính là "aha moment": Bạn không dạy model kiến thức mới — kiến thức đã có từ pre-training. Bạn chỉ dạy nó giao diện người dùng — cách đóng gói kiến thức ấy để đáp ứng lệnh cụ thể. Giống như dạy một giáo sư tri thức uyên bác cách làm nhân viên tổng đài: "Khi có người hỏi, bạn trả lời; đừng tự dưng đọc tiếp giáo trình."

Sự tinh tế nằm ở việc model học được zero-shot generalization. Ngay cả khi chưa từng thấy câu hỏi cụ thể "Viết thơ về blockchain", nó vẫn trả lời được vì đã học pattern "tuân thủ format trả lời cho mọi chỉ thị".

Tại sao nó hoạt động

Bản chất toán học vẫn là tối thiểu hóa cross-entropy loss trên các token của response. Nhưng gradient updates bây giờ có điều kiện: chúng tối ưu P(answer | instruction) thay vì P(next_token | previous_tokens_generic).

Hiệu quả xuất phát từ sự dịch chuyển phân phối (distribution shift):

Pre-training: Dữ liệu hỗn tạp — mix giữa code, forum, tài liệu kỹ thuật, văn xuôi không liên quan.
Instruction tuning: Dữ liệu được lọc (thường synthetic từ GPT-4 hoặc con người) với chất lượng cao, task rõ ràng.

Một insight quan trọng: Instruction tuning dạy format compliance và task structure. Kể cả khi gặp task lạ, model biết rằng output cần có cấu trúc logic, không được bỏ dở giữa chừng hay lảm nhảm ngoài lề. Đây là lý do tại sao sau bước này, model có thể làm việc với Chain-of-Thought — nó đã học cách "nghĩ từng bước" khi được yêu cầu.

Ý nghĩa thực tế

Zero-shot era: Bạn không cần chèn ví dụ vào prompt nữa. Chỉ cần ra lệnh trực tiếp, model hiểu và thực thi. Đây là nền tảng cho mọi chatbot hiện đại.

Phân biệt rõ các giai đoạn:

Pre-training: Cho model biết chuyện gì (kiến thức thế giới).
Instruction Tuning: Cho model biết cách trả lời (giao diện trợ lý).
RLHF: Cho model biết trả lời như thế nào là tốt (an toàn, hữu ích, trung thực).

Benchmark: FLAN (Google, 2021) chứng minh instruction tuning trên 62 task cho phép model zero-shot vượt trội so với few-shot giant models. Alpaca (Stanford, 2023) chứng minh có thể dùng chính GPT-3.5 để tạo 52k instruction pairs chất lượng cao để tune model nhỏ hơn.

Giới hạn:

Phụ thuộc data: Nếu dataset chứa nhiều câu trả lời sai hoặc toxic, model sẽ học theo (garbage in, garbage out).
Chưa đủ an toàn: Model sau instruction tuning có thể rất "hiểu chuyện" nhưng vẫn sẵn sàng trả lời yêu cầu nguy hiểm nếu không có Reward Modeling và RLHF sau đó.
Quên kiến thức cũ: Nếu tune quá mức trên dataset hẹp, model có thể bị "catastrophic forgetting" (mất khả năng viết thơ để tập trung trả lời câu hỏi), mặc dù thường nhẹ hơn full fine-tuning nhờ LoRA.

Ai dùng: Mọi model chat hiện nay — GPT-3.5 Instruct, Llama-2 Chat, Mistral Instruct, Claude — đều trải qua bước này. Đây là "lớp sơn" biến base model thành chat model.

Đào sâu hơn

Paper gốc:

"Finetuned Language Models Are Zero-Shot Learners" (FLAN, 2021) — bài gốc chứng minh instruction tuning cho phép zero-shot task generalization.
"Self-Instruct: Aligning Language Models with Self-Generated Instructions" (2022) — phương pháp tạo instruction data rẻ tiền bằng cách dùng chính model để sinh câu hỏi và câu trả lời.
"Training Language Models to Follow Instructions with Human Feedback" (InstructGPT, 2022) — công trình của OpenAI đặt nền móng cho ChatGPT.

Bài liên quan TroiSinh:

Cùng cụm: Supervised Fine-Tuning (kỹ thuật nền tảng), RLHF (bước tiếp theo để an toàn), Prompt Engineering (zero-shot vs few-shot), Chain-of-Thought (lý do tại sao instruction tuning xong mới dùng CoT hiệu quả), LoRA (cách làm instruction tuning trên GPU nhỏ), Reward Modeling (phần tiếp theo của pipeline).
Đọc tiếp: QLoRA (instruction tuning trên GPU 24GB), DPO (bỏ qua reward model vẫn align được), GRPO (hướng tiên tiến dùng RL cho reasoning).

Mở rộng:

HuggingFace TRL library — SFTTrainer implement instruction tuning hiệu quả với flash attention và gradient checkpointing.
Stanford Alpaca GitHub — repo mở với data generation script và training code minh họa.