Pre-training + Fine-tuning — Học rộng trước, chuyên sâu sau

Tại sao GPT-4 tốn 100 triệu USD để train nhưng bạn có thể fine-tune Llama 3 trên laptop? Hiểu bản chất hai giai đoạn tạo nên mọi LLM hiện đại.

Tại sao OpenAI phải đốt hàng trăm triệu đô la để tạo ra GPT-4, nhưng một sinh viên có thể "dạy lại" model tương tự chỉ với vài trăm đô tiền điện? Sự phân chia giữa pre-training (học trước) và fine-tuning (tinh chỉnh sau) là bí mật đằng sau sự dân chủ hóa AI — nó tách biệt việc "học cách đọc hiểu thế giới" khỏi việc "học cách trả lời câu hỏi cụ thể".

Vấn đề

Nếu bạn muốn có một trợ lý AI chuyên về luật Việt Nam, cách tiếp cận ngây thơ nhất là thu thập hàng triệu văn bản pháp luật và train một model từ con số không. Vấn đề? Chi phí tính toán sẽ rơi vào hàng chục triệu USD và cần hàng nghìn GPU chạy liên tục trong tháng trời. Đó là chưa kể dữ liệu: bạn cần cả nghìn tỷ token từ sách báo, Wikipedia, code để model học được ngôn ngữ và logic cơ bản trước khi chạm vào luật.

Mọi tổ chức đều làm điều này từ đầu là bất khả thi. Và nếu mỗi task (luật, y tế, tài chính) đều cần một model riêng được train từ zero, AI sẽ mãi là đặc quyền của Big Tech.

Ý tưởng cốt lõi

Giải pháp là học chuyển giao (transfer learning) theo hai giai đoạn rõ rệt:

Giai đoạn 1: Pre-training (Học rộng) Model được "học đại học" trên internet — hàng nghìn tỷ token văn bản đa dạng. Ở đây, model học cấu trúc ngữ pháp, kiến thức thế giới (facts), khả năng suy luận cơ bản, và "bản năng" ngôn ngữ. Đây là quá trình tốn kém, cần cluster hàng nghìn GPU H100 chạy song song (data parallelism, tensor parallelism), và tuân theo scaling laws (Chinchilla) để cân bằng kích thước model và lượng data.

Giai đoạn 2: Fine-tuning (Học sâu) Lấy model đã học rộng (base model như Llama 3, GPT-4 base) và "đào tạo thêm" trên dataset nhỏ, chất lượng cao (thường chỉ vài nghìn đến vài triệu token). Ở đây, model học cách định dạng output (JSON, văn bản trả lời), tuân thủ instruction, và tinh chỉnh kiến thức chuyên ngành.

Đây là sự phân tách "ý tưởng" và "hành động". Pre-training tạo ra "bộ não" biết đọc hiểu; fine-tuning dạy bộ não đó "cách ứng xử" trong từng tình huống cụ thể. Điểm "aha" là bạn không cần dạy lại cách đọc từ đầu — chỉ cần điều chỉnh cách ứng dụng kiến thức đã có.

Tại sao nó hoạt động

Kiến trúc phân tầng của Transformer Các lớp (layers) sâu hơn trong Transformer học các đặc trưng (features) ngày càng trừu tượng. Các lớp đầu học về ngữ pháp, từ vựng; các lớp sau học về logic, reasoning, và khả năng thực hiện task. Khi fine-tune, bạn chỉ cần điều chỉnh các lớp cao để thay đổi hành vi output, trong khi giữ nguyên các lớp thấp chứa kiến thức ngôn ngữ.

Tối ưu hóa có chọn lọc Trong fine-tuning, gradient descent chỉ cần cập nhật một phần nhỏ không gian tham số. Các phương pháp như LoRA (sẽ học ở Level 1) chỉ train < 1% số tham số, dựa trên giả thuyết rằng thay đổi cần thiết nằm trong không gian con (low-rank) nhỏ của ma trận trọng số.

Tính kinh tế của tri thức Pre-training là chi phí cố định (fixed cost) khổng lồ (GPT-4 ~ $100M, Llama 3 405B ~$ 30-50M compute cost), nhưng mang lại "tài sản chung" — kiến thức ngôn ngữ. Fine-tuning là chi phí biến đổi (marginal cost) thấp, cho phép cá nhân hóa model cho từng domain với chi phí hàng trăm đô la thay vì hàng triệu.

Ý nghĩa thực tế

Dân chủ hóa AI Nhờ sự tách biệt này, cộng đồng open-source có thể lấy Llama 3, Mistral, hay Qwen (đã pre-trained bởi các công ty lớn) và fine-tune cho y tế, luật, hoặc văn học Việt Nam mà không cần sở hữu siêu máy tính. Đây là lý do tại sao fine-tuning trở thành kỹ năng cốt lõi cho ML engineers.

Giới hạn của fine-tuning Fine-tuning không thể bù đắp cho kiến thức thiếu hụt trong pre-training. Nếu model gốc chưa từng thấy dữ liệu tiếng Việt pháp lý trong pre-training, fine-tuning chỉ có thể "tổ chức lại" kiến thức có sẵn, không thể tạo ra kiến thức ngôn ngữ mới từ hư không. Đây là lý do RAG (truy xuất kiến thức ngoài) thường kết hợp với fine-tuning cho các domain hiếm.

Tối ưu phần cứng Pre-training đòi hỏi mixed precision training, gradient checkpointing, và learning rate scheduling phức tạp để xử lý hàng nghìn GPU. Fine-tuning có thể dùng QLoRA (4-bit quantization + LoRA) trên một GPU consumer 24GB.

Đào sâu hơn

Paper gốc:

"Attention Is All You Need" (Vaswani et al., 2017) — nền tảng kiến trúc Transformer dùng cho cả pre-training và fine-tuning
"Training Compute-Optimal Large Language Models" (Hoffmann et al., 2022) — Chinchilla scaling laws xác định tỷ lệ vàng giữa model size và data cho pre-training
"Llama 2: Open Foundation and Fine-Tuned Chat Models" (Touvron et al., 2023) — case study thực tế về pipeline pre-training → supervised fine-tuning → RLHF

Bài liên quan TroiSinh:

Cùng cụm (Training at Scale):

Scaling Laws (Chinchilla) — Quy luật quyết định cần bao nhiêu data và compute cho pre-training
Transfer Learning — Cơ chế học chuyển giao đằng sau pre-training/fine-tuning
Data Parallelism — Cách chia data cho hàng nghìn GPU trong giai đoạn pre-training
Mixed Precision (FP16/BF16) — Kỹ thuật bắt buộc để pre-training không bị chậm
Gradient Checkpointing — Cách trade-off compute để train model lớn hơn khi VRAM không đủ

Đọc tiếp (Level 1 — Breakthroughs):

DPO — Cải tiến thay thế RLHF trong giai đoạn fine-tuning cuối cùng
LoRA — Fine-tuning hiệu quả chỉ cập nhật 0.1% tham số
QLoRA — Fine-tune 70B model trên GPU 24GB như thế nào

External resources:

"The Illustrated Transformer" (Jay Alammar) — visual explanation kiến trúc dùng trong cả hai giai đoạn
HuggingFace "Fine-tuning LLMs" course — thực hành fine-tuning với PEFT