Fine-tuning là gì?

Fine-tuning là kỹ thuật huấn luyện lại mô hình AI trên dữ liệu riêng để tối ưu cho tác vụ cụ thể. Tìm hiểu cơ chế hoạt động, ưu nhược điểm và khi nào nên dùn...

Định nghĩa

Fine-tuning là quá trình lấy một mô hình AI đã được huấn luyện trước (pre-trained model) — thường là Large Language Model (LLM) như GPT, LLaMA hay BERT — và tiếp tục huấn luyện thêm trên tập dữ liệu nhỏ, chuyên biệt để điều chỉnh hành vi, kiến thức hoặc phong cách đầu ra cho một tác vụ cụ thể. Thay vì xây dựng mô hình từ con số không (training from scratch) tốn hàng triệu đô la và tháng trời cùng hàng nghìn GPU, fine-tuning chỉ cập nhật một phần trọng số (weights) của mô hình, giúp tiết kiệm tài nguyên đáng kể trong khi vẫn đạt hiệu suất cao cho domain riêng.

Giải thích chi tiết

Cơ chế hoạt động: Transfer Learning

Fine-tuning dựa trên nguyên lý Transfer Learning — chuyển giao tri thức. Mô hình pre-trained đã "học" được các đặc trưng ngôn ngữ tổng quát (cú pháp, ngữ nghĩa, logic) từ khối dữ liệu khổng lồ (Internet, sách, Wikipedia). Fine-tuning không dạy lại từ đầu, mà "mài giũa" các kiến thức đó để phù hợp với miền dữ liệu hẹp hơn.

Quá trình này thường bao gồm:

Đóng băng (Freezing): Giữ nguyên phần lớn trọng số của các tầng (layers) đầu để bảo toàn kiến thức tổng quát
Cập nhật có chọn lọc: Chỉ cho phép điều chỉnh trọng số ở các tầng cuối (output layers) hoặc sử dụng kỹ thuật PEFT (Parameter-Efficient Fine-Tuning) như LoRA để chỉ huấn luyện thêm một lượng nhỏ tham số mới
Learning rate thấp: Sử dụng tốc độ học nhỏ hơn pre-training rất nhiều (thường từ 10^-5 đến 10^-4) để tránh "xóa" kiến thức cũ — hiện tượng gọi là catastrophic forgetting

Phân biệt các cấp độ Fine-tuning

Không phải fine-tuning nào cũng giống nhau. Có ba cấp độ phổ biến:

Full Fine-tuning: Cập nhật toàn bộ trọng số của mô hình. Hiệu quả cao nhất nhưng tốn VRAM, thời gian và dễ gây overfitting nếu dataset nhỏ.
Partial Fine-tuning: Chỉ cập nhật các tầng cuối hoặc attention heads. Cân bằng giữa hiệu suất và chi phí.
Instruction Tuning: Một dạng fine-tuning đặc biệt sử dụng dataset theo cặp (instruction, output) để dạy mô hình cách "tuân lệnh" thay vì chỉ dự đoán token tiếp theo. Đây là nền tảng tạo nên ChatGPT.

Catastrophic Forgetting và cách phòng tránh

Đây là rủi ro lớn nhất khi fine-tuning: mô hình "quên" kiến thức tổng quát để nhồi nhét dữ liệu mới. Ví dụ, nếu bạn fine-tune LLaMA chỉ trên dữ liệu luật Việt Nam quá mức, nó có thể mất khả năng viết code Python hoặc trả lời câu hỏi toán học cơ bản.

Giải pháp:

Regularization: Thêm penalty vào hàm mất mát để trọng số không lệch quá xa bản gốc
Replay training: Xen kẽ dữ liệu fine-tuning với dữ liệu tổng quát trong quá trình huấn luyện
Adapter/LoRA: Chỉ thêm các module nhỏ, giữ nguyên weights gốc hoàn toàn

Ví dụ thực tế

Chatbot ngân hàng số tại Việt Nam

Một ngân hàng lớn tại Việt Nam muốn chatbot tự động hiểu được tiếng lóng tài chính địa phương như "lướt sóng chứng khoán", "bắt đáy crypto", hay xử lý các từ viết tắt tiếng Việt không dấu ("ck" = chứng khoán, "ts" = trái phiếu). Thay vì xây dựng LLM từ đầu, họ lấy mô hình PhoGPT (của VinAI) làm nền tảng và fine-tune trên 50,000 đoạn hội thoại thực tế giữa nhân viên tư vấn và khách hàng. Kết quả: sau 3 ngày huấn luyện trên 4 GPU A100, mô hình đạt độ chính xác 94% trong việc phân loại ý định khách hàng, cao hơn 40% so với việc chỉ dùng prompt engineering thuần túy.

GrabMaps xử lý địa chỉ Việt Nam

Grab gặp thách thức với địa chỉ Việt Nam: "ngõ 45, tổ 3, phường Bách Khoa" khác hoàn toàn cấu trúc địa chỉ phương Tây. Họ fine-tune mô hình BERT đa ngôn ngữ trên hàng triệu địa chỉ đã chuẩn hóa thủ công để tạo ra GrabMaps Address Parser. Mô hình sau fine-tuning có khả năng tách chính xác tên đường, số nhà, tổ dân phố và phường/quận ngay cả khi người dùng nhập thiếu dấu, sai chính tả hoặc dùng tên cũ ("phố Cầu Giấy" thay vì "đường Cầu Giấy").

Trợ lý ảo MoMo với giọng văn thương hiệu

Ví điện tử MoMo cần chatbot không chỉ trả lời đúng mà còn phải "nghe giống MoMo" — thân thiện, năng động, địa phương hóa (dùng "bạn nhé" thay vì "quý khách"). Họ áp dụng fine-tuning kết hợp RLHF (Reinforcement Learning from Human Feedback) để điều chỉnh phong cách phản hồi. Quá trình này chỉ thay đổi một lượng nhỏ trọng số liên quan đến "style" mà không làm giảm khả năng xử lý logic của mô hình gốc.

Ứng dụng

Sinh viên nghiên cứu

Sinh viên ngành AI tại Đại học Bách Khoa có thể fine-tune mô hình Wav2Vec 2.0 (nhận dạng giọng nói) trên tập dữ liệu 10 giờ ghi âm tiếng Việt vùng miền (Nam, Bắc, Trung) để nghiên cứu sự khác biệt ngữ điệu. Chi phí chỉ vài đô la thuê Google Colab Pro thay vì hàng nghìn đô cho training from scratch, giúp hoàn thành luận văn tốt nghiệp trong 2 tuần với kết quả khả quan.

Kỹ sư AI tại startup

Startup fintech muốn tự động trích xuất thông tin từ hóa đơn điện tử (tên công ty, MST, số tiền). Thay vì gọi API GPT-4 liên tục (tốn kém và gửi dữ liệu nhạy cảm ra ngoài), họ fine-tune mô hình LayoutLM (chuyên xử lý document) trên 5,000 hóa đơn nội bộ. Mô hình 3B parameters sau fine-tuning chạy local với độ chính xác 98%, latency dưới 200ms, và không rò rỉ dữ liệu khách hàng.

Doanh nghiệp lớn (Enterprise)

Tập đoàn bán lẻ có hệ thống 10,000 mã sản phẩm với tên gọi nội bộ khác biệt (ví dụ: "nước mắm nhà trai" là SKU 8821). Họ fine-tune LLM để nhân viên có thể tra cứu bằng ngôn ngữ tự nhiên: "cái chai vuông màu đỏ giá 25k" → trả về đúng SKU. Đây là trường hợp Retrieval-Augmented Generation (RAG) kết hợp Fine-tuning: fine-tune giúp mô hình hiểu ngôn ngữ nội bộ, còn RAG đảm bảo thông tin giá/số lượng luôn cập nhật theo thời gian thực.

So sánh

Phương pháp	Chi phí tính toán	Thời gian	Dữ liệu cần thiết	Độ chính xác chuyên biệt	Rủi ro chính
Training from Scratch	Rất cao (10k-100k$)	Tháng - Năm	TB - PB dữ liệu	Cao nhất	Cao (có thể thất bại hoàn toàn)
Fine-tuning	Trung bình (100-5k$)	Giờ - Ngày	1k - 100k mẫu	Rất cao	Trung bình (catastrophic forgetting)
Prompt Engineering	Thấp	Phút	Không cần	Trung bình - Khá	Thấp (nhanh nhưng giới hạn bởi context length)
RAG	Thấp - Trung bình	Giờ	100 - 10k tài liệu	Cao (factual)	Thấp (không thay đổi weights)

Kết luận: Fine-tuning là "khoảng giữa" chiến lược — mạnh hơn prompt engineering về độ chính xác và tính nhất quán, rẻ hơn training from scratch hàng nghìn lần, nhưng đòi hỏi dữ liệu chất lượng và kỹ năng kỹ thuật. Nó đặc biệt phù hợp khi bạn cần mô hình "biết" kiến thức ngầm (implicit knowledge) mà không thể nhét hết vào prompt, hoặc khi yêu cầu latency thấp (không phải gửi prompt dài liên tục).