Training AI diễn ra như thế nào?

Từ dữ liệu thô đến ChatGPT thông minh: khám phá chi tiết quá trình training AI qua pre-training, fine-tuning và RLHF để hiểu sâu bản chất hoạt động của LLM.

Định nghĩa

Training AI là quá trình tối ưu hóa hàng tỷ tham số (parameters) bên trong mô hình bằng cách cho nó "quan sát" lượng lớn dữ liệu, từ đó tìm ra patterns thống kê để dự đoán token tiếp theo chính xác hơn. Không phải dạy như con người, đây là việc điều chỉnh ma trận số học qua hàng triệu vòng lặp để giảm thiểu sai số dự đoán.

Giải thích chi tiết

Dữ liệu là "sách giáo khoa": Chuẩn bị Corpus khổng lồ

AI không học từ không khí. Để train một LLM như GPT-4 hay Claude, cần thu thập hàng terabyte văn bản từ Internet, sách, báo, mã nguồn GitHub. Dữ liệu được làm sạch (loại bỏ thông tin cá nhân, nội dung độc hại), phân tích thành tokens, và tổ chức thành các lô (batches) để xử lý song song trên hàng nghìn GPU. Dataset không chỉ cần lớn mà còn phải đa dạng để AI không thiên lệch về một chủ đề hay một thứ tiếng cụ thể.

Pre-training: Giai đoạn "học nền" tốn kém

Đây là bước đốt tiền nhất (chi phí hàng triệu USD). Mô hình đọc qua hàng nghìn tỷ tokens, liên tục dự đoán "từ tiếp theo là gì" dựa trên ngữ cảnh trước đó — chính là cơ chế next token prediction. Mỗi lần đoán sai, hệ thống tính toán loss function (hàm mất mát) và dùng gradient descent để điều chỉnh trọng số (weights), giống như cố gắng làm cho đường cong toán học khớp với dữ liệu thực tế. Sau giai đoạn này, AI đã biết ngữ pháp, kiến thức thế giới, logic cơ bản, nhưng chỉ là "mô hình thô" (base model) chưa biết cách trò chuyện lịch sự.

Fine-tuning: Chuyên môn hóa cho nhiệm vụ cụ thể

Sau pre-training, mô hình được "trau dồi" trên dataset nhỏ hơn nhưng chất lượng cao hơn (ví dụ: hàng nghìn cuộc hội thoại được chọn lọc kỹ). Quá trình này điều chỉnh nhẹ các tham số để AI học cách trả lời theo định dạng chat, tuân thủ hướng dẫn (instruction following), thay vì chỉ autocomplete văn bản thô như khi viết code hay viết tiếp câu chuyện.

RLHF: Dạy AI cách "đứng đắn" và hữu ích

Reinforcement Learning from Human Feedback là bước quan trọng giúp AI không chỉ thông minh mà còn an toàn. Các chuyên gia (human labelers) so sánh nhiều câu trả lời của AI, chọn câu hay hơn, lịch sự hơn. Dữ liệu này dùng để train một reward model, rồi dùng reinforcement learning (thuật toán PPO) để tinh chỉnh chính sách của AI, khuyến khích nó tạo ra câu trả lời được con người đánh giá cao. Đây là lý do ChatGPT trả lời có vẻ "hiểu chuyện" hơn raw model, và cũng là nơi cố gắng triệt tiêu bias có hại từ dữ liệu pre-training.

Cơ chế toán học bên trong: Gradient và Backpropagation

Mỗi neural network layer chứa các trọng số quyết định mức độ quan trọng của từng kết nối. Khi AI đoán sai, thuật toán backpropagation lan truyền ngược sai số từ output về input, tính toán gradient (độ dốc) để biết điều chỉnh trọng số theo hướng nào. Hàng triệu lần điều chỉnh này — thường dùng Adam optimizer — biến mô hình từ trạng thái ngẫu nhiên thành có cấu trúc logic chặt chẽ.

Ví dụ thực tế

Học ngoại ngữ như người Việt đi du học Pre-training giống như cho một học sinh Việt Nam sang Mỹ sống 10 năm, nghe đài, đọc sách, nói chuyện hàng ngày — não tiếp thu ngữ pháp, từ vựng, văn hóa một cách tự nhiên. Fine-tuning như luyện thi SAT 3 tháng: học cách viết văn theo format chuẩn, trả lời câu hỏi có cấu trúc rõ ràng. RLHF như có giáo viên bản xứ chấm bài và chỉ ra "câu trả lời này lịch sự, câu kia thô lỗ", dạy cách giao tiếp đúng mực trong xã hội Mỹ.

Nhân viên ngân hàng tại Techcombank Giả sử train AI để tư vấn tài chính. Pre-training cho AI "đọc" toàn bộ luật ngân hàng Nhà nước, báo cáo tài chính của các công ty Việt Nam trên sàn HOSE, từ điển kinh tế học. Fine-tuning cho AI đọc 10.000 đoạn hội thoại thực tế giữa nhân viên và khách hàng tại quầy giao dịch. RLHF có chuyên gia Techcombank đánh giá: "câu trả lời này đúng luật nhưng cứng nhắc, câu kia vừa chuẩn vừa thân thiện với khách hàng miền Tây".

Thuật toán Shopee gợi ý sản phẩm AI training không chỉ dành cho LLM. Khi Shopee gợi ý "Bạn có thể thích", họ train model trên hành vi click, thêm vào giỏ, và thời gian xem của hàng triệu người dùng Việt Nam. Mỗi lần bạn bỏ qua gợi ý, hệ thống tính là "dự đoán sai" và điều chỉnh trọng số để lần sau gợi ý chính xác hơn — đây là dạng training trực tuyến (online learning) liên tục diễn ra hàng ngày.

Ứng dụng

Cho sinh viên Hiểu cách AI được train giúp bạn viết prompt hiệu quả hơn. Vì AI dự đoán dựa trên patterns đã học, nên câu hỏi càng gần với format dữ liệu training (ví dụ: tài liệu học thuật có cấu trúc rõ ràng), câu trả lời càng chất lượng. Bạn cũng sẽ hiểu tại sao AI hay halucinate khi gặp topic quá mới (chưa có trong training data) hoặc khi câu hỏi quá hiếm gặp trong corpus.

Cho người đi làm (marketing, content, lập trình) Khi dùng AI viết content tiếng Việt, biết rằng model đã được train trên văn bản Việt Nam nên hiểu ngữ cảnh địa phương (Tết Nguyên Đán, cúng giao thừa, văn hóa công sở Việt) tốt hơn model chỉ train tiếng Anh. Tuy nhiên, với dữ liệu nội bộ công ty (báo cáo quý, quy trình riêng), cần fine-tuning hoặc RAG vì pre-training không có thông tin này. Hiểu giới hạn training giúp bạn viết prompt nâng cao để khai thác tối đa kiến thức đã được "học".

Cho doanh nghiệp Việt Nam Doanh nghiệp có thể chọn ba cấp độ: (1) Dùng API model có sẵn (nhanh, rẻ, không cần hiểu training), (2) Fine-tuning mô hình mở (Mistral, Llama) trên dữ liệu ngành đặc thù (ví dụ: văn bản pháp luật Việt Nam cho công ty luật, hồ sơ bệnh án cho bệnh viện), (3) Train từ đầu (chi phí triệu đô, chỉ phù hợp với Viettel, VNPT, FPT). Hiểu training giúp Giám đốc công nghệ ra quyết định đầu tư đúng đắn: phần lớn doanh nghiệp chỉ cần fine-tuning chứ không cần train lại từ đầu.

So sánh

Tiêu chí	Pre-training	Fine-tuning	Inference (Sử dụng)
Mục đích	Học kiến thức tổng quát	Chuyên môn hóa nhiệm vụ	Áp dụng đã học vào thực tế
Dữ liệu	Terabytes (web crawl)	Gigabytes (curated)	Không cần dữ liệu mới
Thời gian	Tuần/tháng (thousands GPU hours)	Giờ đến ngày (dozens GPUs)	Miliseconds trên 1 GPU
Chi phí	Hàng triệu USD	Hàng nghìn USD	Hàng trăm USD/tháng API
Kết quả	Base model (thô)	Assistant model (tinh chế)	Câu trả lời cho user
Ví dụ	GPT-3 trước khi chat	ChatGPT sau alignment	Bạn hỏi ChatGPT 1 câu

Training là quá trình "đúc" kiến thức vào model qua các giai đoạn trên, inference là quá thức "rót" kiến thức ra khi người dùng chat. Không thể có câu trả lời thông minh nếu thiếu giai đoạn training tốn kém ban đầu, nhưng cũng không thể có AI đáng tin cậy nếu thiếu fine-tuning và RLHF.