TROISINH
Hiểu bản chấtThông số kỹ thuật

Fine-tuning vs Prompt

Nên dùng prompt engineering hay fine-tuning để điều khiển AI? So sánh chi phí, hiệu quả và khi nào chọn phương án nào để tối ưu hóa mô hình ngôn ngữ.

Định nghĩa

Prompt là chỉ thị tạm thời đưa vào context window để điều khiển đầu ra của mô hình ngay lập tức, trong khi fine-tuning là quá trình huấn luyện lại mô hình trên dữ liệu mới để thay đổi kiến thức và hành vi vĩnh viễn.

Giải thích chi tiết

Prompt: Điều khiển tức thời qua ngữ cảnh

Khi bạn chat với ChatGPT, mỗi câu hỏi kèm theo hệ thống hướng dẫn (system prompt) đều nằm trong context window. Đây là cách "dặn dò" mô hình tại thời điểm suy luận (inference time) — bạn có thể thay đổi ngay lập tức chỉ bằng cách viết lại câu lệnh. Phương pháp này không làm thay đổi trọng số (weight) bên trong mô hình, mà chỉ tận dụng khả năng in-context learning có sẵn của các Large Language Model.

Ưu điểm là tính linh hoạt cao và chi phí thấp cho người mới bắt đầu. Bạn có thể dùng few-shot prompting — đưa vào 2-3 ví dụ mẫu trong prompt — để hướng dẫn AI định dạng đầu ra theo ý muốn mà không cần đụng vào code hay dữ liệu huấn luyện.

Fine-tuning: Thay đổi căn bản kiến trúc

Fine-tuning diễn ra ở tầng sâu hơn: bạn cập nhật các tham số nội bộ của mô hình thông qua backpropagation trên tập dữ liệu mới. Sau khi fine-tune, mô hình trở thành một phiên bản chuyên biệt — ví dụ từ GPT-4 base thành GPT-4 chuyên về luật Việt Nam hay y khoa.

Quá trình này đòi hỏi dữ liệu chất lượng cao (thường hàng nghìn cặp input-output), kiến thức về Machine Learning, và tài nguyên tính toán (GPU). Kết quả là mô hình "nhớ" kiến thức mới một cách vĩnh viễn, không cần nhắc lại trong mỗi lần gọi API, và phản hồi nhanh hơn vì không cần đọc long prompt.

Chi phí và đánh đổi

Prompt engineering tiêu tốn token cho mỗi lần gọi — nếu bạn nhét cả cuốn sổ tay công ty vào prompt để AI đọc, chi phí sẽ tăng theo độ dài ngữ cảnh. Fine-tuning có chi phí ban đầu cao (huấn luyện) nhưng sau đó mỗi lần gọi chỉ cần input ngắn, rẻ hơn đáng kể khi triển khai quy mô lớn.

Tuy nhiên, fine-tuning không làm cho mô hình "thông minh hơn" — nó chỉ làm mô hình chuyên sâu hơn vào một lĩnh vực hẹp. Nếu bạn cần AI đổi giọng văn liên tục theo từng khách hàng, prompt vẫn linh hoạt hơn nhiều so với việc phải maintain hàng chục bản fine-tune khác nhau.

Ví dụ thực tế

Chatbot ngân hàng số: Techcombank muốn AI trả lời về lãi suất tiết kiệm. Nếu dùng prompt, họ phải gửi kèm bảng lãi suất 20 trang vào mỗi câu hỏi — tốn token và chậm. Nếu fine-tune, họ huấn luyện model trên toàn bộ quy định tín dụng nội bộ, sau đó chỉ cần hỏi "Lãi suất 6 tháng là bao nhiêu?" — AI trả lời chính xác ngay vì đã "nhớ" kiến thức.

Content marketing cho thương hiệu: Một agency Việt Nam cần viết 100 bài blog giữ giọng văn "trẻ trung nhưng chuyên nghiệp". Dùng prompt, họ phải nhắc đi nhắc lại style guide trong mỗi request. Fine-tune một lần trên 500 bài viết mẫu của khách hàng, sau đó chỉ cần đưa đề bài ngắn, AI tự động viết đúng tone mà không cần nhắc nhở.

Hỗ trợ lập trình nội bộ: FPT Software có codebase đặc thù. Dùng prompt để hỏi debug, AI đưa ra giải pháp chung chung. Fine-tune trên 10.000 file code nội bộ và tài liệu API riêng, AI có thể gợi ý đúng hàm calculateTaxVN() thay vì hàm thuế Mỹ, vì đã học được pattern đặc trưng của công ty.

Ứng dụng

Sinh viên và người mới học AI: Chỉ cần prompt engineering. Học cách viết system prompt rõ ràng, dùng few-shot learning, và điều chỉnh temperature cùng top-p để có đầu ra phù hợp. Chi phí thấp và không cần kiến thức kỹ thuật sâu.

Người đi làm (Marketing, Sales, HR): Dùng prompt cho các tác vụ đa dạng thay đổi theo ngày — viết email, phân tích dữ liệu, brainstorm. Chỉ xem xét fine-tuning nếu công ty có tài liệu nội bộ lớn (hàng nghìn trang quy trình) và cần chatbot trả lời nhân viên liên tục với độ chính xác tuyệt đối về quy định công ty.

Doanh nghiệp công nghệ và tài chính: Fine-tuning là lựa chọn khi xử lý dữ liệu nhạy cảm không được phép đưa ra ngoài qua API (có thể fine-tune model chạy on-premise), hoặc khi cần độ trễ cực thấp cho ứng dụng real-time. Các ngân hàng lớn tại Việt Nam thường kết hợp cả hai: fine-tune cho kiến thức domain, sau đó dùng prompt để điều chỉnh ngữ cảnh cụ thể từng giao dịch.

So sánh

Tiêu chíPrompt EngineeringFine-tuning
Thời điểm tác độngLúc chạy thực tế (inference)Lúc huấn luyện trước khi triển khai
Chi phíTheo lượng token sử dụngChi phí cố định ban đầu cao, sau đó rẻ
Dữ liệu cần thiếtKhông cần hoặc vài ví dụ mẫuHàng nghìn cặp chất lượng cao
Kỹ năng yêu cầuViết lách, tư duy logicMachine Learning, xử lý dữ liệu, GPU
Tính linh hoạtCao — đổi ngay bằng cách sửa văn bảnThấp — cần train lại để thay đổi
Phụ thuộc contextPhụ thuộc độ dài context windowKhông phụ thuộc, kiến thức đã "nhớ" sẵn
Độ ổn địnhCó thể biến động theo cách viết promptỔn định, nhất quán theo dữ liệu huấn luyện

Kết luận: Prompt là giải pháp mặc định cho 95% người dùng — linh hoạt, nhanh và không rủi ro. Chỉ chuyển sang fine-tuning khi bạn đã đụng giới hạn của context window, cần độ chính xác tuyệt đối trên dữ liệu độc quyền, hoặc muốn giảm chi phí vận hành cho hàng triệu request mỗi ngày.

Bài viết liên quan

Cùng cụm

  • Token là gì? — Hiểu đơn vị cơ bản mà cả prompt lẫn fine-tuning đều tác động đến
  • Context window là gì? — Giới hạn của phương pháp prompting và lý do cần fine-tuning
  • Temperature trong AI là gì? — Tham số điều chỉnh độ sáng tạo khi dùng prompt
  • Top-p là gì? — Kỹ thuật nucleus sampling để kiểm soát đầu ra khi không fine-tune

Đọc tiếp

  • Cụm Prompt nâng cao — Học các kỹ thuật chain-of-thought, few-shot learning tối ưu trước khi cân nhắc fine-tuning
  • Cụm LLM fundamentals — Hiểu sâu cách mô hình ngôn ngữ hoạt động để biết khi nào cần can thiệp vào trọng số
  • Fine-tuning thực chiến — Hướng dẫn thực hành LoRA, QLoRA và triển khai mô hình fine-tuned khi bạn đã sẵn sàng chuyển sang cấp độ chuyên sâu

On this page