RAG là gì?

Hiểu Retrieval-Augmented Generation - cách kết hợp tìm kiếm thông minh với AI để tạo câu trả lời chính xác dựa trên dữ liệu thực tế thay vì bịa đặt

Định nghĩa

RAG (Retrieval-Augmented Generation) là kỹ thuật kết hợp hệ thống truy xuất thông tin (retrieval system) với mô hình ngôn ngữ lớn (LLM), cho phép AI tìm kiếm dữ liệu từ nguồn bên ngoài trong thời gian thực trước khi tạo câu trả lời thay vì chỉ dựa vào kiến thức đã học trong quá khứ.

Giải thích chi tiết

Vì sao LLM cần RAG?

LLM như GPT-4 hoặc Claude chứa kiến thức tĩnh đến ngày cắt dữ liệu (cutoff date). Khi hỏi về sự kiện sau ngày này hoặc dữ liệu nội bộ công ty, model thường "hallucinate" — bịa đặt thông tin nghe có vẻ hợp lý nhưng sai sự thật. RAG giải quyết vấn đề này bằng cách cung cấp "tài liệu tham khảo" cho AI đọc trước khi trả lời, tương tự như sinh viên được mang tài liệu vào phòng thi.

Kiến trúc ba giai đoạn

Pipeline RAG hoạt động qua ba bước liên tục:

Retrieve (Truy xuất): Hệ thống nhận câu hỏi của người dùng, chuyển thành vector embedding, rồi tìm kiếm trong cơ sở dữ liệu vector (vector database) để lấy top-k tài liệu liên quan nhất. Đây là bước Vector Search và Semantic Search phát huy tác dụng.

Augment (Tăng cường): Tài liệu tìm được được chèn vào prompt gốc dưới dạng context. Prompt lúc này có cấu trúc: "Dựa vào thông tin sau: [tài liệu truy xuất], hãy trả lời câu hỏi: [câu hỏi người dùng]".

Generate (Sinh thành): LLM đọc prompt đã được tăng cường và tạo câu trả lời dựa trên cả kiến thức nội tại và thông tin vừa truy xuất.

Vector Database & Embedding

Để tìm kiếm nhanh trong hàng triệu tài liệu, RAG sử dụng vector database (Pinecone, Weaviate, Chroma, Qdrant). Dữ liệu văn bản được chuyển thành vector embedding — biểu diễn toán học của ý nghĩa ngữ nghĩa. Khi người dùng hỏi "cách nghỉ phép năm", hệ thống tìm vector gần nhất với khái niệm "annual leave" trong không gian nhiều chiều, chứ không chỉ tìm từ khóa chính xác.

Ví dụ thực tế

Chatbot ngân hàng nội bộ: Techcombank hoặc VPBank triển khai chatbot cho nhân viên tư vấn. Khi khách hàng hỏi về "điều kiện vay sổ đỏ lãi suất ưu đãi tháng này", thay vì GPT-4 bịa ra con số 7.5%, hệ thống RAG truy xuất bảng lãi suất mới nhất từ internal wiki, đọc đúng mức 6.8% áp dụng từ 15/03/2024, và trích dẫn đúng điều khoản 4 Nghị định 99/2023.

Trợ lý ảo sàn thương mại điện tử: Shopee Việt Nam xử lý hàng triệu yêu cầu hoàn tiền mỗi ngày. RAG cho phép bot đọc chính xác chính sách hoàn tiền của từng loại sản phẩm (hàng điện tử vs thực phẩm), thời hạn 7 ngày hay 24 giờ, thay vì đưa ra câu trả lời chung chung dẫn đến khiếu nại.

Hệ thống tra cứu luật cho văn phòng công chứng: Một văn phòng công chứng tại Quận 1 triển khai RAG trên Bộ luật Dân sự 2015, Luật Đất đai 2024 và các thông tư mới nhất. Khi công chứng viên hỏi "thủ tục sang tên nhà đất cho con khi bố mẹ còn sống nhưng trên 80 tuổi", AI truy xuất đúng Điều 167 và các điều kiện về năng lực hành vi dân sự, không nhầm lẫn với quy định thừa kế.

Ứng dụng

Developer & Kỹ sư AI: Xây dựng hệ thống Q&A cho tài liệu kỹ thuật (documentation), chatbot hỗ trợ lập trình tra cứu API reference, hoặc internal tool cho công ty với dữ liệu nhạy cảm không muốn gửi ra API bên ngoài (self-hosted RAG).

Doanh nghiệp & Tổ chức: Tự động hóa trung tâm hỗ trợ khách hàng với khả năng truy cập CSDL sản phẩm real-time; hệ thống truy xuất tri thức nội bộ (knowledge management) thay thế việc tìm kiếm qua email hay folder SharePoint hỗn độn.

Sinh viên & Nghiên cứu sinh: Xây dựng trợ lý đọc luận văn, bài báo khoa học cho phép hỏi đáp tập trung vào tài liệu đã upload thay vì hỏi chung chung trên ChatGPT, đảm bảo trích dẫn nguồn chính xác khi viết literature review.

So sánh

Tiêu chí	RAG	Fine-tuning
Cơ chế cập nhật dữ liệu	Thêm tài liệu vào vector DB là xong (real-time)	Phải train lại model với data mới (tốn thời gian)
Chi phí triển khai	Thấp — chỉ cần embedding API và vector DB	Cao — cần GPU, framework như LoRA/QLoRA, dataset chất lượng cao
Độ chính xác sự kiện	Cao — có thể trích dẫn nguồn tài liệu gốc	Trung bình — model có thể "nhớ sai" hoặc tổng hợp sai
Thời gian triển khai	Vài giờ đến vài ngày	Vài ngày đến vài tuần
Phù hợp khi	Dữ liệu thay đổi thường xuyên, cần source truth	Cần thay đổi style, tone giọng văn, hoặc behavior sâu của model

RAG không thay thế Fine-tuning mà bổ trợ cho nhau. RAG giải quyết vấn đề "biết cái gì" (what to know), Fine-tuning giải quyết "nói như thế nào" (how to speak). Trong thực tế, nhiều hệ thống enterprise kết hợp cả hai: Fine-tune model để hiểu domain-specific language (ví dụ: thuật ngữ pháp lý Việt Nam), rồi dùng RAG để cung cấp facts cập nhật.