Mô hình ngôn ngữ hoạt động như thế nào?

Giải thích chi tiết cách mô hình ngôn ngữ (LLM) xử lý văn bản: từ tokenization đến dự đoán từ tiếp theo, giúp bạn hiểu bản chất AI đang hoạt động ra sao.

Định nghĩa

Mô hình ngôn ngữ (Language Model) hoạt động bằng cách chia văn bản thành các đơn vị nhỏ gọi là token, sau đó sử dụng mạng neural với hàng tỷ tham số để tính toán xác suất xuất hiện của từ tiếp theo dựa trên ngữ cảnh đã có, lặp lại quá trình này từng bước một để tạo ra câu trả lời hoàn chỉnh.

Giải thích chi tiết

Từ chữ viết thành dãy số: Tokenization

Trước khi xử lý, mô hình không "đọc" chữ như con người. Văn bản tiếng Việt như "Tôi yêu Hà Nội" sẽ bị cắt thành các token — có thể là từng từ ("Tôi", "yêu", "Hà", "Nội") hoặc từng âm tiết tùy thuộc vào cách huấn luyện. Mỗi token được chuyển thành một vector số (embedding) đại diện cho ý nghĩa và ngữ cảnh của nó.

Điểm đặc biệt với tiếng Việt là các từ ghép như "sinh viên" có thể bị tách thành ["sinh", "viên"] nếu mô hình sử dụng Byte Pair Encoding (BPE), điều này giải thích tại sao đôi khi AI viết sai chính tả từ ghép hoặc nhầm lẫn giữa "cà phê" và "cafe".

Cơ chế cốt lõi: Dự đoán từ tiếp theo

Sau khi token hóa, mô hình thực hiện một nhiệm vụ duy nhất lặp đi lặp lại: dự đoán từ tiếp theo có xác suất cao nhất là gì. Khi bạn nhập "Trời hôm nay", mô hình tính toán xác suất của tất cả các từ có thể xuất hiện tiếp theo ("nắng", "mưa", "đẹp", "xấu"...), chọn một từ dựa trên phân phối xác suất, thêm vào chuỗi, rồi lại dự đoán từ tiếp theo.

Quá trình này gọi là autoregressive generation (sinh tự hồi quy). Nó giống như chơi trò đoán chữ: dựa vào những gì đã viết, đoán chữ tiếp theo. Đây là lý do tại sao AI không "hiểu" câu hỏi của bạn theo nghĩa truyền thống — nó chỉ đang tính toán thống kê xem từ nào thường đi sau các từ trước đó trong dữ liệu huấn luyện.

Bộ não nhân tạo: Transformer và Attention

Bên trong LLM là kiến trúc Transformer — một loại mạng neural đặc biệt. Điểm mạnh của nó nằm ở cơ chế Self-Attention, cho phép mô hình "nhìn lại" toàn bộ các từ đã xuất hiện trước đó trong câu để quyết định từ tiếp theo.

Ví dụ, trong câu "Con chó của tôi nó rất nghịch, nó thích cắn...", mô hình cần biết từ "nó" thứ hai đang ám chỉ "con chó" chứ không phải "tôi". Self-Attention giúp tạo ra các liên kết ngữ nghĩa này, cho phép mô hình duy trì tính nhất quán trong đoạn văn dài.

Cửa sổ ngữ cảnh: Giới hạn trí nhớ ngắn hạn

Mô hình không thể nhìn thấy vô hạn về phía trước hay phía sau. Nó chỉ có một context window (cửa sổ ngữ cảnh) — số lượng token tối đa có thể xử lý cùng lúc, thường từ 4.000 đến 128.000 token tùy phiên bản.

Nếu bạn gửi một bài luận dài 10 trang và hỏi về chi tiết ở trang đầu, nhưng cuộc trò chuyện đã dài hơn giới hạn context window, mô hình sẽ "quên" nội dung trang đầu. Đây là giới hạn kỹ thuật quan trọng cần hiểu khi làm việc với AI, khác hoàn toàn với trí nhớ dài hạn của con người.

Hai chế độ sống: Training và Inference

LLM có hai trạng thái hoạt động khác nhau:

Training (huấn luyện): Mô hình "học" bằng cách đọc hàng nghìn tỷ từ từ Internet, sách, báo — điều chỉnh hàng tỷ tham số để giảm sai số trong việc dự đoán từ tiếp theo. Giai đoạn này tốn nhiều năng lượng và thời gian, chỉ diễn ra một lần (hoặc vài lần) bởi các công ty lớn.
Inference (suy luận): Khi bạn chat với ChatGPT, mô hình chỉ thực hiện dự đoán từ tiếp theo dựa trên trọng số đã cố định từ giai đoạn training. Nó không "học thêm" từ cuộc trò chuyện của bạn (trừ khi có cơ chế fine-tuning hoặc RAG riêng).

Ví dụ thực tế

Bàn phím thông minh tiếng Việt Khi bạn gõ "Hôm nay trời" trên iPhone hoặc Laban Key, bàn phím gợi ý "nắng", "mưa", "đẹp" — đây chính là một mô hình ngôn ngữ thu nhỏ đang thực hiện next token prediction ngay trên thiết bị của bạn.

ChatGPT viết về "Văn hóa cà phê sáng Sài Gòn" AI không tra cứu một bài báo có sẵn về chủ đề này. Thay vào đó, nó bắt đầu với "Văn hóa", dự đoán từ tiếp là "cà phê" (vì thường đi cùng trong dữ liệu huấn luyện), rồi "sáng", rồi "Sài Gòn"... từng chút một, tạo ra đoạn văn mới hoàn toàn dựa trên patterns đã học, giống như cách con người kể chuyện lại từ trí nhớ, nhưng thực chất là tái cấu trúc thống kê.

Chatbot ngân hàng Vietcombank Digital hay Momo Khi bạn hỏi "Tôi muốn chuyển khoản cho người yêu cũ", chatbot dựa vào context window (các tin nhắn trước trong phiên chat) để hiểu "người yêu cũ" là ai nếu bạn đã nhắc đến trước đó. Nhưng nếu phiên chat mới bắt đầu, nó sẽ hỏi lại thông tin vì không có context từ các phiên trước (trừ khi được tích hợp CRM).

Ứng dụng

Sinh viên nghiên cứu Hiểu về context window giúp bạn tối ưu cách hỏi AI. Khi yêu cầu phân tích một bài báo dài, hãy trích dẫn đoạn quan trọng ở cuối prompt (gần với vị trí cần dự đoán) thay vì để ở đầu và chat dài dòng, vì AI có thể "quên" phần đầu nếu vượt quá giới hạn token.

Người đi làm viết prompt Biết AI dự đoán từ tiếp theo dựa trên xác suất giúp bạn viết prompt rõ ràng hơn. Nếu bạn viết "Hãy đưa ra 3 lý do chính xác và ngắn gọn về...", bạn đang điều khiển xác suất để AI không lan man. Cấu trúc câu càng cụ thể, dự đoán càng chính xác.

Doanh nghiệp triển khai chatbot Khi xây dựng chatbot nội bộ, cần nhận ra rằng LLM không có trí nhớ dài hạn về khách hàng giữa các phiên chat. Để AI "nhớ" lịch sử mua hàng của khách, bạn cần kết nối với database (RAG hoặc function calling) — đây là giới hạn cần vượt qua bằng kỹ thuật chứ không phải chỉ dùng LLM thuần túy.

So sánh

Đặc điểm	Mô hình ngôn ngữ (LLM)	Công cụ tìm kiếm (Google)	Database truyền thống
Cơ chế	Dự đoán từ tiếp theo dựa trên patterns	Index và retrieval thông tin	Truy vấn SQL chính xác
Đầu ra	Sinh văn bản mới, có thể sai sự thật	Trả về liên kết có sẵn	Trả về dữ liệu chính xác
Ngữ cảnh	Hiểu ngữ cảnh đoạn ngắn (context window)	Không hiểu ngữ cảnh, chỉ match từ khóa	Không có khái niệm ngữ cảnh
Tính sáng tạo	Cao (tạo nội dung mới)	Thấp (chỉ tìm kiếm)	Không có
Ví dụ thất bại	Hallucination (bịa đặt thông tin)	Không tìm thấy kết quả	Lỗi syntax hoặc không có dữ liệu

Kết luận: LLM không thay thế Google Search hay Database — nó là công cụ bổ sung sinh ra nội dung dựa trên patterns, trong khi Search tìm kiếm thông tin thực tế và Database trả về dữ liệu chính xác. Sử dụng kết hợp cả ba (RAG pipeline) là hướng đi hiệu quả nhất hiện nay.