LLM đọc prompt như thế nào? Token, probability, và cách AI hiểu bạn
Khám phá cách LLM xử lý prompt qua token và probability. Hiểu bản chất này giúp bạn viết prompt hiệu quả hơn ngay lập tức.
Định nghĩa
LLM đọc prompt bằng cách chia nhỏ văn bản thành các token — những đoạn ký tự có ý nghĩa thống kê — sau đó dự đoán từng token tiếp theo dựa trên probability, thay vì "hiểu" toàn bộ câu rồi mới trả lời như cách não người xử lý ngôn ngữ.
Giải thích chi tiết
Token: Không phải từ, không phải chữ cái
Khi bạn gõ "Tôi yêu Hà Nội", bạn nghĩ đó là 3 từ. Nhưng với LLM, đó có thể là 4-5 token tùy model. "Hà Nội" có thể bị tách thành "Hà" và " Nội". "ChatGPT" lại có thể là 1 token duy nhất vì nó xuất hiện nhiều trong dữ liệu huấn luyện.
Token là đơn vị cơ bản mà LLM "nhìn" thấy. Nó không phải từ vựng tiếng Việt, cũng không phải ký tự đơn lẻ. Token giống như các mảnh ghép mà mô hình học được từ hàng tỷ trang văn bản để dự đoán tiếp theo dễ nhất.
Điều này giải thích tại sao đôi khi AI hiểu sai từ viết tắt hoặc tên riêng lạ — chúng bị tách thành các mảnh quá nhỏ so với ngữ cảnh bạn mong đợi.
Cách LLM "đọc" tuần tự từ trái sang phải
Đây là điểm quan trọng nhất: LLM không đọc toàn bộ prompt rồi "suy nghĩ" giống người. Nó xử lý theo kiểu auto-regressive — tức là dựa vào các token đã thấy để đoán token tiếp theo, rồi lặp lại.
Hãy tưởng tượng bạn đọc truyện từng chữ một, và sau mỗi chữ phải đoán chữ tiếp theo là gì dựa trên ngữ cảnh trước đó. Nếu đoán sai, bạn vẫn phải tiếp tục đoán dựa trên cả chữ sai đó. Đó là cách LLM sinh văn bản.
Vì vậy, AI không thể "quay lại sửa" sau khi đã chọn một token. Nếu nó bắt đầu câu trả lời bằng "Chắc chắn rồi" thì toàn bộ phần sau phải duy trì tông giọng đó, dù bạn có yêu cầu thay đổi ở giữa đoạn.
Probability: Trò chơi dự đoán tiếp theo
Mỗi token mới được chọn dựa trên probability distribution. Với câu "Trời hôm nay rất", LLM tính xác suất để tiếp theo là "đẹp", "nóng", hay "xanh". Nó chọn token có probability cao nhất (hoặc ngẫu nhiên trong top cao nếu có temperature).
Khi bạn viết prompt, bạn đang tạo ra bối cảnh thống kê để định hướng probability. "Hãy trả lời bằng tiếng Anh" ở đầu prompt tăng probability các token tiếng Anh xuất hiện trong câu trả lời.
Temperature càng thấp, AI càng chọn token an toàn (probability cao nhất). Temperature cao, AI chấp nhận risk để chọn token sáng tạo hơn.
Vị trí và trọng lượng của token
Vì LLM đọc tuần tự, token ở đầu prompt thiết lập "bối cảnh" cho toàn bộ cuộc hội thoại. Token ở cuối prompt thường có trọng lượng cao hơn vì nó gần nhất với vị trí cần dự đoán tiếp theo.
Nếu bạn viết: "Giải thích đơn giản. [dài dòng phức tạp]. Tóm lại là..." thì phần "Tóm lại là" ở cuối sẽ override phần trước đó. Đây là lý do tại sao instructions đặt ở cuối prompt thường hiệu quả hơn đặt ở giữa.
Ví dụ thực tế
Cùng câu hỏi, khác kết quả
Prompt tệ:
Viết về cá.Prompt tốt:
Bạn là chuyên gia thủy sinh với 10 năm kinh nghiệm. Hãy viết bài giới thiệu về cá Betta cho người mới nuôi, giọng văn thân thiện, dưới 200 từ.Sự khác biệt: Prompt đầu có "cá" là token cuối cùng với ngữ cảnh trống. Probability phân tán cho mọi loại cá, cách viết, phong cách. Prompt sau đưa vào các token "chuyên gia", "Betta", "người mới" tạo ra probability distribution chặt chẽ, dẫn đến kết quả cụ thể.
Khi bạn thêm token "Betta", bạn đã loại bỏ 99% probability liên quan đến cá Ngừ, cá Mập, cá Vàng khỏi không gian tìm kiếm của mô hình.
Token hóa toán học
Khi bạn viết:
1+1=?LLM không "tính" ra 2. Nó thấy token "1", "+", "1", "=" rồi dựa trên pattern từ dữ liệu huấn luyện, token "2" có probability cao nhất tiếp theo. Nếu trong dữ liệu toàn là "1+1=3 (trong trường hợp đặc biệt X)", nó sẽ trả lời 3.
Điều này giải thích tại sao đôi khi AI tính toán sai số học đơn giản — nó không tính, nó đoán pattern. Với phép tính phức tạp chưa từng thấy trong dữ liệu huấn luyện, probability dự đoán sai tăng cao.
Độ nhạy với từ ngữ cuối prompt
Thử so sánh hai cách viết cùng yêu cầu:
Hãy sửa đoạn văn này.vs
Hãy chỉnh sửa đoạn văn này như một biên tập viên ngôn ngữ.Từ "sửa" (fix) vs "chỉnh sửa" (edit) dẫn đến các probability khác nhau. "Biên tập viên" thêm vào cuối tạo ra context mạnh hơn vì nó gần vị trí bắt đầu sinh văn bản.
Nếu bạn thêm "nhưng giữ nguyên giọng văn gốc" ở cuối, nó sẽ override "chỉnh sửa kỹ lưỡng" nếu bạn để ở giữa prompt.
Ứng dụng
Sinh viên
Khi yêu cầu AI giải thích bài tập, đừng viết: "Giải bài này". Thay vào đó: "Giải thích từng bước giải phương trình này như thể tôi đang ở lớp 10 chưa học đạo hàm". Các token "lớp 10", "chưa học đạo hàm" giới hạn probability vào kiến thức phù hợp, tránh trả lời quá cao siêu hoặc quá sơ sài.
Người đi làm
Viết email: "Viết email xin nghỉ phép" (mơ hồ) vs "Viết email xin nghỉ phép 2 ngày thứ Sáu tuần sau cho sếp, lý do gia đình, giọng chuyên nghiệp nhưng không cứng nhắc". Token cụ thể ở đầu thiết lập bối cảnh, token cuối định hình tone và giới hạn độ dài.
Content Creator
Hiểu rằng AI không "cảm nhận" cảm xúc như người. Nếu bạn viết "bài này hay quá" trong prompt, AI không cảm thấy hay — nó chỉ thấy các token liên quan đến đánh giá tích cực và tăng probability cho các token tích cực trong output. Để có kết quả sáng tạo, bạn cần đưa các token liên quan đến sáng tạo (như "độc đáo", "bất ngờ", "khác biệt") vào prompt.
So sánh: Cách đọc của con người vs LLM
| Đặc điểm | Con người | LLM |
|---|---|---|
| Đơn vị xử lý | Từ, câu, ý nghĩa | Token (1-4 ký tự) |
| Thứ tự | Toàn cục (hiểu cả câu rồi trả lời) | Tuần tự (trái sang phải, token by token) |
| Cơ chế | Ngữ nghĩa, logic, trải nghiệm | Probability, pattern matching |
| Sai lầm | Hiểu sai ý | Đoán sai token (hallucination) |
| Tối ưu | Ngữ cảnh văn hóa, ngụ ý | Token đầu và token cuối prompt |
Kết luận: LLM là máy dự đoán token tinh vi, không phải người hiểu ngôn ngữ. Khi bạn viết prompt, bạn đang lập trình bằng cách điều chỉnh probability distribution, không phải đang trò chuyện với người. Hiểu điều này giúp bạn thiết kế prompt như thiết kế input cho một hệ thống — rõ ràng, không mơ hồ, tối ưu cho cơ chế token.
Bài viết liên quan
Cùng cụm
Prompt Engineering là gì? Tại sao quan trọng
Hiểu tổng quan về Prompt Engineering và lý do tại sao đây là kỹ năng cốt lõi khi làm việc với AI
Giải phẫu một prompt tốt: 5 thành phần cốt lõi
Cấu trúc prompt chuyên nghiệp dựa trên hiểu biết về cách LLM xử lý token
10 lỗi prompt phổ biến và cách khắc phục
Những sai lầm thường gặp khi không hiểu cơ chế token và probability của LLM
Tư duy lặp lại: Viết prompt như viết code
Phương pháp tinh chỉnh prompt dựa trên phản hồi thực tế từ cách LLM phản ứng với từng token
Đọc tiếp
Bắt đầu với kỹ thuật cơ bản
Chuyển từ hiểu lý thuyết sang thực hành viết prompt với Zero-shot, Few-shot và các kỹ thuật cơ bản
Khám phá kỹ thuật nâng cao
Tìm hiểu Chain-of-Thought, ReAct và các phương pháp phức tạp để khai thác sâu hơn cơ chế probability của LLM
Prompt Engineering là gì? Tại sao quan trọng
Hiểu Prompt Engineering từ gốc rễ: Tại sao cách hỏi AI quyết định chất lượng câu trả lời? Hướng dẫn cho người mới bắt đầu.
Giải phẫu một prompt tốt: 5 thành phần cốt lõi
Khám phá 5 thành phần cốt lõi của prompt hiệu quả. Học cách truyền đạt ý định rõ ràng để AI trả lời chính xác ngay lần đầu tiên.