LLM đọc prompt như thế nào? Token, probability, và cách AI hiểu bạn

Khám phá cách LLM xử lý prompt qua token và probability. Hiểu bản chất này giúp bạn viết prompt hiệu quả hơn ngay lập tức.

Định nghĩa

LLM đọc prompt bằng cách chia nhỏ văn bản thành các token — những đoạn ký tự có ý nghĩa thống kê — sau đó dự đoán từng token tiếp theo dựa trên probability, thay vì "hiểu" toàn bộ câu rồi mới trả lời như cách não người xử lý ngôn ngữ.

Giải thích chi tiết

Token: Không phải từ, không phải chữ cái

Khi bạn gõ "Tôi yêu Hà Nội", bạn nghĩ đó là 3 từ. Nhưng với LLM, đó có thể là 4-5 token tùy model. "Hà Nội" có thể bị tách thành "Hà" và " Nội". "ChatGPT" lại có thể là 1 token duy nhất vì nó xuất hiện nhiều trong dữ liệu huấn luyện.

Token là đơn vị cơ bản mà LLM "nhìn" thấy. Nó không phải từ vựng tiếng Việt, cũng không phải ký tự đơn lẻ. Token giống như các mảnh ghép mà mô hình học được từ hàng tỷ trang văn bản để dự đoán tiếp theo dễ nhất.

Điều này giải thích tại sao đôi khi AI hiểu sai từ viết tắt hoặc tên riêng lạ — chúng bị tách thành các mảnh quá nhỏ so với ngữ cảnh bạn mong đợi.

Cách LLM "đọc" tuần tự từ trái sang phải

Đây là điểm quan trọng nhất: LLM không đọc toàn bộ prompt rồi "suy nghĩ" giống người. Nó xử lý theo kiểu auto-regressive — tức là dựa vào các token đã thấy để đoán token tiếp theo, rồi lặp lại.

Hãy tưởng tượng bạn đọc truyện từng chữ một, và sau mỗi chữ phải đoán chữ tiếp theo là gì dựa trên ngữ cảnh trước đó. Nếu đoán sai, bạn vẫn phải tiếp tục đoán dựa trên cả chữ sai đó. Đó là cách LLM sinh văn bản.

Vì vậy, AI không thể "quay lại sửa" sau khi đã chọn một token. Nếu nó bắt đầu câu trả lời bằng "Chắc chắn rồi" thì toàn bộ phần sau phải duy trì tông giọng đó, dù bạn có yêu cầu thay đổi ở giữa đoạn.

Probability: Trò chơi dự đoán tiếp theo

Mỗi token mới được chọn dựa trên probability distribution. Với câu "Trời hôm nay rất", LLM tính xác suất để tiếp theo là "đẹp", "nóng", hay "xanh". Nó chọn token có probability cao nhất (hoặc ngẫu nhiên trong top cao nếu có temperature).

Khi bạn viết prompt, bạn đang tạo ra bối cảnh thống kê để định hướng probability. "Hãy trả lời bằng tiếng Anh" ở đầu prompt tăng probability các token tiếng Anh xuất hiện trong câu trả lời.

Temperature càng thấp, AI càng chọn token an toàn (probability cao nhất). Temperature cao, AI chấp nhận risk để chọn token sáng tạo hơn.

Vị trí và trọng lượng của token

Vì LLM đọc tuần tự, token ở đầu prompt thiết lập "bối cảnh" cho toàn bộ cuộc hội thoại. Token ở cuối prompt thường có trọng lượng cao hơn vì nó gần nhất với vị trí cần dự đoán tiếp theo.

Nếu bạn viết: "Giải thích đơn giản. [dài dòng phức tạp]. Tóm lại là..." thì phần "Tóm lại là" ở cuối sẽ override phần trước đó. Đây là lý do tại sao instructions đặt ở cuối prompt thường hiệu quả hơn đặt ở giữa.

Ví dụ thực tế

Cùng câu hỏi, khác kết quả

Prompt tệ:

Viết về cá.

Prompt tốt:

Bạn là chuyên gia thủy sinh với 10 năm kinh nghiệm. Hãy viết bài giới thiệu về cá Betta cho người mới nuôi, giọng văn thân thiện, dưới 200 từ.

Sự khác biệt: Prompt đầu có "cá" là token cuối cùng với ngữ cảnh trống. Probability phân tán cho mọi loại cá, cách viết, phong cách. Prompt sau đưa vào các token "chuyên gia", "Betta", "người mới" tạo ra probability distribution chặt chẽ, dẫn đến kết quả cụ thể.

Khi bạn thêm token "Betta", bạn đã loại bỏ 99% probability liên quan đến cá Ngừ, cá Mập, cá Vàng khỏi không gian tìm kiếm của mô hình.

Token hóa toán học

Khi bạn viết:

1+1=?

LLM không "tính" ra 2. Nó thấy token "1", "+", "1", "=" rồi dựa trên pattern từ dữ liệu huấn luyện, token "2" có probability cao nhất tiếp theo. Nếu trong dữ liệu toàn là "1+1=3 (trong trường hợp đặc biệt X)", nó sẽ trả lời 3.

Điều này giải thích tại sao đôi khi AI tính toán sai số học đơn giản — nó không tính, nó đoán pattern. Với phép tính phức tạp chưa từng thấy trong dữ liệu huấn luyện, probability dự đoán sai tăng cao.

Độ nhạy với từ ngữ cuối prompt

Thử so sánh hai cách viết cùng yêu cầu:

Hãy sửa đoạn văn này.

Hãy chỉnh sửa đoạn văn này như một biên tập viên ngôn ngữ.

Từ "sửa" (fix) vs "chỉnh sửa" (edit) dẫn đến các probability khác nhau. "Biên tập viên" thêm vào cuối tạo ra context mạnh hơn vì nó gần vị trí bắt đầu sinh văn bản.

Nếu bạn thêm "nhưng giữ nguyên giọng văn gốc" ở cuối, nó sẽ override "chỉnh sửa kỹ lưỡng" nếu bạn để ở giữa prompt.

Ứng dụng

Sinh viên

Khi yêu cầu AI giải thích bài tập, đừng viết: "Giải bài này". Thay vào đó: "Giải thích từng bước giải phương trình này như thể tôi đang ở lớp 10 chưa học đạo hàm". Các token "lớp 10", "chưa học đạo hàm" giới hạn probability vào kiến thức phù hợp, tránh trả lời quá cao siêu hoặc quá sơ sài.

Người đi làm

Viết email: "Viết email xin nghỉ phép" (mơ hồ) vs "Viết email xin nghỉ phép 2 ngày thứ Sáu tuần sau cho sếp, lý do gia đình, giọng chuyên nghiệp nhưng không cứng nhắc". Token cụ thể ở đầu thiết lập bối cảnh, token cuối định hình tone và giới hạn độ dài.

Content Creator

Hiểu rằng AI không "cảm nhận" cảm xúc như người. Nếu bạn viết "bài này hay quá" trong prompt, AI không cảm thấy hay — nó chỉ thấy các token liên quan đến đánh giá tích cực và tăng probability cho các token tích cực trong output. Để có kết quả sáng tạo, bạn cần đưa các token liên quan đến sáng tạo (như "độc đáo", "bất ngờ", "khác biệt") vào prompt.

So sánh: Cách đọc của con người vs LLM

Đặc điểm	Con người	LLM
Đơn vị xử lý	Từ, câu, ý nghĩa	Token (1-4 ký tự)
Thứ tự	Toàn cục (hiểu cả câu rồi trả lời)	Tuần tự (trái sang phải, token by token)
Cơ chế	Ngữ nghĩa, logic, trải nghiệm	Probability, pattern matching
Sai lầm	Hiểu sai ý	Đoán sai token (hallucination)
Tối ưu	Ngữ cảnh văn hóa, ngụ ý	Token đầu và token cuối prompt

Kết luận: LLM là máy dự đoán token tinh vi, không phải người hiểu ngôn ngữ. Khi bạn viết prompt, bạn đang lập trình bằng cách điều chỉnh probability distribution, không phải đang trò chuyện với người. Hiểu điều này giúp bạn thiết kế prompt như thiết kế input cho một hệ thống — rõ ràng, không mơ hồ, tối ưu cho cơ chế token.

LLM đọc prompt như thế nào? Token, probability, và cách AI hiểu bạn

Định nghĩa

Giải thích chi tiết

Token: Không phải từ, không phải chữ cái

Cách LLM "đọc" tuần tự từ trái sang phải

Probability: Trò chơi dự đoán tiếp theo

Vị trí và trọng lượng của token

Ví dụ thực tế

Cùng câu hỏi, khác kết quả

Token hóa toán học

Độ nhạy với từ ngữ cuối prompt

Ứng dụng

Sinh viên

Người đi làm

Content Creator

So sánh: Cách đọc của con người vs LLM

Bài viết liên quan

Cùng cụm

Prompt Engineering là gì? Tại sao quan trọng

Giải phẫu một prompt tốt: 5 thành phần cốt lõi

10 lỗi prompt phổ biến và cách khắc phục

Tư duy lặp lại: Viết prompt như viết code

Đọc tiếp

Bắt đầu với kỹ thuật cơ bản

Khám phá kỹ thuật nâng cao

On this page