Token là gì?
Token là đơn vị xử lý cơ bản của AI. Tìm hiểu tại sao tiếng Việt tốn nhiều token hơn tiếng Anh và cách tối ưu chi phí khi dùng ChatGPT.
Định nghĩa
Token là đơn vị cơ bản nhất mà Large Language Model (LLM) sử dụng để xử lý ngôn ngữ — không phải từ hoàn chỉnh, không phải ký tự đơn lẻ, mà là các "mảnh từ" (subwords) được tạo ra thông qua quá trình tokenization.
Giải thích chi tiết
Token không phải là từ, cũng không phải là ký tự
Hầu hết người mới đều hiểu nhầm rằng AI đọc từng từ giống như con người. Thực tế, AI đọc từng token. Một token có thể là một từ ngắn ("ăn"), một phần của từ dài ("unhappiness" thành "un" + "happiness"), hoặc thậm chí một ký tự đơn lẻ ("@", "#").
Các mô hình hiện đại như GPT-4 sử dụng thuật toán BPE (Byte Pair Encoding) để chia văn bản. Thuật toán này bắt đầu từ các ký tự riêng lẻ, sau đó gộp các cặp xuất hiện thường xuyên thành token mới. Ví dụ, từ "ChatGPT" thường được chia thành ["Chat", "GPT"] — hai token, dù là một từ duy nhất trong tiếng Anh.
Đối với tiếng Việt, tình huống phức tạp hơn do dấu thanh và cách viết tách âm tiết. Câu "Tôi đang học" có thể thành 4-6 token tùy mô hình, trong khi câu tiếng Anh tương đương "I am learning" chỉ cần 3-4 token. Điều này có nghĩa là xử lý nội dung tiếng Việt thường "đắt" hơn 30-50% so với tiếng Anh về mặt tính toán.
Cách AI nhìn văn bản: Từ chữ viết sang con số
Khi bạn gửi một câu cho ChatGPT, hệ thống không truyền trực tiếp chữ "xin chào". Thay vào đó, bộ tokenizer chuyển đổi mỗi token thành một con số ID duy nhất (ví dụ: "xin" = 15423, "chào" = 8921). LLM chỉ "nhìn" thấy chuỗi các con số này, đưa qua lớp embedding để chuyển thành vector trong không gian nhiều chiều, rồi mới xử lý.
Điều này giải thích tại sao AI có thể xử lý được các từ chưa từng thấy (neologisms) bằng cách tách thành các mảnh từ đã biết. Ví dụ, từ lóng mới trên mạng xã hội Việt Nam như "xink đẹp" (biến thể của "xinh đẹp") vẫn có thể được hiểu nếu tokenizer tách thành các subword quen thuộc.
Token ảnh hưởng đến chi phí và giới hạn như thế nào
Context window — giới hạn độ dài trí nhớ của AI — được đo bằng token, không phải từ hay ký tự. GPT-4o có context window 128K token, nhưng nếu bạn nhập văn bản tiếng Việt dài 100.000 từ, bạn có thể vượt quá giới hạn này do mỗi từ tiếng Việt trung bình cần 1.2-1.5 token.
Chi phí API cũng tính theo token. OpenAI, Claude, hay Gemini đều định giá "per 1K tokens". Với cùng ngân sách, bạn xử lý được ít nội dung tiếng Việt hơn tiếng Anh khoảng 20-30%. Đây là lý do nhiều công ty Việt Nam khi triển khai chatbot cho khách hàng nội địa phải dự trữ ngân sách cao hơn so với ứng dụng tiếng Anh tương đương.
Ví dụ thực tế
So sánh token giữa tiếng Việt và tiếng Anh
Lấy đoạn mô tả sản phẩm trên Shopee: "Áo thun nam cotton thoáng mát, phù hợp đi chơi cuối tuần" (11 từ). Phiên bản tiếng Anh tương đương: "Men's cotton T-shirt, breathable, perfect for weekend outings" (9 từ).
Khi đưa qua tokenizer của GPT-4:
- Tiếng Anh: ~12-14 token
- Tiếng Việt: ~18-22 token (do dấu thanh tạo thêm biến thể ký tự và cách tách âm tiết)
Nếu bạn dùng API GPT-4 với giá 6-7, trong khi tiếng Anh chỉ cần $4-5.
Tối ưu prompt cho Zalo AI
Khi dùng các công cụ AI tích hợp trong Zalo hoặc các ứng dụng chatbot nội địa, người dùng thường gặp lỗi "văn bản quá dài" dù chỉ paste một đoạn học thuật vài trang A4. Nguyên nhân là giới hạn context window (thường 4K-8K token cho các mô hình nhẹ) bị đầy nhanh hơn với văn bản tiếng Việt có nhiều dấu thanh và từ đa âm tiết.
Giải pháp: Chia nhỏ văn bản thành các đoạn 500-800 từ thay vì gửi nguyên chương sách, hoặc chuyển sang dùng tiếng Anh cho các yêu cầu kỹ thuật phức tạp nếu team của bạn đủ trình độ.
Tính toán ngân sách cho startup logistics
Một startup Việt Nam xây dựng chatbot tự động trả lời khách hàng trên fanpage (tương tự GrabSupport) cần lưu ý: mỗi cuộc hội thoại tiếng Việt trung bình dài gấp 1.4 lần tiếng Anh về mặt token. Nếu dự tính 10.000 cuộc hội thoại/tháng, mỗi cuộc 500 token input + 200 token output, chi phí API cho tiếng Việt sẽ cao hơn ~40% so với cùng kịch bản bằng tiếng Anh.
Ứng dụng
Sinh viên và nghiên cứu sinh Trước khi gửi đề cương luận văn dài cho ChatGPT để tóm tắt, kiểm tra số lượng token bằng công cụ Tokenizer của OpenAI. Nếu vượt quá giới hạn (ví dụ 4.000 token cho GPT-3.5), hãy chia thành từng phần nhỏ theo cấu trúc: Mở đầu, Cơ sở lý thuyết, Phương pháp... để tránh bị cắt xén nội dung ở giữa.
Người làm content và marketing Viết prompt ngắn gọn, dùng dấu gạch đầu dòng thay vì viết thành đoạn văn dài dòng. Ví dụ: thay vì viết "Tôi muốn bạn viết một bài đăng Facebook về sản phẩm này, nó phải hay, hấp dẫn, dài khoảng 200 chữ", hãy viết: "Viết caption Facebook 200 chữ, tone vui nhộn, nhắm đến gen Z". Tiết kiệm được 10-15 token mỗi prompt, tích lũy thành số tiền lớn nếu dùng API hàng ngày.
Lập trình viên và quản lý sản phẩm Khi thiết kế hệ thống RAG (Retrieval Augmented Generation) cho doanh nghiệp, cần tính toán chunk size (kích thước đoạn văn chia nhỏ) dựa trên token chứ không phải ký tự. Với tiếng Việt, nên để chunk size nhỏ hơn 20% so với tài liệu tiếng Anh để đảm bảo không vượt quá context window khi ghép cùng câu hỏi của người dùng.
So sánh
| Tiêu chí | Token | Từ (Word) | Ký tự (Character) |
|---|---|---|---|
| Bản chất | Đơn vị xử lý của LLM | Đơn vị ngữ nghĩa ngôn ngữ | Đơn vị ký tự đơn lẻ |
| Ví dụ "ChatGPT" | 2 token ("Chat", "GPT") | 1 từ | 7 ký tự |
| Ví dụ "ăn" | 1-2 token | 1 từ | 2 ký tự (ă, n) |
| Câu "Tôi yêu AI" | ~4-6 token | 3 từ | ~9 ký tự (cách) |
| Tính phí API | Theo số token input/output | Không áp dụng | Không áp dụng |
| Giới hạn context | Tính bằng token | Không áp dụng | Không áp dụng |
Token là "đơn vị tiền tệ" trong thế giới LLM. Hiểu rõ sự khác biệt giữa token và từ giúp bạn kiểm soát chi phí vận hành AI và tránh lỗi vượt quá giới hạn độ dài văn bản — đặc biệt quan trọng khi làm việc với ngôn ngữ tiếng Việt có cấu trúc token riêng biệt.
Bài viết liên quan
Cùng cụm
- Context window là gì? — Giải thích giới hạn độ dài văn bản AI có thể xử lý cùng lúc, được đo bằng chính đơn vị token
- Temperature trong AI là gì? — Điều chỉnh độ sáng tạo của kết quả, liên quan đến cách mô hình chọn token tiếp theo từ phân phối xác suất
- Top-p là gì? — Kỹ thuật lấy mẫu nucleus sampling để chọn token khi sinh văn bản, giúp cân bằng giữa đa dạng và mạch lạc
- Fine-tuning vs Prompt — So sánh hai cách tối ưu hóa AI, trong đó kỹ thuật viết prompt tốt giúp tiết kiệm token và chi phí hơn fine-tuning mô hình
Đọc tiếp
- Hiểu sâu về LLM — Tìm hiểu cấu trúc bên trong của Large Language Model và tại sao các mô hình này lại sử dụng cơ chế token thay vì xử lý trực tiếp từ ngữ như con người
- Kỹ thuật Prompt nâng cao — Các phương pháp viết prompt hiệu quả giúp tận dụng tối đa số lượng token trong context window, bao gồm Chain-of-Thought và Few-shot learning
AI có hiểu không hay chỉ dự đoán?
AI thực sự hiểu ngôn ngữ hay chỉ là chim vẹt ngẫu nhiên? Phân tích cơ chế next token prediction và ranh giới giữa thống kê và tri thức trong LLM.
Context window là gì?
Context window quyết định AI 'nhớ' được bao nhiêu trong cuộc trò chuyện. Hiểu giới hạn này để không bị mất ngữ cảnh khi chat với ChatGPT.