Token là gì?

Token là đơn vị xử lý cơ bản của AI. Tìm hiểu tại sao tiếng Việt tốn nhiều token hơn tiếng Anh và cách tối ưu chi phí khi dùng ChatGPT.

Định nghĩa

Token là đơn vị cơ bản nhất mà Large Language Model (LLM) sử dụng để xử lý ngôn ngữ — không phải từ hoàn chỉnh, không phải ký tự đơn lẻ, mà là các "mảnh từ" (subwords) được tạo ra thông qua quá trình tokenization.

Giải thích chi tiết

Token không phải là từ, cũng không phải là ký tự

Hầu hết người mới đều hiểu nhầm rằng AI đọc từng từ giống như con người. Thực tế, AI đọc từng token. Một token có thể là một từ ngắn ("ăn"), một phần của từ dài ("unhappiness" thành "un" + "happiness"), hoặc thậm chí một ký tự đơn lẻ ("@", "#").

Các mô hình hiện đại như GPT-4 sử dụng thuật toán BPE (Byte Pair Encoding) để chia văn bản. Thuật toán này bắt đầu từ các ký tự riêng lẻ, sau đó gộp các cặp xuất hiện thường xuyên thành token mới. Ví dụ, từ "ChatGPT" thường được chia thành ["Chat", "GPT"] — hai token, dù là một từ duy nhất trong tiếng Anh.

Đối với tiếng Việt, tình huống phức tạp hơn do dấu thanh và cách viết tách âm tiết. Câu "Tôi đang học" có thể thành 4-6 token tùy mô hình, trong khi câu tiếng Anh tương đương "I am learning" chỉ cần 3-4 token. Điều này có nghĩa là xử lý nội dung tiếng Việt thường "đắt" hơn 30-50% so với tiếng Anh về mặt tính toán.

Cách AI nhìn văn bản: Từ chữ viết sang con số

Khi bạn gửi một câu cho ChatGPT, hệ thống không truyền trực tiếp chữ "xin chào". Thay vào đó, bộ tokenizer chuyển đổi mỗi token thành một con số ID duy nhất (ví dụ: "xin" = 15423, "chào" = 8921). LLM chỉ "nhìn" thấy chuỗi các con số này, đưa qua lớp embedding để chuyển thành vector trong không gian nhiều chiều, rồi mới xử lý.

Điều này giải thích tại sao AI có thể xử lý được các từ chưa từng thấy (neologisms) bằng cách tách thành các mảnh từ đã biết. Ví dụ, từ lóng mới trên mạng xã hội Việt Nam như "xink đẹp" (biến thể của "xinh đẹp") vẫn có thể được hiểu nếu tokenizer tách thành các subword quen thuộc.

Token ảnh hưởng đến chi phí và giới hạn như thế nào

Context window — giới hạn độ dài trí nhớ của AI — được đo bằng token, không phải từ hay ký tự. GPT-4o có context window 128K token, nhưng nếu bạn nhập văn bản tiếng Việt dài 100.000 từ, bạn có thể vượt quá giới hạn này do mỗi từ tiếng Việt trung bình cần 1.2-1.5 token.

Chi phí API cũng tính theo token. OpenAI, Claude, hay Gemini đều định giá "per 1K tokens". Với cùng ngân sách, bạn xử lý được ít nội dung tiếng Việt hơn tiếng Anh khoảng 20-30%. Đây là lý do nhiều công ty Việt Nam khi triển khai chatbot cho khách hàng nội địa phải dự trữ ngân sách cao hơn so với ứng dụng tiếng Anh tương đương.

Ví dụ thực tế

So sánh token giữa tiếng Việt và tiếng Anh

Lấy đoạn mô tả sản phẩm trên Shopee: "Áo thun nam cotton thoáng mát, phù hợp đi chơi cuối tuần" (11 từ). Phiên bản tiếng Anh tương đương: "Men's cotton T-shirt, breathable, perfect for weekend outings" (9 từ).

Khi đưa qua tokenizer của GPT-4:

Tiếng Anh: ~12-14 token
Tiếng Việt: ~18-22 token (do dấu thanh tạo thêm biến thể ký tự và cách tách âm tiết)

Nếu bạn dùng API GPT-4 với giá $5 per 1M input tokens, xử lý 1 triệu từ tiếng Việt sẽ tốn khoảng$ 6-7, trong khi tiếng Anh chỉ cần $4-5.

Tối ưu prompt cho Zalo AI

Khi dùng các công cụ AI tích hợp trong Zalo hoặc các ứng dụng chatbot nội địa, người dùng thường gặp lỗi "văn bản quá dài" dù chỉ paste một đoạn học thuật vài trang A4. Nguyên nhân là giới hạn context window (thường 4K-8K token cho các mô hình nhẹ) bị đầy nhanh hơn với văn bản tiếng Việt có nhiều dấu thanh và từ đa âm tiết.

Giải pháp: Chia nhỏ văn bản thành các đoạn 500-800 từ thay vì gửi nguyên chương sách, hoặc chuyển sang dùng tiếng Anh cho các yêu cầu kỹ thuật phức tạp nếu team của bạn đủ trình độ.

Tính toán ngân sách cho startup logistics

Một startup Việt Nam xây dựng chatbot tự động trả lời khách hàng trên fanpage (tương tự GrabSupport) cần lưu ý: mỗi cuộc hội thoại tiếng Việt trung bình dài gấp 1.4 lần tiếng Anh về mặt token. Nếu dự tính 10.000 cuộc hội thoại/tháng, mỗi cuộc 500 token input + 200 token output, chi phí API cho tiếng Việt sẽ cao hơn ~40% so với cùng kịch bản bằng tiếng Anh.

Ứng dụng

Sinh viên và nghiên cứu sinh Trước khi gửi đề cương luận văn dài cho ChatGPT để tóm tắt, kiểm tra số lượng token bằng công cụ Tokenizer của OpenAI. Nếu vượt quá giới hạn (ví dụ 4.000 token cho GPT-3.5), hãy chia thành từng phần nhỏ theo cấu trúc: Mở đầu, Cơ sở lý thuyết, Phương pháp... để tránh bị cắt xén nội dung ở giữa.

Người làm content và marketing Viết prompt ngắn gọn, dùng dấu gạch đầu dòng thay vì viết thành đoạn văn dài dòng. Ví dụ: thay vì viết "Tôi muốn bạn viết một bài đăng Facebook về sản phẩm này, nó phải hay, hấp dẫn, dài khoảng 200 chữ", hãy viết: "Viết caption Facebook 200 chữ, tone vui nhộn, nhắm đến gen Z". Tiết kiệm được 10-15 token mỗi prompt, tích lũy thành số tiền lớn nếu dùng API hàng ngày.

Lập trình viên và quản lý sản phẩm Khi thiết kế hệ thống RAG (Retrieval Augmented Generation) cho doanh nghiệp, cần tính toán chunk size (kích thước đoạn văn chia nhỏ) dựa trên token chứ không phải ký tự. Với tiếng Việt, nên để chunk size nhỏ hơn 20% so với tài liệu tiếng Anh để đảm bảo không vượt quá context window khi ghép cùng câu hỏi của người dùng.

So sánh

Tiêu chí	Token	Từ (Word)	Ký tự (Character)
Bản chất	Đơn vị xử lý của LLM	Đơn vị ngữ nghĩa ngôn ngữ	Đơn vị ký tự đơn lẻ
Ví dụ "ChatGPT"	2 token ("Chat", "GPT")	1 từ	7 ký tự
Ví dụ "ăn"	1-2 token	1 từ	2 ký tự (ă, n)
Câu "Tôi yêu AI"	~4-6 token	3 từ	~9 ký tự (cách)
Tính phí API	Theo số token input/output	Không áp dụng	Không áp dụng
Giới hạn context	Tính bằng token	Không áp dụng	Không áp dụng

Token là "đơn vị tiền tệ" trong thế giới LLM. Hiểu rõ sự khác biệt giữa token và từ giúp bạn kiểm soát chi phí vận hành AI và tránh lỗi vượt quá giới hạn độ dài văn bản — đặc biệt quan trọng khi làm việc với ngôn ngữ tiếng Việt có cấu trúc token riêng biệt.