Kế 5: Ngân sách Context — Biết token có hạn, chi tiêu thông minh
Kế 5 Binh pháp AI: Context window là trí nhớ ngắn hạn có hạn của AI. Học cách 'chi tiêu' token như quản lý quân lương, tránh lãng phí vào thông tin nhiễu.
Định nghĩa
Context window (cửa sổ ngữ cảnh) là "trí nhớ làm việc" tạm thời của AI, có giới hạn cứng về số lượng token (từ/cụm từ) mà model có thể xử lý trong một lượt hội thoại. Giống như ngân sách quân lương trong binh pháp, nó có hạn và cần được chi tiêu thông minh — đưa vào đúng thông tin cần thiết, cắt bỏ phần nhiễu, để AI tập trung nguồn lực "tính toán" vào nhiệm vụ thực sự.
Giải thích chi tiết
Context không phải ổ cứng — Đó là bàn làm việc
Nhiều người lầm tưởng rằng khi paste 100 trang PDF vào ChatGPT, AI đã "học" và "nhớ" toàn bộ tài liệu như lưu vào ổ cứng. Sai lầm chết người.
AI không có trí nhớ dài hạn trong cuộc trò chuyện. Context window giống như một bàn làm việc nhỏ: bạn trải tài liệu lên để AI đọc, nhưng khi bàn đầy, bất cứ thứ gì đưa vào mới sẽ đẩy thứ cũ rơi xuống đất (bị lệch khỏi cửa sổ context). Nếu cuộc trò chuyện dài quá giới hạn (thường 4K–128K token tùy model), AI sẽ quên những gì bạn nói ở đầu câu chuyện.
Token không phải từ tiếng Việt đơn lẽ. Theo quy ước của OpenAI, khoảng 4 ký tự tiếng Việt = 1 token. Một trang A4 khoảng 400–500 token.
Hiện tượng "mất dữ liệu giữa đường" — Lost in the Middle
Khi bạn nhét quá nhiều thông tin vào context — ví dụ paste 50 trang hợp đồng vào một prompt — AI không đọc đều từ đầu đến cuối như con người. Nó có xu hướng chú ý nhiều vào đầu và cuối, nhưng lơ đãng phần giữa.
Đây là hiện tượng "Lost in the Middle" (mất dữ liệu giữa đường) đã được chứng minh trong nghiên cứu từ Stanford và Anthropic. Giống như đọc một cuốn sách dày 500 trang trong 5 phút, bạn chỉ nhớ mục lục và phần kết luận, còn chi tiết ở chương 7, 8, 9 đã biến mất trong sương mù.
Chi phí cơ hội của từng token
Mỗi token trong context không chỉ tốn tiền API (tính theo số token đầu vào), mà còn tốn "sức chú ý" (attention bandwidth) của AI. Khi context quá dày đặc, mỗi token phải "cạnh tranh" sự chú ý với hàng nghìn token khác, khiến AI bị phân tán.
Chiến lược ngân sách hóa nghĩa là: Thay vì mang cả kho lương thảo, chỉ mang đúng khẩu phần cho trận chiến này. Nếu bạn cần AI rà soát điều khoản bảo hiểm, đừng đưa cả hợp đồng 100 trang; chỉ đưa phần điều khoản liên quan (20 trang) và câu hỏi cụ thể.
Ba chiến thuật "tiết kiệm" context
- Tóm tắt nén (Summarize & Compress): Thay vì paste log chat dài, tự tóm tắt thành 3–5 bullet points rồi mới đưa vào prompt mới.
- Chia trận nhỏ (Chunking): Thay vì hỏi về cả cuốn sách 300 trang, chia thành từng chương, từng phần như Kế 1: Chia để trị.
- Dùng "tiếp tế" ngoài viện (RAG): Thay vì nhét cả thư viện tài liệu vào prompt, dùng hệ thống tìm kiếm để chỉ lôi ra đúng đoạn cần thiết đưa vào context. Đây là chiến lược "đường tiếp vận" thay vì "mang vác cả kho".
Ví dụ thực tế
Rà soát hợp đồng thuê nhà
Cách phung phí: Paste toàn bộ hợp đồng 40 trang vào ChatGPT, hỏi "Tìm điều khoất bất lợi cho tôi."
Ngân sách thông minh: Chỉ copy-paste phần "Điều khoản chấm dứt hợp đồng" và "Phụ lục bảo trì" (khoảng 3 trang), kèm câu hỏi cụ thể: "Điều khoản nào cho phép chủ nhà tăng giá giữa hạn?"
Kết quả: Tiết kiệm 80% token, độ chính xác tăng vì AI không bị phân tâm bởi các điều khoản về thú cưng hay sơn tường không liên quan.
Chat dài với AI về dự án phần mềm
Bạn chat với Claude về một dự án trong 30 lượt trao đổi. Ở lượt thứ 31, bạn hỏi: "Nhắc lại tên database chúng ta chọn ở đầu câu chuyện nhé?"
Vấn đề: Context đã đầy. AI "quên" mất phần đầu vì nó đã bị đẩy ra ngoài cửa sổ context.
Giải pháp ngân sách: Sau mỗi 10–15 lượt, tự tóm tắt ngắn gọn: "Tóm lại đến giờ: Dùng PostgreSQL, framework Next.js, deadline tháng 6. Tiếp theo ta bàn về API design." Rồi bắt đầu context mới với bản tóm tắt này.
Học tập với giáo trình 500 trang
Sinh viên muốn AI giải thích chương về "Thị trường ngách" trong sách Kinh tế học dày cộp.
Cách sai: Upload file PDF 500 trang, hỏi "Giải thích phần thị trường ngách." AI phải "đọc" cả 500 trang trong đầu, rối loạn thông tin.
Cách đúng: Copy chỉ 10 trang liên quan đến thị trường ngách, hoặc tóm tắt nội dung chương đó thành 500 từ rồi paste vào.
Ứng dụng theo đối tượng
Sinh viên & Học sinh
Khi dùng AI ôn thi, đừng thả cả cuốn giáo trình 300 trang vào ChatGPT. Hãy chia nhỏ theo chương, hoặc tự tóm tắt ghi chú của bạn thành dạng bullet ngắn gọn rồi hỏi AI giải thích. Nếu cần so sánh hai lý thuyết, chỉ đưa vào đúng hai đoạn trích dẫn cần so sánh, không đưa cả chương.
Người đi làm (Content, Marketing, Legal)
- Content: Đừng paste 20 bài báo cũ vào prompt để viết bài mới. Chỉ chọn 3 bài chất lượng nhất, tóm tắt ý chính, rồi yêu cầu AI viết dựa trên outline đã tinh chế.
- Legal: Khi rà soát hợp đồng, áp dụng "Kế 2: Bỏ đầu bỏ đuôi" — chỉ đưa vào các điều khoản tranh chấp, loại bỏ phần giới thiệu và lời kết mẫu mực.
Doanh nghiệp & Kỹ sư phần mềm
Xây dựng hệ thống RAG (Retrieval-Augmented Generation) thay vì nhét cả kho tài liệu nội bộ vào prompt. Hệ thống này hoạt động như "đường tiếp tế": tìm kiếm trước để chỉ lấy đúng 3–5 đoạn văn liên quan nhất cho vào context, thay vì mang cả thư viện 10.000 tài liệu. Chi phí thấp, độ chính xác cao.
So sánh các phương pháp
| Chiến lược | Lượng token tiêu thụ | Độ chính xác khi context dài | Chi phí API | Rủi ro |
|---|---|---|---|---|
| Paste toàn bộ | Rất cao (10K–100K+) | Thấp (mất dữ liệu giữa) | Cao | AI bỏ sót thông tin quan trọng |
| Ngân sách hóa (Chọn lọc thủ công) | Vừa (2–4K) | Cao | Trung bình | Đòi hỏi người dùng hiểu tài liệu |
| Tóm tắt nén | Thấp–Vừa (1–2K) | Rất cao | Thấp | Mất chi tiết nếu tóm tắt kém |
| RAG (Tìm kiếm trước) | Thấp (500–1K) | Rất cao | Thấp nhất | Phụ thuộc chất lượng tìm kiếm |
Kết luận: Paste toàn bộ là cách "tàn binh" — tốn kém và kém hiệu quả. Ngân sách hóa thủ công phù hợp cho tác vụ đơn lẻ. RAG là giải pháp bền vững cho doanh nghiệp cần xử lý kho dữ liệu lớn.
Bài viết liên quan
Cùng cụm "Biết mình biết người"
Kế 6: Biết AI giỏi gì dở gì — 7 điều nên và không nên giao cho AI
Hiểu rõ giới hạn năng lực AI để phân công đúng việc
Kế 7: Tránh mai phục giữa đường — Lost in the Middle
Khi context quá dài, AI sẽ bỏ quên thông tin ở giữa
Kế 8: Phòng nghi binh — Phát hiện và tránh Hallucination
Nhận biết khi AI bịa chuyện và cách phòng thủ
Đọc tiếp
Kế 04: Ghép lại hoàn chỉnh — Workflow chia - xử lý - tổng hợp
Kế 04 Binh pháp AI: Kỹ thuật Map-Reduce, tổng hợp kết quả từ nhiều phần đã xử lý riêng lẻ thành output hoàn chỉnh, nhất quán và mạch lạc
Kế 6: Biết AI giỏi gì dở gì — 7 điều AI tốt và 7 điều AI dở
Kế 6 Binh pháp AI: Biết rõ giới hạn AI để dùng đúng việc, tránh mất thời gian và sai lầm đắt giá. 7 thế mạnh và 7 điểm yếu cốt lõi.