TROISINH
Dụng binh cơ bảnKế biết mình biết người

Kế 5: Ngân sách Context — Biết token có hạn, chi tiêu thông minh

Kế 5 Binh pháp AI: Context window là trí nhớ ngắn hạn có hạn của AI. Học cách 'chi tiêu' token như quản lý quân lương, tránh lãng phí vào thông tin nhiễu.

Định nghĩa

Context window (cửa sổ ngữ cảnh) là "trí nhớ làm việc" tạm thời của AI, có giới hạn cứng về số lượng token (từ/cụm từ) mà model có thể xử lý trong một lượt hội thoại. Giống như ngân sách quân lương trong binh pháp, nó có hạn và cần được chi tiêu thông minh — đưa vào đúng thông tin cần thiết, cắt bỏ phần nhiễu, để AI tập trung nguồn lực "tính toán" vào nhiệm vụ thực sự.

Giải thích chi tiết

Context không phải ổ cứng — Đó là bàn làm việc

Nhiều người lầm tưởng rằng khi paste 100 trang PDF vào ChatGPT, AI đã "học" và "nhớ" toàn bộ tài liệu như lưu vào ổ cứng. Sai lầm chết người.

AI không có trí nhớ dài hạn trong cuộc trò chuyện. Context window giống như một bàn làm việc nhỏ: bạn trải tài liệu lên để AI đọc, nhưng khi bàn đầy, bất cứ thứ gì đưa vào mới sẽ đẩy thứ cũ rơi xuống đất (bị lệch khỏi cửa sổ context). Nếu cuộc trò chuyện dài quá giới hạn (thường 4K–128K token tùy model), AI sẽ quên những gì bạn nói ở đầu câu chuyện.

Token không phải từ tiếng Việt đơn lẽ. Theo quy ước của OpenAI, khoảng 4 ký tự tiếng Việt = 1 token. Một trang A4 khoảng 400–500 token.

Hiện tượng "mất dữ liệu giữa đường" — Lost in the Middle

Khi bạn nhét quá nhiều thông tin vào context — ví dụ paste 50 trang hợp đồng vào một prompt — AI không đọc đều từ đầu đến cuối như con người. Nó có xu hướng chú ý nhiều vào đầu và cuối, nhưng lơ đãng phần giữa.

Đây là hiện tượng "Lost in the Middle" (mất dữ liệu giữa đường) đã được chứng minh trong nghiên cứu từ Stanford và Anthropic. Giống như đọc một cuốn sách dày 500 trang trong 5 phút, bạn chỉ nhớ mục lục và phần kết luận, còn chi tiết ở chương 7, 8, 9 đã biến mất trong sương mù.

Chi phí cơ hội của từng token

Mỗi token trong context không chỉ tốn tiền API (tính theo số token đầu vào), mà còn tốn "sức chú ý" (attention bandwidth) của AI. Khi context quá dày đặc, mỗi token phải "cạnh tranh" sự chú ý với hàng nghìn token khác, khiến AI bị phân tán.

Chiến lược ngân sách hóa nghĩa là: Thay vì mang cả kho lương thảo, chỉ mang đúng khẩu phần cho trận chiến này. Nếu bạn cần AI rà soát điều khoản bảo hiểm, đừng đưa cả hợp đồng 100 trang; chỉ đưa phần điều khoản liên quan (20 trang) và câu hỏi cụ thể.

Ba chiến thuật "tiết kiệm" context

  1. Tóm tắt nén (Summarize & Compress): Thay vì paste log chat dài, tự tóm tắt thành 3–5 bullet points rồi mới đưa vào prompt mới.
  2. Chia trận nhỏ (Chunking): Thay vì hỏi về cả cuốn sách 300 trang, chia thành từng chương, từng phần như Kế 1: Chia để trị.
  3. Dùng "tiếp tế" ngoài viện (RAG): Thay vì nhét cả thư viện tài liệu vào prompt, dùng hệ thống tìm kiếm để chỉ lôi ra đúng đoạn cần thiết đưa vào context. Đây là chiến lược "đường tiếp vận" thay vì "mang vác cả kho".

Ví dụ thực tế

Rà soát hợp đồng thuê nhà

Cách phung phí: Paste toàn bộ hợp đồng 40 trang vào ChatGPT, hỏi "Tìm điều khoất bất lợi cho tôi."
Ngân sách thông minh: Chỉ copy-paste phần "Điều khoản chấm dứt hợp đồng" và "Phụ lục bảo trì" (khoảng 3 trang), kèm câu hỏi cụ thể: "Điều khoản nào cho phép chủ nhà tăng giá giữa hạn?"
Kết quả: Tiết kiệm 80% token, độ chính xác tăng vì AI không bị phân tâm bởi các điều khoản về thú cưng hay sơn tường không liên quan.

Chat dài với AI về dự án phần mềm

Bạn chat với Claude về một dự án trong 30 lượt trao đổi. Ở lượt thứ 31, bạn hỏi: "Nhắc lại tên database chúng ta chọn ở đầu câu chuyện nhé?"
Vấn đề: Context đã đầy. AI "quên" mất phần đầu vì nó đã bị đẩy ra ngoài cửa sổ context.
Giải pháp ngân sách: Sau mỗi 10–15 lượt, tự tóm tắt ngắn gọn: "Tóm lại đến giờ: Dùng PostgreSQL, framework Next.js, deadline tháng 6. Tiếp theo ta bàn về API design." Rồi bắt đầu context mới với bản tóm tắt này.

Học tập với giáo trình 500 trang

Sinh viên muốn AI giải thích chương về "Thị trường ngách" trong sách Kinh tế học dày cộp.
Cách sai: Upload file PDF 500 trang, hỏi "Giải thích phần thị trường ngách." AI phải "đọc" cả 500 trang trong đầu, rối loạn thông tin.
Cách đúng: Copy chỉ 10 trang liên quan đến thị trường ngách, hoặc tóm tắt nội dung chương đó thành 500 từ rồi paste vào.

Ứng dụng theo đối tượng

Sinh viên & Học sinh

Khi dùng AI ôn thi, đừng thả cả cuốn giáo trình 300 trang vào ChatGPT. Hãy chia nhỏ theo chương, hoặc tự tóm tắt ghi chú của bạn thành dạng bullet ngắn gọn rồi hỏi AI giải thích. Nếu cần so sánh hai lý thuyết, chỉ đưa vào đúng hai đoạn trích dẫn cần so sánh, không đưa cả chương.

  • Content: Đừng paste 20 bài báo cũ vào prompt để viết bài mới. Chỉ chọn 3 bài chất lượng nhất, tóm tắt ý chính, rồi yêu cầu AI viết dựa trên outline đã tinh chế.
  • Legal: Khi rà soát hợp đồng, áp dụng "Kế 2: Bỏ đầu bỏ đuôi" — chỉ đưa vào các điều khoản tranh chấp, loại bỏ phần giới thiệu và lời kết mẫu mực.

Doanh nghiệp & Kỹ sư phần mềm

Xây dựng hệ thống RAG (Retrieval-Augmented Generation) thay vì nhét cả kho tài liệu nội bộ vào prompt. Hệ thống này hoạt động như "đường tiếp tế": tìm kiếm trước để chỉ lấy đúng 3–5 đoạn văn liên quan nhất cho vào context, thay vì mang cả thư viện 10.000 tài liệu. Chi phí thấp, độ chính xác cao.

So sánh các phương pháp

Chiến lượcLượng token tiêu thụĐộ chính xác khi context dàiChi phí APIRủi ro
Paste toàn bộRất cao (10K–100K+)Thấp (mất dữ liệu giữa)CaoAI bỏ sót thông tin quan trọng
Ngân sách hóa (Chọn lọc thủ công)Vừa (2–4K)CaoTrung bìnhĐòi hỏi người dùng hiểu tài liệu
Tóm tắt nénThấp–Vừa (1–2K)Rất caoThấpMất chi tiết nếu tóm tắt kém
RAG (Tìm kiếm trước)Thấp (500–1K)Rất caoThấp nhấtPhụ thuộc chất lượng tìm kiếm

Kết luận: Paste toàn bộ là cách "tàn binh" — tốn kém và kém hiệu quả. Ngân sách hóa thủ công phù hợp cho tác vụ đơn lẻ. RAG là giải pháp bền vững cho doanh nghiệp cần xử lý kho dữ liệu lớn.

Bài viết liên quan

Cùng cụm "Biết mình biết người"

Đọc tiếp

On this page