Context window là gì?

Context window quyết định AI 'nhớ' được bao nhiêu trong cuộc trò chuyện. Hiểu giới hạn này để không bị mất ngữ cảnh khi chat với ChatGPT.

Định nghĩa

Context window là giới hạn số lượng token mà một Large Language Model (LLM) có thể xử lý đồng thời trong một lượt trao đổi, bao gồm cả nội dung bạn nhập vào (input) và câu trả lời AI tạo ra (output).

Nhiều người lầm tưởng AI như ChatGPT có trí nhớ dài hạn giống con người, nhưng thực chất mỗi lần gửi tin nhắn, mô hình chỉ nhìn vào đoạn văn bản nằm trong context window hiện tại. Nếu thông tin nằm ngoài giới hạn này, AI coi như nó không từng tồn tại. Đây là lý do sau 20-30 lượt hỏi đáp, AI đột nhiên hỏi lại: "Chúng ta đang thảo luận chủ đề gì?" - không phải vì AI "ngu đi", mà vì phần đầu cuộc trò chuyện đã bị đẩy ra ngoài cửa sổ xử lý.

Cách context window đo lường

Context window tính bằng đơn vị token, không phải từ tiếng Việt. Thông thường 1 token tương đương khoảng 4 ký tự tiếng Anh, hoặc 1-2 từ tiếng Việt có dấu. Ví dụ: context window 4K tokens của GPT-3.5 chứa được khoảng 3.000 từ tiếng Việt - đủ cho bài viết ngắn nhưng chưa đủ cho một chương luận văn.

Cơ chế hoạt động: Sliding window

Khi cuộc trò chuyện vượt quá giới hạn, hệ thống thường dùng kỹ thuật "sliding window" - loại bỏ tin nhắn đầu tiên hoặc cũ nhất để nhường chỗ cho nội dung mới. AI không biết rằng mình đã "quên" gì; đơn giản là thông tin đó không còn nằm trong phạm vi xử lý nữa. Đây là sự khác biệt căn bản giữa bộ nhớ của AI và cơ sở dữ liệu truyền thống.

Các mức context window phổ biến hiện nay

4K tokens: Khoảng 3.000 từ tiếng Việt, phù hợp email ngắn, hỏi đáp đơn giản
16K-32K tokens: Khoảng 12.000-24.000 từ, đủ cho bài báo nghiên cứu dài hoặc codebase vừa
128K-200K tokens (GPT-4 Turbo, Claude 3): Khoảng 100.000 từ, đủ để xử lý cuốn tiểu thuyết ngắn, hợp đồng phức tạp, hoặc toàn bộ file code lớn

Ví dụ thực tế

Tóm tắt hợp đồng thuê nhà 20 trang

Bạn nhờ AI rà soát hợp đồng thuê nhà dài 20 trang để tìm điều khoản bất lợi. Với context window 4K tokens, AI chỉ "đọc" được 5-6 trang đầu, bỏ qua các điều khoản thanh toán và phạt vi phạm ở cuối hợp đồng - nơi thường chứa rủi ro pháp lý lớn nhất. Với context window 128K tokens, AI xử lý toàn bộ 20 trang và chỉ ra chính xác điều khoản tiền cọc ở trang 18 có vấn đề, cứu bạn khỏi mất tiền oan.

Coding với file dài 500 dòng

Lập trình viên đưa cả file code dài vào ChatGPT để debug lỗi logic. Nếu context window chỉ 8K tokens, AI chỉ nhìn thấy nửa đầu file, bỏ qua hàm quan trọng ở cuối gây ra xung đột. Lập trình viên buộc phải cắt file thành từng đoạn, nhưng mất đi ngữ cảnh tổng thể khiến AI đưa ra giải pháp không tối ưu.

ChatGPT "quên" kế hoạch marketing giữa chừng

Bạn đang thảo luận với AI về chiến lược marketing 3 tháng cho sản phẩm trên Shopee. Sau 20 lượt hỏi đáp chi tiết về từng tháng, bạn hỏi: "Vậy tháng đầu cần ngân sách bao nhiêu?" AI trả lời: "Bạn đang nói đến sản phẩm nào?" - Context window đã bị lấp đầy bởi các tin nhắn mới, đẩy thông tin "sản phẩm X trên Shopee" ra ngoài phạm vi xử lý.

Ứng dụng

Sinh viên: Soạn thảo luận văn

Khi viết luận văn với AI, sinh viên cần đưa cả outline chi tiết, tài liệu tham khảo và yêu cầu format vào cùng lúc. Context window 16K tokens cho phép AI hiểu cấu trúc tổng thể để viết các chương liên kết chặt chẽ với nhau, thay vì viết từng đoạn rời rạc không liên quan đến mục lục đã thống nhất từ đầu.

Người đi làm: Viết content series

Content writer cần viết series 10 bài về chuyển đổi số cho doanh nghiệp. Bằng cách nhét brief tổng thể và 2-3 bài viết trước vào context window, AI duy trì giọng văn và thông điệp thương hiệu nhất quán qua các bài mới, tránh lặp lại ý đã nói hoặc viết mâu thuẫn với bài trước.

Lập trình viên: Debug hệ thống phức tạp

Khi xử lý bug liên quan đến nhiều file code, lập trình viên có thể đưa cả log lỗi, code backend, và code frontend vào cùng lúc nếu context window đủ lớn (32K+). AI nhìn thấy toàn cảnh hệ thống thay vì chỉ đoán mò từng phần riêng lẻ.

Doanh nghiệp: Hệ thống RAG nội bộ

Trong hệ thống RAG (Retrieval Augmented Generation), doanh nghiệp truy vấn từ kho tài liệu nội bộ chứa hàng nghìn trang quy trình. Context window lớn (100K+) cho phép nhét nhiều tài liệu tham khảo liên quan vào prompt cùng lúc, giúp AI trả lời dựa trên nhiều nguồn thay vì chỉ 1-2 đoạn trích dẫn ngắn gây thiếu sót quy định quan trọng.

So sánh

Đặc điểm	Context window nhỏ (4K)	Context window lớn (128K+)
Phù hợp	Chat ngắn, email, hỏi đáp nhanh	Đọc sách, codebase lớn, hợp đồng phức tạp
Chi phí API	Rẻ hơn (tính tiền theo số token input)	Đắt hơn đáng kể
Tốc độ xử lý	Nhanh	Chậm hơn do xử lý nhiều dữ liệu
Rủi ro	Dễ mất ngữ cảnh khi chat dài	Hiếm khi thiếu ngữ cảnh, dễ bị "lạc đề" nếu prompt không rõ ràng

Context window lớn không phải lúc nào cũng tốt hơn. Với câu hỏi đơn giản như "Viết email xin nghỉ phép", dùng model 4K tokens vừa đủ và tiết kiệm chi phí. Chỉ cần context window lớn khi thực sự phải xử lý tài liệu dài hoặc duy trì cuộc trò chuyện phức tạp qua nhiều lượt hỏi đáp.