Context window là gì?
Context window quyết định AI 'nhớ' được bao nhiêu trong cuộc trò chuyện. Hiểu giới hạn này để không bị mất ngữ cảnh khi chat với ChatGPT.
Định nghĩa
Context window là giới hạn số lượng token mà một Large Language Model (LLM) có thể xử lý đồng thời trong một lượt trao đổi, bao gồm cả nội dung bạn nhập vào (input) và câu trả lời AI tạo ra (output).
Giải thích chi tiết
AI không "nhớ" như bạn nghĩ
Nhiều người lầm tưởng AI như ChatGPT có trí nhớ dài hạn giống con người, nhưng thực chất mỗi lần gửi tin nhắn, mô hình chỉ nhìn vào đoạn văn bản nằm trong context window hiện tại. Nếu thông tin nằm ngoài giới hạn này, AI coi như nó không từng tồn tại. Đây là lý do sau 20-30 lượt hỏi đáp, AI đột nhiên hỏi lại: "Chúng ta đang thảo luận chủ đề gì?" - không phải vì AI "ngu đi", mà vì phần đầu cuộc trò chuyện đã bị đẩy ra ngoài cửa sổ xử lý.
Cách context window đo lường
Context window tính bằng đơn vị token, không phải từ tiếng Việt. Thông thường 1 token tương đương khoảng 4 ký tự tiếng Anh, hoặc 1-2 từ tiếng Việt có dấu. Ví dụ: context window 4K tokens của GPT-3.5 chứa được khoảng 3.000 từ tiếng Việt - đủ cho bài viết ngắn nhưng chưa đủ cho một chương luận văn.
Cơ chế hoạt động: Sliding window
Khi cuộc trò chuyện vượt quá giới hạn, hệ thống thường dùng kỹ thuật "sliding window" - loại bỏ tin nhắn đầu tiên hoặc cũ nhất để nhường chỗ cho nội dung mới. AI không biết rằng mình đã "quên" gì; đơn giản là thông tin đó không còn nằm trong phạm vi xử lý nữa. Đây là sự khác biệt căn bản giữa bộ nhớ của AI và cơ sở dữ liệu truyền thống.
Các mức context window phổ biến hiện nay
- 4K tokens: Khoảng 3.000 từ tiếng Việt, phù hợp email ngắn, hỏi đáp đơn giản
- 16K-32K tokens: Khoảng 12.000-24.000 từ, đủ cho bài báo nghiên cứu dài hoặc codebase vừa
- 128K-200K tokens (GPT-4 Turbo, Claude 3): Khoảng 100.000 từ, đủ để xử lý cuốn tiểu thuyết ngắn, hợp đồng phức tạp, hoặc toàn bộ file code lớn
Ví dụ thực tế
Tóm tắt hợp đồng thuê nhà 20 trang
Bạn nhờ AI rà soát hợp đồng thuê nhà dài 20 trang để tìm điều khoản bất lợi. Với context window 4K tokens, AI chỉ "đọc" được 5-6 trang đầu, bỏ qua các điều khoản thanh toán và phạt vi phạm ở cuối hợp đồng - nơi thường chứa rủi ro pháp lý lớn nhất. Với context window 128K tokens, AI xử lý toàn bộ 20 trang và chỉ ra chính xác điều khoản tiền cọc ở trang 18 có vấn đề, cứu bạn khỏi mất tiền oan.
Coding với file dài 500 dòng
Lập trình viên đưa cả file code dài vào ChatGPT để debug lỗi logic. Nếu context window chỉ 8K tokens, AI chỉ nhìn thấy nửa đầu file, bỏ qua hàm quan trọng ở cuối gây ra xung đột. Lập trình viên buộc phải cắt file thành từng đoạn, nhưng mất đi ngữ cảnh tổng thể khiến AI đưa ra giải pháp không tối ưu.
ChatGPT "quên" kế hoạch marketing giữa chừng
Bạn đang thảo luận với AI về chiến lược marketing 3 tháng cho sản phẩm trên Shopee. Sau 20 lượt hỏi đáp chi tiết về từng tháng, bạn hỏi: "Vậy tháng đầu cần ngân sách bao nhiêu?" AI trả lời: "Bạn đang nói đến sản phẩm nào?" - Context window đã bị lấp đầy bởi các tin nhắn mới, đẩy thông tin "sản phẩm X trên Shopee" ra ngoài phạm vi xử lý.
Ứng dụng
Sinh viên: Soạn thảo luận văn
Khi viết luận văn với AI, sinh viên cần đưa cả outline chi tiết, tài liệu tham khảo và yêu cầu format vào cùng lúc. Context window 16K tokens cho phép AI hiểu cấu trúc tổng thể để viết các chương liên kết chặt chẽ với nhau, thay vì viết từng đoạn rời rạc không liên quan đến mục lục đã thống nhất từ đầu.
Người đi làm: Viết content series
Content writer cần viết series 10 bài về chuyển đổi số cho doanh nghiệp. Bằng cách nhét brief tổng thể và 2-3 bài viết trước vào context window, AI duy trì giọng văn và thông điệp thương hiệu nhất quán qua các bài mới, tránh lặp lại ý đã nói hoặc viết mâu thuẫn với bài trước.
Lập trình viên: Debug hệ thống phức tạp
Khi xử lý bug liên quan đến nhiều file code, lập trình viên có thể đưa cả log lỗi, code backend, và code frontend vào cùng lúc nếu context window đủ lớn (32K+). AI nhìn thấy toàn cảnh hệ thống thay vì chỉ đoán mò từng phần riêng lẻ.
Doanh nghiệp: Hệ thống RAG nội bộ
Trong hệ thống RAG (Retrieval Augmented Generation), doanh nghiệp truy vấn từ kho tài liệu nội bộ chứa hàng nghìn trang quy trình. Context window lớn (100K+) cho phép nhét nhiều tài liệu tham khảo liên quan vào prompt cùng lúc, giúp AI trả lời dựa trên nhiều nguồn thay vì chỉ 1-2 đoạn trích dẫn ngắn gây thiếu sót quy định quan trọng.
So sánh
| Đặc điểm | Context window nhỏ (4K) | Context window lớn (128K+) |
|---|---|---|
| Phù hợp | Chat ngắn, email, hỏi đáp nhanh | Đọc sách, codebase lớn, hợp đồng phức tạp |
| Chi phí API | Rẻ hơn (tính tiền theo số token input) | Đắt hơn đáng kể |
| Tốc độ xử lý | Nhanh | Chậm hơn do xử lý nhiều dữ liệu |
| Rủi ro | Dễ mất ngữ cảnh khi chat dài | Hiếm khi thiếu ngữ cảnh, dễ bị "lạc đề" nếu prompt không rõ ràng |
Context window lớn không phải lúc nào cũng tốt hơn. Với câu hỏi đơn giản như "Viết email xin nghỉ phép", dùng model 4K tokens vừa đủ và tiết kiệm chi phí. Chỉ cần context window lớn khi thực sự phải xử lý tài liệu dài hoặc duy trì cuộc trò chuyện phức tạp qua nhiều lượt hỏi đáp.
Bài viết liên quan
Cùng cụm (Technical Parameters)
- Token là gì? - Đơn vị đo lường bên trong context window, hiểu token để tính toán giới hạn chính xác
- Temperature trong AI là gì? - Tham số điều chỉnh tính sáng tạo, thường dùng kết hợp với việc quản lý context
- Top-p là gì? - Tham số xác suất khác ảnh hưởng đến đầu ra trong giới hạn context
- Fine-tuning vs Prompt - Khi context window không đủ chứa tất cả hướng dẫn phức tạp, fine-tuning là giải pháp thay thế
Đọc tiếp
- LLM Fundamentals - Hiểu bản chất mô hình ngôn ngữ lớn trước khi điều chỉnh các tham số kỹ thuật
- Advanced Prompting - Kỹ thuật viết prompt hiệu quả trong giới hạn của context window, tối ưu từng token
Token là gì?
Token là đơn vị xử lý cơ bản của AI. Tìm hiểu tại sao tiếng Việt tốn nhiều token hơn tiếng Anh và cách tối ưu chi phí khi dùng ChatGPT.
Temperature trong AI là gì?
Hiểu temperature từ 0 đến 2: Tham số quyết định AI trả lời 'an toàn' hay 'sáng tạo'. Hướng dẫn chỉnh temperature cho từng tác vụ.