Context Engineering Checklist: 15 điểm kiểm tra trước khi deploy
Bỏ qua 1 dòng trong checklist này, AI agent của bạn có thể 'ảo tưởng' hoặc leak dữ liệu ngay khi lên production. 15 điểm kiểm tra từ context window đến secur...
Định nghĩa
Context Engineering Checklist là bộ 15 điểm kiểm tra bắt buộc trước khi đưa AI agent lên production, đảm bảo hệ thống xử lý đúng thông tin trong giới hạn context window, truy xuất tài liệu chính xác qua RAG, và không để lộ dữ liệu nhạy cảm qua tool calls hay conversation history.
Giải thích chi tiết
Context Window Budget (Điểm 1-3)
AI không "đọc lại" toàn bộ cuộc trò chuyện như con người — nó chỉ nhìn vào cửa sổ context hiện tại. Nếu bạn nhồi nhét quá nhiều, phần quan trọng sẽ bị đẩy ra ngoài.
Kiểm tra:
- Tính toán token count: system prompt + user message + retrieved documents + conversation history không vượt quá 80% context window của model (để dự phòng output)
- Cắt giảm system prompt: loại bỏ comment, ví dụ dư thừa, giữ lại dưới 10% tổng budget
- Kiểm tra "silent truncation": nếu vượt quá giới hạn, AI có mất phần instruction quan trọng không?
RAG & Knowledge Retrieval (Điểm 4-7)
RAG không phải "bỏ tài liệu vào là xong". Chunk size sai, overlap thiếu, hay retrieval kém — tất cả đều khiến AI trả lời dựa trên đoạn văn bản sai lệch.
Kiểm tra:
- Chunk size phù hợp: không quá nhỏ (mất ngữ cảnh) hay quá lớn (lãng phí token), thường 512-1024 tokens tùy độ phức tạp tài liệu
- Overlap giữa các chunk: đảm bảo ít nhất 10-15% để không cắt đứt câu nghĩa giữa chừng
- Reranking: top-k retrieval có qua bước rerank để loại bỏ nhiễu không? (tránh lấy 3 chunk đầu tiên nhưng không liên quan)
- Fallback khi retrieval trống: nếu không tìm thấy tài liệu, AI có trả lời "Tôi không biết" thay vì bịa đặt không?
Memory & Conversation Flow (Điểm 8-10)
Memory không phải "lưu lại hết". Lưu sai, lưu thừa, hay lưu cả thông tin nhạy cảm — đều là rủi ro.
Kiểm tra:
- Memory summarization: sau 5-10 lượt hội thoại, có tóm tắt ngắn gọn thay vì giữ nguyên transcript đầy đủ?
- Entity extraction: thông tin quan trọng (tên, preference) được trích xuất và lưu riêng, không nằm lẫn trong chat history?
- Memory isolation: user A không thấy memory của user B (kiểm tra
session_idvàuser_idstrict separation)
Tool Use & Permissions (Điểm 11-12)
Tool là cánh tay nối dài của AI, nhưng cũng là cửa hậu cho data leak nếu phân quyền lỏng lẻo.
Kiểm tra:
- Tool description chính xác: AI có hiểu rõ khi nào nên dùng tool nào không? (tránh gọi
send_emailkhi chỉ cầnsearch_calendar) - Input validation: parameter đầu vào của tool có được validate (type, range, format) trước khi thực thi không?
- Permission boundary: tool có access đến đâu? (chỉ read database hay cũng write? chỉ query bảng public hay cả bảng chứa PII?)
Security & Privacy (Điểm 13-15)
Đây là nơi nhiều team "ngã ngựa" nhất: để AI "tự tiện" gửi dữ liệu ra ngoài, hay leak thông tin qua error message.
Kiểm tra:
- PII filtering: trước khi gửi lên LLM API, có strip số CMND, credit card, password không? (dùng regex hoặc NER)
- Debug mode: log có ghi lại full prompt (kèm PII) không? production logs phải sanitized
- Guardrails: có trigger word để chặn AI khi bắt đầu "ảo tưởng" (hallucination patterns) hoặc trả lời về chủ đề cấm?
Ví dụ thực tế
Coding Agent trước khi lên VS Code Marketplace
Bạn đang build extension AI assistant cho lập trình viên. Trước khi publish:
Lỗi thường gặp: Đưa cả codebase 10.000 dòng vào context, AI chỉ nhìn thấy 3.000 dòng cuối (silent truncation) — bỏ qua điểm kiểm tra số 3.
Cách áp dụng checklist:
- Dùng
tree-sitterđể chỉ extract các hàm relevant (điểm 4-7: RAG trên codebase) - Giới hạn conversation history chỉ 3 lượt trao đổi gần nhất + summary của cả session (điểm 8-10)
- Tool
execute_shellchỉ được quyền chạy trong Docker container, không access host filesystem (điểm 11-12)
Chatbot Support cho ngân hàng
Chatbot cần tra cứu sổ dịch vụ và lịch sử giao dịch của khách hàng.
Lỗi thường gặp: Lưu cả số tài khoản và số dư vào conversation memory, rồi khi debug log ra file (vi phạm điểm 13-14).
Cách áp dụng checklist:
- RAG chỉ truy xuất tài liệu sổ dịch vụ (public), còn lịch sử giao dịch gọi qua API riêng với
user_idverified, không đưa vào context window (điểm 4-7) - Memory chỉ lưu "preference: thích giao dịch sáng sớm", không lưu số tài khoản (điểm 8-10)
- Mọi output có chứa số tài khoản đều được mask (điểm 13)
Data Analysis Agent xử lý CSV lớn
Agent giúp phân tích dữ liệu bán hàng, CSV có 100.000 dòng.
Lỗi thường gặp: Đọc cả file vào prompt — vượt context window, tốn token, chậm (vi phạm điểm 1-3).
Cách áp dụng checklist:
- Không đưa raw CSV vào context. Dùng tool
python_executorđể chạy pandas aggregate trước, chỉ đưa kết quả summary (15 dòng) vào AI (điểm 1-3, 11-12) - Nếu user hỏi "tháng nào doanh thu cao nhất", RAG trên pre-computed metrics thay vì scan lại CSV (điểm 4-7)
Ứng dụng
Dành cho indie hacker / solo developer
Bạn code một mình, không có team QA. Checklist này là "người bạn đồng hành" để không bị lỗi sơ đẳng như để lộ OpenAI API key trong system prompt (có người thực sự làm vậy). Tập trung vào điểm 1, 4, 11, 13 — những lỗi dễ thấy nhất khi không có reviewer.
Dành cho startup xây AI feature
Team 5-10 người, đang tích hợp AI vào sản phẩm hiện có. Cần đặc biệt chú ý điểm 8-10 (memory isolation) — nếu không, user thứ nhất hỏi "tôi là ai", user thứ hai login vào thấy câu trả lời của user thứ nhất là disaster. Cũng cần điểm 14 (logging) để debug khi khách hàng enterprise complain "AI trả lời sai".
Dành cho doanh nghiệp / enterprise
Có compliance team, security audit. Checklist này là "tài liệu chứng minh" bạn đã due diligence trước khi đưa AI tiếp xúc dữ liệu khách hàng. Điểm 13-15 là bắt buộc (PII handling, guardrails). Nên biến checklist thành automated test suite — mỗi deploy phải pass 15 điểm này tự động.
So sánh
| Tiêu chí | Context Engineering Checklist | Traditional Software Testing Checklist |
|---|---|---|
| Trọng tâm | Token budget, semantic relevance, hallucination | Functional correctness, edge cases, performance |
| Đầu vào | Không cố định — phụ thuộc vào user query và retrieved docs | Cố định — input/output được định nghĩa rõ |
| Stateful | Có — phải kiểm tra memory, conversation history | Ít — thường stateless hoặc state được kiểm soát chặt |
| Rủi ro chính | Hallucination, context bleed (lộ data user khác), token overflow | Crash, logic bug, security truyền thống |
| Công cụ kiểm tra | Token counter, embedding similarity, prompt testing | Unit test, integration test, load test |
Checklist truyền thống kiểm tra "code chạy đúng không", còn Context Engineering Checklist kiểm tra "AI hiểu đúng ngữ cảnh không". Bạn cần cả hai — code có thể chạy đúng nhưng AI vẫn trả lời sai vì nhìn nhầm đoạn tài liệu irrelevant.
Bài viết liên quan
Cùng cụm
Context Engineering cho Coding Agent
Áp dụng checklist này vào môi trường IDE: cách thiết kế context cho autocomplete và code review
Context Engineering cho Chatbot sản phẩm
Checklist đặc thù cho chatbot hỗ trợ khách hàng: xử lý PII và multi-session memory
Debug context: Khi AI trả lời sai, lỗi ở đâu?
Khi checklist không đủ — cách trace lỗi từ hallucination đến context window overflow
Context Engineering cho phân tích dữ liệu
Ứng dụng checklist với dữ liệu lớn: RAG trên database và tool use cho aggregation
Đọc tiếp
Nền tảng Harness Engineering
Sau khi context đã ổn, bước tiếp theo là thiết kế "cổng vào" cho AI agent: permission, feedback loop, và multi-agent architecture
Debug context: Khi AI trả lời sai, lỗi ở đâu?
Hướng dẫn xác định nguyên nhân gốc rễ khi AI trả lời sai: từ retrieval lỗi, context window overflow, đến prompt injection. Checklist và workflow debug cho Co...
Level 2: Harness Engineering
35 bài — nền tảng harness, tool & permission design, state & session, multi-agent, feedback loops, security guardrails và case studies thực chiến.