TROISINH
Context EngineeringContext Engineering thực chiến

Context Engineering Checklist: 15 điểm kiểm tra trước khi deploy

Bỏ qua 1 dòng trong checklist này, AI agent của bạn có thể 'ảo tưởng' hoặc leak dữ liệu ngay khi lên production. 15 điểm kiểm tra từ context window đến secur...

Định nghĩa

Context Engineering Checklist là bộ 15 điểm kiểm tra bắt buộc trước khi đưa AI agent lên production, đảm bảo hệ thống xử lý đúng thông tin trong giới hạn context window, truy xuất tài liệu chính xác qua RAG, và không để lộ dữ liệu nhạy cảm qua tool calls hay conversation history.

Giải thích chi tiết

Context Window Budget (Điểm 1-3)

AI không "đọc lại" toàn bộ cuộc trò chuyện như con người — nó chỉ nhìn vào cửa sổ context hiện tại. Nếu bạn nhồi nhét quá nhiều, phần quan trọng sẽ bị đẩy ra ngoài.

Kiểm tra:

  • Tính toán token count: system prompt + user message + retrieved documents + conversation history không vượt quá 80% context window của model (để dự phòng output)
  • Cắt giảm system prompt: loại bỏ comment, ví dụ dư thừa, giữ lại dưới 10% tổng budget
  • Kiểm tra "silent truncation": nếu vượt quá giới hạn, AI có mất phần instruction quan trọng không?

RAG & Knowledge Retrieval (Điểm 4-7)

RAG không phải "bỏ tài liệu vào là xong". Chunk size sai, overlap thiếu, hay retrieval kém — tất cả đều khiến AI trả lời dựa trên đoạn văn bản sai lệch.

Kiểm tra:

  • Chunk size phù hợp: không quá nhỏ (mất ngữ cảnh) hay quá lớn (lãng phí token), thường 512-1024 tokens tùy độ phức tạp tài liệu
  • Overlap giữa các chunk: đảm bảo ít nhất 10-15% để không cắt đứt câu nghĩa giữa chừng
  • Reranking: top-k retrieval có qua bước rerank để loại bỏ nhiễu không? (tránh lấy 3 chunk đầu tiên nhưng không liên quan)
  • Fallback khi retrieval trống: nếu không tìm thấy tài liệu, AI có trả lời "Tôi không biết" thay vì bịa đặt không?

Memory & Conversation Flow (Điểm 8-10)

Memory không phải "lưu lại hết". Lưu sai, lưu thừa, hay lưu cả thông tin nhạy cảm — đều là rủi ro.

Kiểm tra:

  • Memory summarization: sau 5-10 lượt hội thoại, có tóm tắt ngắn gọn thay vì giữ nguyên transcript đầy đủ?
  • Entity extraction: thông tin quan trọng (tên, preference) được trích xuất và lưu riêng, không nằm lẫn trong chat history?
  • Memory isolation: user A không thấy memory của user B (kiểm tra session_iduser_id strict separation)

Tool Use & Permissions (Điểm 11-12)

Tool là cánh tay nối dài của AI, nhưng cũng là cửa hậu cho data leak nếu phân quyền lỏng lẻo.

Kiểm tra:

  • Tool description chính xác: AI có hiểu rõ khi nào nên dùng tool nào không? (tránh gọi send_email khi chỉ cần search_calendar)
  • Input validation: parameter đầu vào của tool có được validate (type, range, format) trước khi thực thi không?
  • Permission boundary: tool có access đến đâu? (chỉ read database hay cũng write? chỉ query bảng public hay cả bảng chứa PII?)

Security & Privacy (Điểm 13-15)

Đây là nơi nhiều team "ngã ngựa" nhất: để AI "tự tiện" gửi dữ liệu ra ngoài, hay leak thông tin qua error message.

Kiểm tra:

  • PII filtering: trước khi gửi lên LLM API, có strip số CMND, credit card, password không? (dùng regex hoặc NER)
  • Debug mode: log có ghi lại full prompt (kèm PII) không? production logs phải sanitized
  • Guardrails: có trigger word để chặn AI khi bắt đầu "ảo tưởng" (hallucination patterns) hoặc trả lời về chủ đề cấm?

Ví dụ thực tế

Coding Agent trước khi lên VS Code Marketplace

Bạn đang build extension AI assistant cho lập trình viên. Trước khi publish:

Lỗi thường gặp: Đưa cả codebase 10.000 dòng vào context, AI chỉ nhìn thấy 3.000 dòng cuối (silent truncation) — bỏ qua điểm kiểm tra số 3.

Cách áp dụng checklist:

  • Dùng tree-sitter để chỉ extract các hàm relevant (điểm 4-7: RAG trên codebase)
  • Giới hạn conversation history chỉ 3 lượt trao đổi gần nhất + summary của cả session (điểm 8-10)
  • Tool execute_shell chỉ được quyền chạy trong Docker container, không access host filesystem (điểm 11-12)

Chatbot Support cho ngân hàng

Chatbot cần tra cứu sổ dịch vụ và lịch sử giao dịch của khách hàng.

Lỗi thường gặp: Lưu cả số tài khoản và số dư vào conversation memory, rồi khi debug log ra file (vi phạm điểm 13-14).

Cách áp dụng checklist:

  • RAG chỉ truy xuất tài liệu sổ dịch vụ (public), còn lịch sử giao dịch gọi qua API riêng với user_id verified, không đưa vào context window (điểm 4-7)
  • Memory chỉ lưu "preference: thích giao dịch sáng sớm", không lưu số tài khoản (điểm 8-10)
  • Mọi output có chứa số tài khoản đều được mask (điểm 13)

Data Analysis Agent xử lý CSV lớn

Agent giúp phân tích dữ liệu bán hàng, CSV có 100.000 dòng.

Lỗi thường gặp: Đọc cả file vào prompt — vượt context window, tốn token, chậm (vi phạm điểm 1-3).

Cách áp dụng checklist:

  • Không đưa raw CSV vào context. Dùng tool python_executor để chạy pandas aggregate trước, chỉ đưa kết quả summary (15 dòng) vào AI (điểm 1-3, 11-12)
  • Nếu user hỏi "tháng nào doanh thu cao nhất", RAG trên pre-computed metrics thay vì scan lại CSV (điểm 4-7)

Ứng dụng

Dành cho indie hacker / solo developer

Bạn code một mình, không có team QA. Checklist này là "người bạn đồng hành" để không bị lỗi sơ đẳng như để lộ OpenAI API key trong system prompt (có người thực sự làm vậy). Tập trung vào điểm 1, 4, 11, 13 — những lỗi dễ thấy nhất khi không có reviewer.

Dành cho startup xây AI feature

Team 5-10 người, đang tích hợp AI vào sản phẩm hiện có. Cần đặc biệt chú ý điểm 8-10 (memory isolation) — nếu không, user thứ nhất hỏi "tôi là ai", user thứ hai login vào thấy câu trả lời của user thứ nhất là disaster. Cũng cần điểm 14 (logging) để debug khi khách hàng enterprise complain "AI trả lời sai".

Dành cho doanh nghiệp / enterprise

Có compliance team, security audit. Checklist này là "tài liệu chứng minh" bạn đã due diligence trước khi đưa AI tiếp xúc dữ liệu khách hàng. Điểm 13-15 là bắt buộc (PII handling, guardrails). Nên biến checklist thành automated test suite — mỗi deploy phải pass 15 điểm này tự động.

So sánh

Tiêu chíContext Engineering ChecklistTraditional Software Testing Checklist
Trọng tâmToken budget, semantic relevance, hallucinationFunctional correctness, edge cases, performance
Đầu vàoKhông cố định — phụ thuộc vào user query và retrieved docsCố định — input/output được định nghĩa rõ
StatefulCó — phải kiểm tra memory, conversation historyÍt — thường stateless hoặc state được kiểm soát chặt
Rủi ro chínhHallucination, context bleed (lộ data user khác), token overflowCrash, logic bug, security truyền thống
Công cụ kiểm traToken counter, embedding similarity, prompt testingUnit test, integration test, load test

Checklist truyền thống kiểm tra "code chạy đúng không", còn Context Engineering Checklist kiểm tra "AI hiểu đúng ngữ cảnh không". Bạn cần cả hai — code có thể chạy đúng nhưng AI vẫn trả lời sai vì nhìn nhầm đoạn tài liệu irrelevant.

Bài viết liên quan

Cùng cụm

Context Engineering cho Coding Agent

Áp dụng checklist này vào môi trường IDE: cách thiết kế context cho autocomplete và code review

Context Engineering cho Chatbot sản phẩm

Checklist đặc thù cho chatbot hỗ trợ khách hàng: xử lý PII và multi-session memory

Debug context: Khi AI trả lời sai, lỗi ở đâu?

Khi checklist không đủ — cách trace lỗi từ hallucination đến context window overflow

Context Engineering cho phân tích dữ liệu

Ứng dụng checklist với dữ liệu lớn: RAG trên database và tool use cho aggregation

Đọc tiếp

Nền tảng Harness Engineering

Sau khi context đã ổn, bước tiếp theo là thiết kế "cổng vào" cho AI agent: permission, feedback loop, và multi-agent architecture

On this page