Context Engineering cho phân tích dữ liệu

Cách thiết kế context để AI phân tích dữ liệu chính xác, từ CSV đến SQL. Kết hợp RAG, tool use và memory trong một workflow hoàn chỉnh.

Định nghĩa

Context Engineering cho phân tích dữ liệu là việc thiết kế hệ thống để đưa cấu trúc dữ liệu (schema), business logic, và ngữ cảnh doanh nghiệp vào AI — thay vì chỉ copy-paste raw data vào prompt. Mục tiêu là biến AI từ "người đọc bảng số" thành "data analyst thực thụ" hiểu rõ ý nghĩa đằng sau từng cột dữ liệu.

Giải thích chi tiết

Context không chỉ là "đưa data vào"

Nhiều người lầm tưởng rằng phân tích dữ liệu với AI chỉ đơn giản là paste một đoạn CSV vào ChatGPT và hỏi "phân tích giúp tôi". Cách làm này thất bại ở ba điểm:

Context Window không đủ: Bảng dữ liệu thực tế có thể có hàng triệu dòng, không thể nhét hết vào prompt
Thiếu semantic context: AI không biết column_name: "rev" nghĩa là Revenue hay Reverse
Mất tính lịch sử: Phân tích dữ liệu là quá trình lặp — hôm nay hỏi "doanh thu Q1", ngày mai hỏi "so sánh với Q2", AI cần nhớ context phân tích trước đó

Context Engineering giải quyết bằng cách tách biệt data (nội dung) khỏi context (diễn giải).

Ba lớp context trong data analysis

Một hệ thống phân tích dữ liệu chuyên nghiệp cần xây dựng ba lớp context:

Lớp 1: Structural Context — Schema & Metadata

Tên cột, kiểu dữ liệu, ràng buộc (constraints)
Business glossary: churn_rate = tỷ lệ khách hàng rời bỏ, không phải tốc độ quay
Relationships: Bảng Orders liên kết với Customers qua khóa ngoại nào

Lớp 2: Temporal Context — Time-series & Memory

Dữ liệu thay đổi theo thời gian, cần mechanism để AI biết "đang xem dữ liệu đến tháng nào"
Memory lưu lại các hypothesis đã test để tránh lặp lại phân tích giống nhau

Lớp 3: Analytical Context — Domain Knowledge

Ngành hàng đặc thù: Retail khác Banking, SaaS khác Manufacturing
KPIs quan trọng với từng ngành: CAC, LTV, MRR — AI cần biết công thức tính và ý nghĩa

Tích hợp RAG + Tool Use + Memory

Trong thực chiến, bạn không dùng riêng lẻ từng kỹ thuật mà kết hợp thành workflow:

RAG cho Schema: Lưu schema và business glossary vào vector database. Khi user hỏi về "doanh thu", retrieve định nghĩa chính xác của revenue trong công ty (có thể khác với recognized_revenue).
Tool Use cho Data Access: AI không giữ data trong đầu (context window). Thay vào đó, AI viết SQL/Python để query database thông qua function calling. Đây là Context-on-Demand — chỉ load dữ liệu cần thiết vào context window tại thời điểm phân tích.
Memory cho Conversation Flow: Lưu lại các bước phân tích trước đó. Khi user nói "so sánh với tháng trước", AI biết "tháng trước" là tháng nào, đã tính toán những metric gì, để tiếp tục mạch lập luận.

Ví dụ thực tế

Phân tích CSV bán hàng với dynamic schema

Thách thức: Bạn có file CSV 10,000 dòng đơn hàng từ Shopify, cột financial_status có giá trị paid, pending, refunded. AI cần biết chỉ tính doanh thu từ paid.

Thiết kế Context:

{
  "schema_context": {
    "columns": {
      "financial_status": {
        "type": "enum",
        "values": ["paid", "pending", "refunded", "partially_paid"],
        "business_meaning": {
          "paid": "Đã thanh toán đủ - tính vào doanh thu",
          "pending": "Chưa thanh toán - không tính doanh thu",
          "refunded": "Đã hoàn tiền - trừ vào doanh thu"
        }
      },
      "total_price": "Giá trị đơn hàng bao gồm thuế, đơn vị: VNĐ"
    }
  },
  "tools": ["python_interpreter", "calculator"],
  "memory_key": "shopify_analysis_q3_2024"
}

Workflow:

User hỏi: "Doanh thu tháng 9 là bao nhiêu?"
AI gọi tool python_interpreter để load CSV, filter financial_status == 'paid', sum total_price
AI trả kết quả kèm giải thích: "Đã loại trừ 12 đơn pending và 3 đơn refunded"
User hỏi tiếp: "Vậy còn pending thì sao?" — AI nhớ đã filter gì, chỉ cần thay điều kiện query

SQL Analysis với business context phức tạp

Tình huống: Database có 50 bảng. User là marketing manager, không biết SQL. Hỏi: "Chi phí thu hữu khách hàng tháng này cao hay thấp so với trung bình?"

Context Engineering:

Retrieval: Khi detect từ khóa "chi phí thu hữu khách hàng", RAG retrieve định nghĩa: CAC = Total Marketing Spend / New Customers. Biết rằng trong schema này, marketing spend nằm ở bảng marketing_events chứ không phải expenses.

Tool Use: AI viết SQL:

SELECT 
  DATE_TRUNC('month', event_date) as month,
  SUM(cost) as total_spend,
  COUNT(DISTINCT new_customer_id) as new_customers,
  SUM(cost)/COUNT(DISTINCT new_customer_id) as cac
FROM marketing_events 
WHERE event_date >= '2024-01-01'
GROUP BY 1

Memory: Lưu lại kết quả CAC tháng này. Khi user hỏi "tháng trước", AI tự động điều chỉnh date range trong query mới.

Dashboard tự động cập nhật insight

Hệ thống: Tích hợp AI vào BI tool (Metabase/Tableau). Mỗi sáng, AI nhận snapshot dữ liệu hôm qua, so sánh với memory về baseline tuần trước, tự động generate insight:

"Doanh thu hôm qua giảm 15% so với cùng kỳ. Nguyên nhân: Traffic từ kênh Facebook Ads giảm 40% (theo dữ liệu từ bảng traffic_sources). Đề xuất: Kiểm tra budget allocation."

Context ở đây bao gồm cả historical baseline (trong memory) và real-time data access (qua tool).

Ứng dụng

Cho Data Analyst chuyên nghiệp

Thay vì viết lại prompt mỗi lần phân tích dataset mới, xây dựng Context Template cho từng nguồn dữ liệu (Google Analytics, Salesforce, Internal DB). Mỗi template chứa schema, business rules, và KPI definitions. Khi có câu hỏi mới, chỉ cần load đúng template — AI tự hiểu ngữ cảnh.

Cho Business Intelligence (BI) Teams

Xây dựng Semantic Layer bằng Context Engineering: Lưu định nghĩa các metric (CAC, LTV, Churn) vào vector store. Non-technical users hỏi bằng ngôn ngữ tự nhiên, AI retrieve đúng context để translate thành SQL/Pandas, đảm bảo không có hiểu lầm về định nghĩa.

Cho Startup và Doanh nghiệp nhỏ

Không cần xây dựng data warehouse phức tạp. Dùng AI với context design để phân tích trực tiếp trên Google Sheets hoặc CSV exports. Quan trọng là thiết kế Data Dictionary (danh mục giải thích dữ liệu) làm context cố định, giúp AI xử lý chính xác ngay cả khi dữ liệu thô sơ.

So sánh

Tiêu chí	Prompt Engineering thuần (Không context)	Context Engineering cho Data
Cách đưa data	Paste trực tiếp CSV vào chat	Dùng tool để query on-demand, chỉ đưa summary vào context
Hiểu schema	AI tự đoán ý nghĩa cột (thường sai)	Schema được định nghĩa rõ ràng trong context
Xử lý data lớn	Giới hạn bởi context window (thường dưới 200k tokens)	Về cơ bản không giới hạn — AI viết code để xử lý local
Tính nhất quán	Mỗi câu hỏi là session mới, mất ngữ cảnh	Memory lưu lại phân tích trước, đảm bảo tính liên tục
Chính xác nghiệp vụ	Confuse giữa các định nghĩa tương tự (ví dụ: revenue vs profit)	RAG retrieve đúng business glossary

Kết luận: Prompt Engineering thuần phù hợp cho phân tích dữ liệu một lần, dataset nhỏ, không cần precision cao. Context Engineering là bắt buộc khi bạn xây dựng hệ thống production — nơi AI phải hiểu đúng semantic của dữ liệu enterprise và duy trì context xuyên suốt nhiều lượt tương tác.

Context Engineering cho phân tích dữ liệu

Định nghĩa

Giải thích chi tiết

Context không chỉ là "đưa data vào"

Ba lớp context trong data analysis

Tích hợp RAG + Tool Use + Memory

Ví dụ thực tế

Phân tích CSV bán hàng với dynamic schema

SQL Analysis với business context phức tạp

Dashboard tự động cập nhật insight

Ứng dụng

Cho Data Analyst chuyên nghiệp

Cho Business Intelligence (BI) Teams

Cho Startup và Doanh nghiệp nhỏ

So sánh

Bài viết liên quan

Cùng cụm

Context Engineering cho Coding Agent

Context Engineering cho Chatbot sản phẩm

Debug context: Khi AI trả lời sai, lỗi ở đâu?

Context Engineering Checklist: 15 điểm kiểm tra trước khi deploy

Đọc tiếp

Nền tảng Harness Engineering

Nền tảng Context Engineering

On this page