Kế 26: Rút củi đáy nồi — Debug AI sai từ gốc

Kế 26 Binh pháp AI: Thay vì vá lỗi bề mặt bằng prompt phức tạp, đào tận gốc rễ lỗi trong dữ liệu hoặc representation để triệt để khắc phục AI sai.

Trận Nam Định và bài học về "cái nồi sôi"

Năm 1285, quân Nguyên Mông vây thành Nam Định. Trần Hưng Đạo không hạ lệnh đổ thêm nước đá xuống hào để chống lại dầu sôi mà quân giặc đổ xuống. Thay vào đó, ông sai một toán kỵ binh nhẹ băng rừng vòng sau doanh trại địch, đốt kho củi của họ. Khi củi cháy, nồi dầu trên thành tự nhiên nguội lạnh — không cần thêm một thùng nước nào.

Đó chính là "rút củi đáy nồi": thay vì đối phó với triệu chứng (nước sôi), hãy cắt đứt nguyên nhân (nguồn nhiệt).

Trong thế giới AI, chúng ta thường mắc sai lầm ngược lại: cứ thấy output sai là gia tăng prompt — thêm "hãy kiểm tra lại", "đừng bịa đặt", "double-check". Đây chỉ là "đè nắp nồi": bề ngoài có vẻ ổn, nhưng áp lực bên trong vẫn tích tụ, chỉ chờ một "jailbreak" hay edge case để bùng nổ. Kế 26 dạy chúng ta: để triệt để sửa AI, phải rút củi — loại bỏ nguyên nhân gốc rễ từ data, representation, hoặc training signal.

Vấn đề: Vá lỗi bằng "băng dính" prompt

Bạn đang dùng Claude để phân tích báo cáo tài chính. Model cứ liên tục nhầm lẫn giữa "EBITDA" và "Net Income" — dù bạn đã prompt "hãy phân biệt rõ hai chỉ số này". Bạn thêm ví dụ few-shot. Bạn thêm cảnh báo đỏ "WARNING: Check calculation". Output đúng tăng từ 70% lên 85%, nhưng cứ đến quý 4 là sai bét nhè vì model "shortcut" sang pattern từ dữ liệu training cũ.

Đây là "Sửa ngọn": bạn đang đắp thêm lớp băng dính lên vết thương sâu. Các lớp "guardrail" bề mặt — output filters, prompt engineering, RLHF nông — tạo ra "tháp Jenga": trông vững chãi, nhưng chỉ cần một câu hỏi adversarial lạ là đổ sập. Model vẫn ôm khư khư cái "shortcut learning" (học tắt) trong weights: nó vẫn "nghĩ" EBITDA = Net Income ở tầng representation, chỉ là bạn đã dạy nó nói dối đẹp hơn mà thôi.

Dấu hiệu nhận biết cần "rút củi":

Prompt dài 2.000 từ mà lỗi vẫn lặp lại ở case phức tạp
Lỗi có tính "bán hệ thống" — xuất hiện khi dữ liệu trùng pattern cũ (ví dụ: cứ gặp công ty công nghệ là nhầm margin)
Fix bằng cấm đoán chỉ khiến model im lặng hoặc đổ lỗi lung tung, không tự sửa logic

Kế sách: Từ "vá" sang "cắt" — Root-cause Debugging

"Rút củi đáy nồi" là chuyển từ surface debugging (sửa output) sang root debugging (sửa mechanism). Có 4 bước thực chiến:

Khai quật (Excavate) — Tìm "củi" ở đâu

Dùng XAI (Explainable AI) hoặc đơn giản là error analysis có hệ thống để xác định: lỗi phát sinh từ đâu?

Với RAG/Context: In ra context window, kiểm tra chunk nào chứa thông tin sai lệch. Có phải PDF thứ 5 trong vector DB bị OCR lỗi, đưa EBITDA 2023 thành 2024?
Với Fine-tuned model: Dùng neuron activation tracing (công cụ như Ecco, TransformerLens) tìm "spurious correlation" — ví dụ: neuron 247 luôn bật sáng khi thấy từ "startup" và dự đoán margin cao bất chấp dữ liệu.
Với Prompt-only: Liệt kê các few-shot examples — có phải ví dụ thứ 3 bạn paste vào đang truyền tải thói quen tính toán sai?

Prompt mẫu để khai quật:

Hãy phân tích lỗi này. Output sai ở bước nào? 
Trong context tôi cung cấp, thông tin nào đã dẫn bạn đến kết luận sai? 
Liệt kê chính xác đoạn text trong context gây hiểu nhầm.

Output mong đợi:

Lỗi xuất phát từ đoạn: "Q4 revenue up 50%" trong context. 
Tôi đã shortcut sang pattern "mọi công ty tăng trưởng đều có margin cao", 
bỏ qua dữ liệu chi phí tăng gấp đôi ở paragraph sau.

Cắt bỏ (Excise) — Machine Unlearning cho AI

Sau khi biết "củi" là gì, loại bỏ nó hoàn toàn, không chỉ bảo model "bỏ qua".

Data-level: Nếu là RAG, xóa chunk chứa thông tin lỗi khỏi vector DB. Nếu là fine-tuning, dùng SISA (Sharded, Isolated, Sliced, and Aggregated) — một kỹ thuật Machine Unlearning để xóa ảnh hưởng của training sample cụ thể mà không cần train lại toàn bộ model (rẻ hơn 4x).
Prompt-level: Xóa bỏ few-shot example bị lỗi. Đừng thêm lời giải thích tại sao nó sai — chỉ cần xóa.
Representation-level: Với white-box access (LLM self-host), dùng backdoor purification — thay thế weight clusters bị "poisoned" bằng guided module substitution.

Kiểm chứng thực thi (Execution-Grounded)

Đừng hỏi AI "bạn có chắc không?". Hãy chạy thử — execution là nguồn chân lý duy nhất.

Với code: Chạy unit test. Với phân tích tài chính: Chạy lại con số bằng Excel/Pandas. Với luận điểm: Kiểm chứng bằng tài liệu gốc (lateral reading).

Workflow mẫu:

1. AI viết code → 2. Chạy trên test case → 3. Nếu fail, đưa error log 
ngược lại cho AI → 4. AI sửa (không phải đoán) dựa trên stack trace.

Xác nhận dịch chuyển representation (Verify Shift)

Đảm bảo bạn không chỉ mask output, mà đã thay đổi cách AI "suy nghĩ".

Before: Hidden layer activation khi thấy "EBITDA" giống "Net Income" (cosine similarity cao).
After: Sau khi unlearning/sửa data, activation vectors phân ly rõ ràng.

Với prompt-only: Kiểm tra bằng cách hỏi lại câu hỏi tương tự với context rút gọn. Nếu vẫn đúng → đã sửa gốc. Nếu chỉ đúng khi có cảnh báo dài dòng → chỉ là "đè nắp".

That's it. Không cần prompt dài 2.000 từ nữa. Chỉ cần xóa đúng 1 dòng trong data.

Tại sao kế này hiệu quả?

Nguyên lý Thủy lực (Hydraulic Press Principle): Lỗi trong neural network như áp lực thủy lực. Nếu bạn đè ép ở output (bắt model nói khác), áp lực chỉ dịch chuyển — lỗi sẽ "phun" ra chỗ khác (jailbreak, hallucination ẩn, over-refusal). Chỉ khi bạn rút bỏ nguyên nhân (shortcut learning trong weights, poisoned data), áp lực mới thực sự biến mất.

Hiệu ứng Shortcut Learning: Model thường học "đường tắt" (ví dụ: background màu xanh lá = chim, bỏ qua hình dạng mỏ). Sửa bề mặt không phá đường tắt này; Machine Unlearning và representation surgery mới phá được associative chain ở tầng trừu tượng.

Tỷ lệ hiệu quả: SISA unlearning nhanh hơn 4 lần so với retrain từ đầu; backdoor purification khôi phục độ chính xác từ 10% (bị nhiễm) lên 95%+ chỉ bằng cách thay thế module. Và quan trọng hơn: không cần phải nhớ prompt phức tạp — bạn sửa một lần, dùng mãi mãi.

Ứng dụng thực chiến

Nếu bạn là Data Scientist / ML Engineer

Triển khai SISA: Shard training data thành nhiều slice nhỏ. Khi phát hiện data poisoned, chỉ cần retrain slice đó (vài giờ) thay vì toàn bộ model (vài tuần).
Dùng Cleanlab: Tự động khai quật label errors và spurious correlations trong dataset trước khi cho vào training pipeline.

Nếu bạn là Prompt Engineer / AI User

Audit Context: Khi AI trả lời sai, đừng viết lại prompt. Kiểm tra retrieved_context — xóa document bị lỗi khỏi RAG.
Ví dụ cụ thể: AI trả lời sai về luật thuế mới vì đọc nhầm văn bản cũ 2018. Thay vì thêm "lưu ý năm 2024", hãy xóa file 2018 khỏi knowledge base.

Nếu bạn là Product Manager

Yêu cầu Execution-grounded Verification: Feature "AI viết code" phải có bước auto-run test; feature "AI trả lời khách hàng" phải có fact-checker tự động cross-reference với DB chuẩn, không để AI tự kiểm tra bản thân.

Cách thông thường (Sửa ngọn)	Áp dụng Kế 26 (Rút củi)
Prompt: "Hãy kiểm tra lại, đừng nhầm"	Xóa data sample gây nhiễu
Thêm 5 ví dụ đúng vào prompt	Unlearning weights bị poison
Dùng filter chặn output chứa từ cấm	Dùng XAI tìm neuron lỗi, thay thế module
"Băng bó" lỗi bằng RLHF nông	"Phẫu thuật" representation bằng guided substitution

Dùng gián điệp kiểm gián — Kế 13: Dùng AI thứ 2 kiểm tra output AI thứ 1 (phòng khi bạn chưa thể "rút củi" ngay)
Vây hãm tài liệu — Kế 21: Chiến thuật xử lý tài liệu 100+ trang để tránh data bẩn từ đầu vào