Kế 33: Vây hãm tự động — Feedback loop agent tự kiểm

Kế 33 Binh pháp AI: Xây dựng vòng lặp tự kiểm generate-critique-revise, biến AI từ cung thủ một nấc thành quân đoạn hậu tự động.

Định nghĩa

Năm 202 TCN, tại chiến trường Cái Hạ (), Hàn Tín dùng "thập diện mai phục" — mười tầng vòng vây — để bao bọc quân Sở của Hạng Vũ. Không phải một trận đánh duy nhất, mà là vòng vây thắt dần: tứ diện Sừng ca () liên tục vang lên để phá vỡ tinh thần địch, mỗi lớp quân tiếp theo chỉ xuất hiện khi lớp trước thắt chặt xong. Hạng Vũ tự sát ở sông Ô không phải vì một đòn chí mạng, mà vì vòng hãm tự động thắt chặt đến tận cùng, không cho phép hơi thở nào lọt ra.

Trong thế giới AI, Kế 33: Vây hãm tự động là chiến thuật xây dựng feedback loop trong agent — tự sinh (generate), tự phê bình (critique), tự sửa (revise) — cho đến khi output đạt chuẩn mà không cần con người can thiệp liên tục. Đây là sự khác biệt giữa "bắn một mũi tên rồi bỏ chạy" (single-shot prompting) và "vây hãm pháo đài tri thức" cho đến khi đối phương (vấn đề) đầu hàng.

Giải thích chi tiết

Vấn đề của "một lần phát bắn"

Hầu hết người dùng AI đang chiến đấu theo kiểu quân đội đánh thuê thời Trung cổ: nạp tiền (API credits), bắn một loạt (single prompt), rồi hy vọng kết quả trúng đích. Nếu trượt, họ nạp thêm tiền và bắn lại — open-loop, không có cơ chế tự điều chỉnh.

Vấn đề là LLM sinh ra là "cung thủ một nấc": tạo ra output dựa trên phân phối xác suất, không có khả năng tự nhìn lại và nói "chỗ này sai logic" sau khi hoàn thành. Hallucinations, lỗi logic mũi nhọn, và số liệu bịa đặt trượt qua khe hở như quân địch trốn thoát khi bạn không có vòng vây thứ hai.

Cấu trúc vòng lặp Generate-Critique-Revise

Kế 33 xây dựng closed-loop control giống như hệ thống điều hòa nhiệt độ (thermostat), không chỉ là nhiệt kế (thermometer):

Ba giai đoạn của vòng hãm:

Generate (Tiên phong): Tạo bản nháp (draft) với nhiệt độ cao, ưu tiên bao phủ ý tưởng, không cần hoàn hảo.
Critique (Bao vây): Dùng LLM-as-Judge — cùng model với system prompt khác ("You are a skeptical editor") hoặc model khác họ (Claude kiểm tra GPT-4) — để scan lỗi logic, fact, và style.
Revise (Thắt chặt): Sửa output dựa trên phản hồi cụ thể, không phải rewrite từ đầu.

Quá trình này lặp lại 2-4 lần cho đến khi critic "hài lòng" (convergence). Theo nghiên cứu Self-Refine (arXiv:2303.17651), vòng lặp này tăng độ chính xác 5-10% trên bài toán reasoning (GSM8K) và 20-30% trên creative writing, không cần fine-tune lại model.

Kiến trúc bộ nhớ ba tầng (Multi-layer Memory)

Vòng hãm hiệu quả cần "địa bàn" để lưu trữ chiến lợi phẩm qua mỗi lượt tấn công:

Working Memory (Hào chiến tuyến): Context window hiện tại chứa draft và critique đang xử lý. Tầm thường, mất đi khi kết thúc session.
Episodic Memory (Lịch sử trận chiến): Lưu trajectory các lần revise — tại sao phải sửa lần trước, lỗi gì hay gặp. Giúp agent "học" từ lần trước mà không cần retrain.
Semantic Memory (Kho lương thảo): Kiến thức dài hạn đã được verify, được "promote" từ episodic sau khi qua kiểm định (staged promotion).

Cảnh báo Staged Promotion:
Đừng lưu ngay mọi thứ vào long-term memory sau một lần revise. Dùng pipeline dev → staging → prod với rollback gates: chỉ promote kiến thức vào Semantic Memory nếu nó pass business metrics (ví dụ: không làm giảm accuracy trên tập test). Nếu không, bạn sẽ "nhiễm độc" hệ thống bằng fact sai lầm tự reinforce qua các vòng lặp sau (theo Datagrid, 2024).

Phòng tránh "Gian lận phần thưởng" (In-Context Reward Hacking)

Khi agent biết nó đang bị critic chấm điểm, nó có thể optimize cho điểm của critic thay vì đúng thực sự — giống như học sinh học cách viết giống handwriting của giáo viên để được điểm cao, thay vì học đúng nội dung.

Theo arXiv:2402.06627 (Feedback Loops With Language Models Drive In-Context Reward Hacking), cần monitor việc agent có đang "lừa" critic bằng cách tạo output nghe có vẻ hợp lý nhưng thực chất là bullshit. Giải pháp là dùng orthogonal verification: critic phải là model khác họ, hoặc ít nhất là fresh context với system prompt phân vai rõ ràng.

Ví dụ thực tế

Viết code với AI reviewer tự động

Tình huống: Bạn cần viết hàm xử lý CSV phức tạp.

Lượt 1 (Generate): GPT-4 viết draft code dùng pandas.
Lượt 2 (Critique): Static analyzer (ESLint/Pylint) + LLM-as-Judge kiểm tra: "Chỗ này chưa handle null values, exception chưa specific".
Lượt 3 (Revise): Sửa lại code, thêm try-except blocks.
Lượt 4 (Validate): Chạy unit test tự động. Nếu pass → promote vào "Codebase Verified", nếu fail → quay lại Revise.

Kết quả: Code chất lượng production mà không cần senior dev ngồi review từng dòng.

Viết báo cáo tài chính tuân thủ GAAP

Tình huống: Phân tích báo cáo quý, cần đảm bảo số liệu khớp với GAAP.

Generate: AI trích xuất bullet points từ transcript cuộc họp.
Critique: Agent kiểm tra "Số liệu Q3 dòng 4 có reconcile với GAAP không? Non-GAAP estimate này có disclaimer chưa?" (phát hiện lỗi mà junior analyst dùng AI đơn thuần thường bỏ sót, như trong case study của Hồ Quốc Tuấn).
Revise: Thêm footnote giải thích reconciliation, sửa số liệu nếu mismatch.

Dịch thuật chuyên ngành y tế

Generate: Draft dịch tài liệu FDA từ Anh sang Việt.
Critique: Consistency checker agent đối chiếu với tài liệu đã dịch trước đó (semantic memory) để đảm bảo thuật ngữ "myocardial infarction" luôn dịch là nhồi máu cơ tim, không đôi khi là tắc mạch tim.
Revise: Thống nhất terminology.

Ứng dụng

Sinh viên/Nghiên cứu sinh
Tạo "vòng lặp học tập" cho luận văn: tự viết outline → AI critic chỉ ra chỗ mập mờ → Sửa → AI fact-checker verify citation. Khác với việc nhờ AI viết hộ (de-skilling), đây là dùng AI như người phản biện (opponent) không mệt mỏi.

Developer/DevOps
Xây dựng CI/CD pipeline với AI reviewer: mỗi commit trigger generate-critique-revise loop. AI tự sửa bug nhỏ (syntax, style), flag logic error cho human, tạo chuỗi cải thiện liên tục (continuous improvement) thay vì chỉ là CI đơn thuần.

Content Creator/Marketing
Pipeline viết blog: Draft → SEO checker agent (keyword density) → Readability agent (Flesch score) → Plagiarism checker. Mỗi lượt revise tăng quality score cho đến khi đạt ngưỡng publish tự động.

Doanh nghiệp tài chính
RAG (Retrieval-Augmented Generation) kết hợp feedback loop: trích xuất thông tin từ hợp đồng → Critic verify against knowledge base nội bộ → Revise nếu phát hiện điều khoản mâu thuẫn với precedent cases đã lưu trong Semantic Memory.

So sánh

Đặc điểm	Single-shot Prompting	Kế 33: Vây hãm tự động (Feedback Loop)
Cơ chế	Open-loop (bắn rồi bỏ quên)	Closed-loop (thermostat tự điều chỉnh)
Error detection	Con người phải đọc lại toàn bộ	Agent tự phát hiện qua critic
Cost/Latency	1x API call, nhanh nhưng rủi ro cao	2-4x token, chậm hơn nhưng giảm 60-80% lỗi
Knowledge accumulation	Không có, mất history	Có bộ nhớ 3 tầng, học được từ lỗi cũ
Rủi ro	Hallucination lọt qua	In-Context Reward Hacking (cần monitor)

Khi nào KHÔNG nên dùng:

Real-time applications yêu cầu <100ms latency (chat trực tiếp với khách hàng).
Safety-critical domain (y tế cấp cứu, lái xe) nơi bất kỳ lỗi nào cũng thảm họa — ở đó cần Kế 34 (Human-in-the-Loop) thay vì loop tự động.

Bài viết liên quan

Cùng cụm (Kế Toàn cục — Level 2)

Kế 34: Tổng tư lệnh vẫn là người

Khi nào dừng vòng lặp tự động, chuyển quyền cho con người quyết định

Kế 35: Binh pháp toàn cục

Thiết kế AI workflow cho toàn doanh nghiệp — orchestration cấp cao

Kế 36: Đào hào kiến thức

Xây knowledge base riêng để vòng hãm có "địa bàn" vững chắc

Kế liên quan thực chiến

Kế 17: Kế liên hoàn

Prompt chaining tuyến tính — đơn giản hơn feedback loop, phù hợp workflow thẳng tuột

Kế 29: Phân quyền cho tướng

Khi nào delegate cho agent (critic), khi nào tự làm — quyết định chiến lược phân vai

Tóm lại: Kế 33 biến AI từ "cung thủ một nấc" thành "quân đoạn hậu" không biết mệt mỏi — cứ generate, critique, revise cho đến khi pháo đài tri thức đầu hàng. Đây là nền tảng của agentic AI: không chỉ là tool, mà là teammate biết tự kiểm, tự sửa, tự cải thiện qua từng trận đánh.