Kế 24: Vây hãm tài liệu — Chiến thuật xử lý 100+ trang

Kế 24 Binh pháp AI: Dùng chiến thuật vây hãm 4 pha để AI xử lý tài liệu dài 100+ trang hiệu quả, tránh Lost in the Middle và attention dilution

Vạn quân vây thành: Khi 162 trang PDF không phải là đối thủ

Năm 2024, một luật sư M&A tại Sài Gòn paste toàn bộ hợp đồng thương mại dài 200 trang vào ChatGPT, nhờ AI rà soát điểm rủi ro. AI trả lời rất nhanh: "Hợp đồng cân bằng, rủi ro thấp". Nhưng khi anh ta đọc lại trang 127, phát hiện ra điều khoản thanh toán bị lỗi chéo (cross-default) với điều 4 ở trang 15 — AI đã bỏ sót hoàn toàn vì nó nằm ở "giữa vùng nước mắm" của context window.

Trong binh pháp cổ đại, vây hãm là nghệ thuật không đánh trực diện, mà bao vây từng phần: trinh sát lập bản đồ, cắt đứt tiếp viện, đột phá từng cửa, rồi chiếm đóng triệt để. Áp dụng vào AI, chúng ta không "đổ" 100+ trang vào prompt một lúc (frontal assault), mà áp dụng chiến thuật vây hãm tài liệu 4 pha để AI xử lý được những tài liệu dài như giáo trình IELTS 162 trang, hợp đồng 200 trang, hay báo cáo World Bank 100+ trang mà không bị mù thông tin.

The Problem: Frontal assault vào "Lost in the Middle"

Khi bạn paste toàn bộ 162 trang vào AI, bạn đang tạo ra một trận đánh trực diện thảm họa:

Softmax Saturation: Attention mechanism dùng softmax. Với 100K tokens, mẫu số softmax trở nên khổng lồ, flattening tất cả attention weights về mức đồng đều ~0.001. AI không còn "nhìn rõ" đâu là quan trọng — giống như cố gắng nghe tiếng thì thầm trong sân vận động 100.000 người.
Lost in the Middle: Nghiên cứu Stanford/Anthropic (2023) chứng minh LLMs bỏ qua nội dung ở giữa context window. Định nghĩa "thanh toán" ở trang 5 và điều khoản áp dụng ở trang 95 bị ngắt kết nối.
Attention Dilution: Context càng dài, mỗi token nhận được "sự chú ý" càng ít. Thông tin bị loãng trong biển token.

Kết quả: AI tóm tắt méo mó, bỏ sót số liệu, hoặc hallucinate chi tiết để lấp chỗ trống.

The Key Idea: 4 Pha vây hãm (The Document Siege)

Thay vì đánh một trận, ta chia thành 4 pha chiến lược:

Pha 1 — Trinh sát (Reconnaissance): Lập bản đồ pháo đài

Không đọc nội dung ngay. Dùng AI scan cấu trúc: mục lục (TOC), headers, page numbers, section boundaries.

Prompt mẫu:

Hãy đọc mục lục và các heading chính của tài liệu 162 trang này. 
Tạo một "bản đồ pháo đài" (fortress map) liệt kê:
- Các chương/phần chính
- Phạm vi trang của mỗi chương  
- Chủ đề trung tâm
Không cần đọc chi tiết body text, chỉ cần cấu trúc.

Output mẫu:

Chương 1: Introduction (trang 1-10) - Tổng quan IELTS Writing
Chương 2: Task 2 Essay Types (trang 11-45) - Phân loại bài luận  
Chương 3: Discuss Both Views (trang 46-80) - Cấu trúc thảo luận hai chiều ← Mục tiêu quan trọng
...

Pha 2 — Bao vây (Encirclement): Hệ thống RAG 2 tầng

Xây dựng vector store hai tầng thay vì một tầng lộn xộn:

Tier 1 (Coarse): Lưu tóm tắt mỗi 10-20 trang (section summaries). Dùng để định vị nhanh.
Tier 2 (Granular): Chia nhỏ từng section thành chunks 500-1000 từ, với fuzzy boundaries (chồng lấn 100 từ cuối đoạn trước vào đầu đoạn sau).
- Tại sao chồng lấn? Để giữ coreference chains: định nghĩa "Party A" ở trang 3 được nhắc lại "they" ở trang 103 không bị đứt gãy khi cắt chunk.

Pha 3 — Đột phá (Breaching): Tìm kiếm 2 giai đoạn

Không truy xuất thẳng từ 162 trang.

Giai đoạn 1: Query vào Tier 1 → Tìm ra 3 section liên quan (ví dụ: tìm thấy "Chương 3: Discuss Both Views").
Giai đoạn 2: Dùng cross-encoder re-rank các chunks trong Tier 2 của chỉ những section đã chọn → Tìm ra đoạn văn cụ thể trang 46-48.

Prompt mẫu:

Truy vấn: "Cấu trúc viết Discuss Both Views"

Pha 1: Tìm trong section summaries → Xác định Chương 3 (trang 46-80)
Pha 2: Dùng cross-encoder để chọn đoạn chính xác nhất trong các chunks của Chương 3
Trích xuất nguyên văn từ Tier 2, không dùng lại tóm tắt

Pha 4 — Chiếm đóng (Occupation): Xây căn cứ ký ức (Working Memory)

Deploy "reading agents" — AI đọc từng phần đã đột phá và tóm tắt thành working memory index (giống session-memory/summary.md trong Claude Code).

Mỗi lần đọc xong một section, ghi chú: "Đã xác nhận: Discuss Both Views cần 4 đoạn, không phải 5 đoạn như Opinion Essay".
Các câu hỏi tiếp theo không tra lại 162 trang, mà chỉ tra working memory index này — giống như con người dùng bookmark chứ không đọc lại cả cuốn sách.

Mẹo thực chiến: Dùng Claude Artifacts hoặc file .md riêng để lưu working memory. Mỗi lần hỏi AI mới, inject working memory vào context thay vì raw PDF.

Why It Works: Vật lý của Attention và bản đồ phân tầng

1. Tránh Softmax Saturation Khi bạn map structure trước (Pha 1), bạn tạo Hierarchical Attention Mask. Thay vì attend vào 100K tokens đồng loạt (flattening), AI chỉ attend vào 1 section được chọn (sparse pattern), tránh hiện tượng "whisper in stadium".

2. Giữ liên kết xuyên trang (Coreference Preservation) Tài liệu pháp lý và học thuật thường định nghĩa thuật ngữ ở đầu, dùng ở cuối. Fuzzy boundaries (chồng 100 từ) đảm bảo anaphora resolution (biết "they" = "Party A") không bị cắt đứt khi split chunks.

3. Index vs Buffer Con người không load 162 trang vào working memory (RAM não chỉ chứa ~4 items). Chúng ta dùng index (mục lục + ghi chú). Pha 4 tạo cho AI một "index nhân tạo", biến việc tra cứu từ O(n) thành O(log n).

4. Convergence qua Iteration Pha 3 (breaching) dùng two-stage retrieval như beam search: prune 90% fortress (sections không liên quan) trước khi tìm paragraph chính xác, giảm noise đầu vào cho LLM.

What It Means: Ứng dụng thực chiến

Rà soát hợp đồng M&A (Legal AI)

Tình huống: Hợp đồng 200 trang, điều khoản bảo mật (Điều 4) liên hệ với điều khoản chấm dứt (Điều 45) qua cơ chế "material breach".

Áp dụng Kế 24:

Trinh sát: Map các điều khoản theo chủ đề (Bảo mật, Thanh toán, Chấm dứt).
Bao vây: Tier 1 = tóm tắt từng điều khoản; Tier 2 = nguyên văn đoạn liên quan.
Đột phá: Query "material breach + confidentiality" → tìm đúng điều 4 và 45, không bị lạc vào giữa 200 trang.
Chiếm đóng: Lập index rủi ro: "Điều 4 + Điều 45: cross-default risk đã xác nhận".

Phân tích Báo cáo Ngân hàng Thế giới

Tình huống: PDF 120 trang về kinh tế vĩ mô Việt Nam, cần trích xuất số liệu GDP theo quý.

Kết quả: Thay vì AI hallucinate số liệu 2023 (do cutoff knowledge), dùng Siege để truy xuất chính xác bảng số liệu trang 89, không bị lẫn với bảng dự báo trang 45.

Giáo trình IELTS 162 trang

Tình huống: Học sinh cần luyện "Discuss Both Views" nhưng không biết cấu trúc nằm ở đâu.

Áp dụng: Bao vây Tier 1 giúp xác định ngay Chương 3 (trang 46-80), không cần scan toàn bộ 162 trang. Chiếm đóng giúp lưu lại template vào working memory cho các bài luyện sau.

Cách thông thường	Vây hãm tài liệu (Kế 24)
Paste toàn bộ 100+ trang vào prompt	Chia 4 pha: Map → Encircle → Breach → Occupy
Softmax flattening, mất dữ liệu giữa	Hierarchical attention, giữ liên kết xuyên trang
Tra cứu lại tốn token full 100+ trang	Working memory index, tra cứu `O(log n)`
Hallucinate khi thiếu context	Truy xuất chính xác bằng cross-encoder re-rank

Kế 24: Vây hãm tài liệu — Chiến thuật xử lý 100+ trang

Vạn quân vây thành: Khi 162 trang PDF không phải là đối thủ

The Problem: Frontal assault vào "Lost in the Middle"

The Key Idea: 4 Pha vây hãm (The Document Siege)

Pha 1 — Trinh sát (Reconnaissance): Lập bản đồ pháo đài

Pha 2 — Bao vây (Encirclement): Hệ thống RAG 2 tầng

Pha 3 — Đột phá (Breaching): Tìm kiếm 2 giai đoạn

Pha 4 — Chiếm đóng (Occupation): Xây căn cứ ký ức (Working Memory)

Why It Works: Vật lý của Attention và bản đồ phân tầng

What It Means: Ứng dụng thực chiến

Rà soát hợp đồng M&A (Legal AI)

Phân tích Báo cáo Ngân hàng Thế giới

Giáo trình IELTS 162 trang

Go Deeper: Mở rộng chiến trường

Cùng cụm: Kế tận dụng địa lợi (Context & Memory)

Kế 21: Đường tiếp vận RAG

Kế 22: Bày trận địa lợi

Kế 23: Căn cứ ký ức

Đọc tiếp: Level 2 — Chỉ huy tối thượng

Kế 25: Tùy cơ ứng biến

On this page