Kế 7: Tránh mai phục giữa đường — Lost-in-the-Middle

Kế 7 Binh pháp AI: Tránh hiện tượng 'Lost-in-the-Middle' khi AI bỏ sót thông tin giữa tài liệu dài. Học cách chia nhỏ context để AI không bị 'mai phục' giữa...

Mở đầu: Mai phục giữa đường

Thời Tam Quốc, Trương Phi nổi tiếng hung hãn, một mình đuổi theo quân địch hàng trăm dặm. Địch giả vờ thua chạy, để lộ sơ hở ở hai bên đầu và cuối đoàn quân. Trương Phi chỉ chăm chăm nhìn đầu đuôi địch, không để ý giữa đường có một con suối nhỏ hai bên mai phục đao phủ thủ. Kết quả: bị mai phục giữa đường, suýt mất mạng.

Trong thế giới AI, "mai phục giữa đường" có tên khoa học là Lost-in-the-Middle (nghiên cứu Stanford & Anthropic, 2023). Đây là hiện tượng khi bạn nhét một tài liệu dài 50-100 trang vào ChatGPT, Claude hay bất kỳ LLM nào. AI nhìn rõ phần mở đầu (trang 1-2) và phần kết luận (trang 99-100), nhưng "mù tịt" với thông tin ở chính giữa — nơi thường chứa dữ liệu quan trọng nhất.

Bối cảnh binh pháp: Tôn Tử dạy "Địch tiến, ta lui; địch đói, ta ăn". Nhưng ông cũng cảnh báo: "Giữa đường hành quân, nơi đầu đuôi đều thấy rõ, chính là nơi dễ bị mai phục nhất." AI cũng vậy — đầu và cuối context window là "vùng an toàn", giữa là "vùng tử địa".

Vấn đề: Khi AI "mù" ở giữa

Bạn đã từng làm thế này chưa? Paste cả báo cáo tài chính 60 trang vào ChatGPT, hỏi: "Phân tích cho tôi số liệu quý 2 năm 2023 ở trang 25-30."

AI trả lời đầy tự tin. Nhưng khi bạn kiểm tra lại, nó lấy số liệu quý 1 (trang 5) và quý 3 (trang 55), rồi "bịa" ra một con số ở giữa. Hoặc tệ hơn, nó nói: "Trong tài liệu không có số liệu quý 2" — trong khi dữ liệu đang nằm ngay trang 28.

Vì sao vậy?

LLM (Large Language Model) xử lý thông tin bằng cơ chế Attention (chú ý). Khi bạn đưa vào 100.000 token (tương đương ~300 trang Word), AI phải chia "sự chú ý" cho tất cả các token. Cơ chế Softmax — một hàm toán học chia điểm chú ý — khiến thông tin ở giữa bị "loãng" như ánh sáng đèn pin chiếu xa: đầu và cuối còn chút sáng, giữa thì tối đen.

Nghiên cứu chỉ ra: Độ chính xác khi trích xuất thông tin ở giữa context window có thể giảm xuống dưới 50%, trong khi đầu và cuối vẫn giữ được 90%+.

Cảnh báo: Đây không phải lỗi của bạn, cũng không phải AI "đãng trí". Đây là vấn đề cấu trúc của transformer architecture. Nhưng nếu không biết, bạn sẽ ra quyết định sai dựa trên dữ liệu bị bỏ sót.

Kế sách: Tránh đường mai phục

Kế "Tránh mai phục giữa đường" không yêu cầu bạn học code hay mua tool đắt tiền. Chỉ cần thay đổi cách đưa thông tin vào AI — từ "đổ cả thùng" sang "chia từng ngụm".

Chia nhỏ — "Chia để trị" nâng cao

Thay vì paste 100 trang một lúc, hãy chia tài liệu thành các "chương" 10-20 trang. Hỏi AI từng phần:

Thay vì:
"Tóm tắt báo cáo này: [paste 100 trang]"

Hãy làm:
"Đây là Phần 1 (trang 1-10): [paste]. Tóm tắt điểm chính."
→ Chờ kết quả
"Đây là Phần 2 (trang 11-20): [paste]. Tóm tắt và so sánh với Phần 1."

Mẹo thực chiến: Dùng tính năng Projects của Claude.ai hoặc Custom GPTs của ChatGPT để lưu từng phần riêng biệt. Mỗi lần hỏi chỉ gọi phần liên quan ra, không "quá tải" AI.

Đưa quan trọng lên đầu hoặc cuối — "Bỏ đầu bỏ đuôi" ngược

Kế 2 (Bỏ đầu bỏ đuôi) dạy bạn loại bỏ phần không quan trọng. Ở đây, bạn làm ngược lại: Đẩy thông tin quan trọng lên đầu hoặc cuối prompt, tránh để "giữa đường".

❌ Sai lầm:
"Tóm tắt báo cáo sau. Lưu ý: số liệu quý 2 năm 2023 ở trang 25 rất quan trọng cho quyết định đầu tư. [paste 60 trang ở đây]"

✅ Đúng kế:
"Số liệu quý 2 năm 2023 (quan trọng): [copy-paste đoạn trang 25-26]
---
Phần còn lại của báo cáo để tham khảo: [paste phần còn lại]
Hãy phân tích số liệu quý 2 dựa trên context trên."

AI sẽ chú ý mạnh vào phần đưa lên đầu, và phần cuối (kết luận) cũng được ghi nhớ tốt.

Dùng "trinh sát" tìm đường — RAG đơn giản

Nếu bạn không muốn đọc cả 100 trang để tìm đoạn quan trọng, hãy dùng công cụ tìm kiếm (Ctrl+F) hoặc AI để "trinh sát" trước:

Paste tài liệu vào Claude/ChatGPT
Hỏi: "Tìm cho tôi tất cả đoạn đề cập đến 'số liệu quý 2' và trích dẫn nguyên văn."
Copy kết quả (thường ở đầu output) rồi hỏi tiếp câu phân tích chi tiết

Prompt mẫu copy-paste được:

"Trích xuất mọi đoạn văn liên quan đến [chủ đề X] từ tài liệu dưới đây. Đặt các trích dẫn này lên đầu câu trả lời. Sau đó, phân tích chi tiết ý nghĩa của từng trích dẫn."

Tại sao kế này hiệu quả?

Cơ chế Softmax và "Attention Budget"

Hãy tưởng tượng AI có một "ngân sách chú ý" (attention budget) cố định, giống như bạn có 100 đồng để chia cho 100 người. Nếu có 100 người, mỗi người chỉ được 1 đồng — quá ít để làm gì.

Transformer architecture dùng hàm Softmax để chia "điểm chú ý". Khi context window quá dài (100K+ tokens), các token ở giữa bị "dìm" xuống mức rất thấp — AI gần như không "thấy" chúng nữa.

Số liệu thực tế:

Với context 128K tokens, AI chỉ trích xuất chính xác ~60% thông tin ở giữa (theo nghiên cứu Needle-in-Haystack).
Khi chia thành 3 phần 40K tokens, độ chính xác tăng lên 85-90%.
Chia nhỏ hơn nữa (10K-20K token mỗi lần), độ chính xác đạt 95%+.

That's it. Không cần code, không cần mua tool. Chỉ cần biết "đường nào có mai phục" để tránh đi.

Thực chiến: Ứng dụng hàng ngày

Nếu bạn là sinh viên/nghiên cứu sinh

Tình huống: Phải đọc paper 30 trang để tìm phương pháp thí nghiệm ở phần giữa.

Cách thường: Paste cả paper, hỏi "phương pháp thí nghiệm là gì" → AI bịa ra từ phần Introduction.

Áp dụng kế: Tìm section "Methodology" hoặc "Experiments", copy-paste riêng đoạn đó lên đầu prompt, rồi hỏi: "Giải thích phương pháp này. Context đầy đủ ở dưới để tham khảo."

Nếu bạn là nhân viên văn phòng

Tình huống: Rà soát hợp đồng 40 trang, tìm điều khoản bảo mật ở trang 15-16.

Cách thường: Upload PDF, hỏi "điều khoản bảo mật nói gì" → AI đọc nhầm điều khoản chung ở trang 2.

Áp dụng kế: Dùng chức năng @ mentioning (Claude Projects) hoặc trích xuất trang 15-16, đặt ở đầu prompt: "Phân tích điều khoản bảo mật sau: [paste]. Đây là trích đoạn từ hợp đồng lớn hơn."

Nếu bạn là developer dùng AI code

Tình huống: Debug file code 1000 dòng, lỗi ở giữa file (dòng 400-450).

Cách thường: Paste cả file, hỏi "tìm bug" → AI chỉ nhìn đầu file (import statements) và cuối file (export), bỏ qua logic lõi.

Áp dụng kế: Chia thành các function/module. Hoặc dùng công cụ như Claude Code với session memory để AI tự chia nhỏ file thành các chunk xử lý riêng.

Cách thông thường	Áp dụng Kế 7: Tránh mai phục
Paste toàn bộ 100 trang PDF	Chia thành 5 phần 20 trang, hỏi tuần tự
Hỏi chung chung về tài liệu	Trích xuất phần quan trọng lên đầu prompt
Dựa vào AI tự tìm thông tin	Dùng Ctrl+F tìm trước, rồi đưa đoạn đó vào