TROISINH
Dụng binh cơ bảnKế chuẩn bị chiến trường

Kế 9: Trinh sát trước trận — Đọc hiểu tài liệu trước khi đưa AI

Kế 9 Binh pháp AI: Đừng dump 100 trang PDF vào ChatGPT. Học cách trinh sát tài liệu trước khi dùng AI để xử lý thông tin chính xác, tiết kiệm chi phí.

Câu chuyện mở đầu: Vụ đại bại ở Ngưu Châu

Năm 208, Tào Tháo mang 80 vạn đại quân Nam chinh, định thôn tính Giang Đông. Bên kia sông Trường Giang, Tôn Quyền và Chu Du chỉ có 5 vạn quân. Số lượng chênh lệch 1:16. Vậy mà Chu Du thắng.

Bí quyết không nằm ở trận đánh, mà nằm ở thái giám Giải Hiểu — người đã trinh sát địa hình trước khi quân chủ lực đến. Ông vẽ bản đồ sông nước, đo độ sâu, ghi nhận hướng gió. Nhờ đó Chu Du mới biết: gió Đông Bắc sẽ đổi thành Đông Nam vào đêm đông. Từ đó mới có kế "dùng gió Đông" đốt cháy liên doanh thuyền của Tào Tháo.

Nếu không trinh sát, dù có 100 vạn quân cũng đánh bại.
Nếu không đọc hiểu tài liệu, dù có AI tốt nhất cũng trả lời sai.

Vấn đề: "Tôi paste cả PDF 100 trang vào ChatGPT..."

Cảnh tượng quen thuộc ở các văn phòng:

"Tôi có hợp đồng thuê nhà 60 trang. Paste vào ChatGPT bảo tóm tắt. AI trả về 5 điểm chính... nhưng bỏ sót mục 'phạt 3 tháng tiền thuê nếu chấm dứt sớm' — điều khoản quan trọng nhất."

Tại sao AI lại "mù"?

  1. Hiệu ứng "Lost in the Middle": LLMs chú ý mạnh vào đầu và cuối văn bản, nhưng "mờ mắt" ở giữa. Khi bạn dump 100 trang liền, AI như người đọc 10 cuốn sách liên tục không ngủ — não bão hoà.
  2. Token đắt đỏ: GPT-4o giá $5/1M input tokens. 100 trang PDF = ~50k tokens = $0.25 mỗi lần hỏi. Hỏi 20 lần là mất $5 — chỉ để AI đọc lại tài liệu từ đầu.
  3. Noise làm loãng thông tin: Bìa, mục lục, footer, boilerplate text chiếm 30% token nhưng mang 0% giá trị.

Bạn đang bắt AI đánh trận trong thành phố mà không có bản đồ — thất bại là đương nhiên.

Kế sách: Trinh sát 3 bước (Reconnaissance Workflow)

"Trinh sát trước trận" nghĩa là: Bạn (con người) làm thám tử 5-10 phút, sau đó mới điều AI vào chiến trường.

Bước 1: Lập bản đồ (Mapping)

Thời gian: 3 phút
Công cụ: Mắt đọc + Ctrl+F (hoặc PDF reader)

Mở tài liệu, không đọc từng chữ. Chỉ scan:

  • Mục lục (TOC): Copy-paste vào notepad
  • Tiêu đề chương: Đánh dấu mục nào có vẻ chứa câu trả lời bạn cần
  • Metadata: Ngày tháng, tác giả, số trang quan trọng

Ví dụ:
Bạn cần tìm "điều khoản bảo mật" trong hợp đồng 50 trang. Scan TOC thấy:

  • Chương 1: Định nghĩa (không cần)
  • Chương 4: Bảo mật & Tuân thủ (mục tiêu)
  • Chương 9: Phụ lục (có thể bỏ)

Bước 2: Xác định mục tiêu (Targeting)

Hỏi AI trước khi cho nó đọc nội dung:

Tôi có một hợp đồng dịch vụ 50 trang. Đây là mục lục:

[Chương 1: Định nghĩa]
[Chương 2: Phạm vi công việc]
[Chương 4: Bảo mật & Tuân thủ]
[Chương 5: Thanh toán]
...

Tôi cần tìm: "Điều khoản phạt khi chấm dứt hợp đồng trước hạn".

Theo mục lục này, những chương/mục nào có khả năng chứa thông tin tôi cần? 
Liệt kê và giải thích tại sao.

AI sẽ trả lời: "Có thể ở Chương 4 (nếu phạt liên quan bảo mật) hoặc Chương 5 (nếu phạt tài chính)..."

Lợi ích: Bạn không tốn token để AI đọc cả Chương 1, 2, 3.

Bước 3: Triển khai có chọn lọc (Selective Deployment)

Sau khi AI chỉ ra vị trí, bạn làm một trong hai cách:

Cách A: Cắt-xén (dùng cho PDF scan/ảnh)

  • Chụp ảnh / OCR chỉ các trang Chương 4 và 5
  • Paste vào AI: "Đây là Chương 4 và 5. Tìm giúp tôi điều khoản phạt chấm dứt sớm."

Cách B: Prompt dẫn đường (dùng cho text)

Dưới đây là toàn bộ hợp đồng. Tôi biết thông tin tôi cần nằm ở:
- Mục 4.3 "Chấm dứt hợp đồng"
- Mục 5.2 "Nghĩa vụ tài chính sau chấm dứt"

Hãy tập trung đọc kỹ hai mục trên. Bỏ qua các phần khác.
[T paste toàn văn]

That's it. Bạn vừa tiết kiệm 60% token, vừa tăng độ chính xác từ 60% lên 90%.

Tại sao kế này hiệu quả?

1. Vật lý của Attention
Transformer (bộ não của LLM) dùng cơ chế Softmax Attention. Khi input dài hơn 10k tokens, giá trị attention bị "loãng" — giống như ánh sáng phân tán khi chiếu qua kính rộng. Bằng cách cắt giảm 80% noise (mục lục, footer, chương không liên quan), bạn tập trung ánh sáng vào điểm cần chiếu.

2. Định hướng biểu đồ tri thức
LLM không có "bản đồ" văn bản như con người. Khi bạn chỉ ra "câu trả lời ở mục 4.3", bạn đang ép buộc attention heads của model tập trung vào vùng đó — giống như chỉ cho khách du lịch đích đến trước khi họ lạc trong mê cung.

3. Chi phí tuyến tính
API tính tiền theo token. Trinh sát trước = bỏ đi 70% trang vô dụng = giảm 70% chi phí. Với Claude Opus ($15/1M tokens), mỗi lần "đọc dại" 100 trang tốn $0.75. Làm 10 lần là $7.5. Áp dụng kế này, bạn chỉ tốn $2.25.

Ứng dụng thực chiến

Nếu bạn là Nhân viên văn phòng

Tình huống: Rà soát hợp đồng thuê văn phòng 40 trang.
Cách làm thông thường: Paste cả file, hỏi "Có gì đáng lưu ý không?" → AI trả lời chung chung.
Áp dụng Kế 9:

  1. Scan TOC, thấy mục "Điều 8: Pháp lý & Giải quyết tranh chấp"
  2. Hỏi AI: "Trong Điều 8 có đoạn nào bất lợi cho bên thuê không?"
  3. Copy-paste chỉ Điều 8 vào.

Kết quả: Phát hiện khoản "Bên thuê chịu mọi chi phí sửa chữa cấu trúc" — điều thường bị chìm ở giữa trang 35.

Nếu bạn là Nhà phân tích tài chính

Tình huống: Đọc báo cáo thường niên 120 trang của VinGroup. Cần số liệu EBITDA quý 3.
Trinh sát:

  • Mục lục → Chương "Kết quả kinh doanh" → Trang 45-60.
  • Dùng AI chỉ đọc trang 45-60, tìm bảng "Chỉ tiêu tài chính".

Lợi ích: Không bị nhồi nhét thông tin về "Tầm nhìn CSR" ở trang 90-110 làm loãng trí nhớ AI.

Nếu bạn là Sinh viên nghiên cứu

Tình huống: Đọc paper IEEE 20 trang, cần biết phương pháp (methodology).
Trinh sát:
Paper bố cục chuẩn: Abstract → Intro → Methodology → Results → Conclusion.
Chỉ cần đọa̍n "Methodology" (thường trang 3-5). Dùng AI summarize đoạn đó thay vì cả bài.

Cách thông thườngÁp dụng Kế 9 Trinh sát
Paste toàn bộ PDFScan TOC → Chọn chương target
AI tóm tắt loãng, thiếu trọng tâmAI phân tích sâu, đúng trọng tâm
Tốn $0.75 mỗi queryTốn $0.25, chính xác hơn
Rủi ro bỏ sót điều khoản quan trọngGiảm 80% rủi ro "Lost in the Middle"

Đọc thêm

Cùng cụm Chuẩn bị chiến trường (Level 0):

Kế liên quan:

Đọc tiếp trong Level 1: Sau khi đã biết cách trinh sát tài liệu, học cách Kế 13: Mượn xác hoàn hồn để giao AI đóng vai chuyên gia phân tích tài liệu đã được "trinh sát" này.


Ghi chú: "Vào rừng thì phải có thần rừng dẫn đường. Vào tài liệu thì phải có mục lục dẫn lối." — Áp dụng Kế 9, bạn không còn là người dùng AI "mù quáng" nữa, mà là chỉ huy có bản đồ rõ ràng.

On this page