TROISINH
Dụng binh cơ bảnKế chuẩn bị chiến trường

Kế 10: Rác vào rác ra — Dọn dẹp input, output sạch hơn

Kế 10 Binh pháp AI: Vì sao AI trả lời lung tung? Cách làm sạch dữ liệu đầu vào để nhận kết quả chính xác, sạch sẽ.

Mưu thám báo trong sạch

Thời Xuân Thu, Tôn Vũ dạy Tôn Tử một chân lý quân sự đáng sợ: "Một tin tức sai lệch còn đáng sợ hơn một vạn quân địch".

Có lần nước Ngô điều tra địa hình đất Yển, hai gian điệp mang về hai bản đồ. Bản thứ nhất vẽ đầy rẫy các con suối nhỏ, bụi cây rậm rạp, chú thích lộn xộn về hướng gió và chim chóc — dữ liệu thô chưa qua chọn lọc. Bản thứ hai chỉ đánh dấu 3 điểm trọng yếu: chỗ nào cao, chỗ nào thấp, chỗ nào quân địch có thể phục kích — thông tin đã được dọn rác. Tôn Tử chỉ cần nhìn bản đồ thứ hai 10 giây đã đoán được cách bố trí trận địa. Còn bản đầu tiên, ông đọc cả tiếng vẫn không biết đâu là quan trọng.

Trong thế giới AI, đây chính là kế "Rác vào, rác ra" (Garbage In, Garbage Out). Bạn có thể dùng GPT-4, Claude 3.5 hay DeepSeek-V3 — nếu bạn nhét vào prompt một đống hỗn độn gồm số trang PDF, dòng kẻ bảng bị lỗi, header/footer lặp lại, AI sẽ trả về một câu trả lời cũng hỗn độn như vậy, hoặc tệ hơn: nó sẽ tập trung tóm tắt... số trang thay vì nội dung.

Vấn nạn khi "paste thô" vào AI

Hãy tưởng tượng bạn cần AI phân tích một báo cáo tài chính dài 30 trang. Bạn copy-paste trực tiếp từ PDF vào ChatGPT. Kết quả nhận được:

--- Trang 1 ---
Báo cáo tài chính quý 2
Công ty ABC
Trang 1/30

Doanh thu: 50 tỷ

--- Trang 2 ---
Chi phí: 30 tỷ
Trang 2/30

...

AI nhìn thấy 30 lần chữ "Trang X/30", nó bắt đầu "ảo giác" rằng nội dung chính là các con số trang, hoặc nó bị phân tâm bởi đường kẻ bảng bị vỡ (|----|) thay vì tập trung vào dòng "Doanh thu". Kết quả? AI tóm tắt: "Báo cáo có 30 trang, bắt đầu bằng doanh thu và kết thúc bằng chi phí". Hoàn toàn vô dụng.

Vấn đề không phải AI "ngu". Vấn đề là bạn đổ nước bẩn vào cốc, rồi than vãn sao nước không trong.

Kế sách: Ba bước tinh lọc

Kế thứ 10 rất đơn giản: Đừng đưa rác vào miệng tướng. Trước khi paste bất kỳ tài liệu nào vào prompt, bạn thực hiện 3 bước dọn dẹp chiến trường.

Bước 1: Lọc bỏ metadata sinh nhiễu

Xóa sạch:

  • Số trang, header/footer lặp lại (Trang 5, © 2024 Công ty X)
  • Dòng kẻ bảng rời rạc (+-------+), thay bằng markdown chuẩn |
  • Khoảng trắng thừa, dòng trống liên tiếp
  • Chữ ký, logo, watermark scan từ PDF

Bước 2: Chuẩn hóa cấu trúc

Chuyển dữ liệu lộn xộn thành định dạng AI "thích" nhất:

  • Bảng số liệu → Markdown table
  • Danh sách gạch đầu dòng → Bullet list rõ ràng
  • Đoạn văn bị ngắt quãng do PDF → Nối thành đoạn liền mạch

Bước 3: Kiểm tra "tải trọng"

Dùng công cụ đếm token (ví dụ OpenAI Tokenizer) để đảm bảo dữ liệu sạch không vượt quá context window. Nếu vượt, hãy cắt thành từng phần sạch (xem lại Kế 1: Chia để trị).

Prompt mẫu cho bước làm sạch:

Hãy làm sạch đoạn dữ liệu sau bằng cách:
1. Xóa tất cả số trang và header "Báo cáo tài chính"
2. Chuyển bảng kẻ bằng dấu +----+ thành bảng markdown
3. Xóa dòng trống thừa
4. Trả về kết quả sạch, tôi sẽ dùng nó cho prompt tiếp theo

Dữ liệu gốc:
[PASTE RAW PDF TEXT HERE]

Output mẫu sau khi làm sạch:

| Quý | Doanh thu | Chi phí | Lợi nhuận |
|-----|-----------|---------|-----------|
| Q1  | 50 tỷ     | 30 tỷ   | 20 tỷ     |
| Q2  | 60 tỷ     | 35 tỷ   | 25 tỷ     |

Xu hướng: Tăng trưởng 20% so với quý trước, biên lợi nhuận cải thiện.

That's it. Bạn không cần nhờ AI "thông minh hơn" để đoán nghĩa trong đống rác. Bạn chỉ cần dọn rác trước, rồi AI tự khắc trả lời đúng.

Vì sao kế này hiệu quả?

Cơ chế này dựa trên vật lý của Attention trong transformer. Khi bạn nhét 4.000 token vào context window, trong đó 800 token là "Trang X", "Công ty ABC", các dòng kẻ vô nghĩa — bạn đã chiếm mất 20% "không gian trí nhớ" của AI cho rác.

Softmax dilution: Trong cơ chế attention, mỗi token "tranh nhau" sự chú ý. Khi có quá nhiều token nhiễu (noise), attention weights bị phân tán giống như ánh sáng bị phân tán qua kính mờ. AI bắt đầu "nhìn nhòa" thông tin quan trọng.

Ngoài ra, LLM là autocomplete machine — nó học cách lặp lại pattern. Nếu input có pattern "Trang 1... Trang 2... Trang 3", output dễ bị nhiễm pattern đó và bắt đầu đếm số vô tận.

Bằng cách làm sạch input, bạn:

  • Tăng tín hiệu/gõ (Signal-to-Noise ratio): AI thấy rõ điều quan trọng
  • Tiết kiệm token budget: Chỗ đó dùng để chứa thêm ngữ cảnh hữu ích
  • Giảm hallucination: Ít nhiễu = ít cơ hội AI "đoán nhầm"

Ứng dụng thực chiến

Nếu bạn là nhân viên văn phòng: Trước khi nhờ AI tóm tắt biên bản họp dài, hãy xóa bỏ:

  • Timestamp [10:23], [10:25]
  • Tiếng đệm "um", "ah", "thì là"
  • Tên người lặp lại mỗi lần họp (Nguyễn Văn A: ... Nguyễn Văn A: ...) Chỉ giữ lại: Quyết định + Người chịu trách nhiệm + Deadline. AI sẽ tóm tắt chính xác thay vì liệt kê lịch sử chat.

Nếu bạn là developer debug code: Đừng paste cả file log dài 1000 dòng kèm timestamp và thread ID. Hãy lọc:

LOG 2024-01-15 09:23:45 ERROR Connection timeout
→ Giữ lại: ERROR Connection timeout at line 45

AI sẽ tập trung vào lỗi logic thay vì phân tích xem "09:23:45" có phải là giờ vàng không.

Nếu bạn là data analyst: Đừng đưa file Excel thô có merged cells, màu vàng, công thức lỗi #N/A. Chuyển thành CSV sạch:

Sản phẩm,Số lượng,Giá
Áo thun,100,200000

AI đọc CSV nhanh hơn 10 lần và không bị nhầm "màu vàng" thành "mức độ ưu tiên cao".

Cách thông thườngÁp dụng Kế 10
Paste nguyên PDF 30 trang có header/số trangChỉ paste nội dung, xóa số trang, chuyển bảng sang markdown
Đưa cả đoạn chat Slack có timestamp, emojiChỉ trích xuất câu hỏi + câu trả lời quan trọng
Gửi file Excel có màu mè, merged cellExport CSV sạch, tên cột rõ ràng

Đọc thêm

On this page