Kế 10: Rác vào rác ra — Dọn dẹp input, output sạch hơn
Kế 10 Binh pháp AI: Vì sao AI trả lời lung tung? Cách làm sạch dữ liệu đầu vào để nhận kết quả chính xác, sạch sẽ.
Mưu thám báo trong sạch
Thời Xuân Thu, Tôn Vũ dạy Tôn Tử một chân lý quân sự đáng sợ: "Một tin tức sai lệch còn đáng sợ hơn một vạn quân địch".
Có lần nước Ngô điều tra địa hình đất Yển, hai gian điệp mang về hai bản đồ. Bản thứ nhất vẽ đầy rẫy các con suối nhỏ, bụi cây rậm rạp, chú thích lộn xộn về hướng gió và chim chóc — dữ liệu thô chưa qua chọn lọc. Bản thứ hai chỉ đánh dấu 3 điểm trọng yếu: chỗ nào cao, chỗ nào thấp, chỗ nào quân địch có thể phục kích — thông tin đã được dọn rác. Tôn Tử chỉ cần nhìn bản đồ thứ hai 10 giây đã đoán được cách bố trí trận địa. Còn bản đầu tiên, ông đọc cả tiếng vẫn không biết đâu là quan trọng.
Trong thế giới AI, đây chính là kế "Rác vào, rác ra" (Garbage In, Garbage Out). Bạn có thể dùng GPT-4, Claude 3.5 hay DeepSeek-V3 — nếu bạn nhét vào prompt một đống hỗn độn gồm số trang PDF, dòng kẻ bảng bị lỗi, header/footer lặp lại, AI sẽ trả về một câu trả lời cũng hỗn độn như vậy, hoặc tệ hơn: nó sẽ tập trung tóm tắt... số trang thay vì nội dung.
Vấn nạn khi "paste thô" vào AI
Hãy tưởng tượng bạn cần AI phân tích một báo cáo tài chính dài 30 trang. Bạn copy-paste trực tiếp từ PDF vào ChatGPT. Kết quả nhận được:
--- Trang 1 ---
Báo cáo tài chính quý 2
Công ty ABC
Trang 1/30
Doanh thu: 50 tỷ
--- Trang 2 ---
Chi phí: 30 tỷ
Trang 2/30
...AI nhìn thấy 30 lần chữ "Trang X/30", nó bắt đầu "ảo giác" rằng nội dung chính là các con số trang, hoặc nó bị phân tâm bởi đường kẻ bảng bị vỡ (|----|) thay vì tập trung vào dòng "Doanh thu". Kết quả? AI tóm tắt: "Báo cáo có 30 trang, bắt đầu bằng doanh thu và kết thúc bằng chi phí". Hoàn toàn vô dụng.
Vấn đề không phải AI "ngu". Vấn đề là bạn đổ nước bẩn vào cốc, rồi than vãn sao nước không trong.
Kế sách: Ba bước tinh lọc
Kế thứ 10 rất đơn giản: Đừng đưa rác vào miệng tướng. Trước khi paste bất kỳ tài liệu nào vào prompt, bạn thực hiện 3 bước dọn dẹp chiến trường.
Bước 1: Lọc bỏ metadata sinh nhiễu
Xóa sạch:
- Số trang, header/footer lặp lại (
Trang 5,© 2024 Công ty X) - Dòng kẻ bảng rời rạc (
+-------+), thay bằng markdown chuẩn| - Khoảng trắng thừa, dòng trống liên tiếp
- Chữ ký, logo, watermark scan từ PDF
Bước 2: Chuẩn hóa cấu trúc
Chuyển dữ liệu lộn xộn thành định dạng AI "thích" nhất:
- Bảng số liệu → Markdown table
- Danh sách gạch đầu dòng → Bullet list rõ ràng
- Đoạn văn bị ngắt quãng do PDF → Nối thành đoạn liền mạch
Bước 3: Kiểm tra "tải trọng"
Dùng công cụ đếm token (ví dụ OpenAI Tokenizer) để đảm bảo dữ liệu sạch không vượt quá context window. Nếu vượt, hãy cắt thành từng phần sạch (xem lại Kế 1: Chia để trị).
Prompt mẫu cho bước làm sạch:
Hãy làm sạch đoạn dữ liệu sau bằng cách:
1. Xóa tất cả số trang và header "Báo cáo tài chính"
2. Chuyển bảng kẻ bằng dấu +----+ thành bảng markdown
3. Xóa dòng trống thừa
4. Trả về kết quả sạch, tôi sẽ dùng nó cho prompt tiếp theo
Dữ liệu gốc:
[PASTE RAW PDF TEXT HERE]Output mẫu sau khi làm sạch:
| Quý | Doanh thu | Chi phí | Lợi nhuận |
|-----|-----------|---------|-----------|
| Q1 | 50 tỷ | 30 tỷ | 20 tỷ |
| Q2 | 60 tỷ | 35 tỷ | 25 tỷ |
Xu hướng: Tăng trưởng 20% so với quý trước, biên lợi nhuận cải thiện.That's it. Bạn không cần nhờ AI "thông minh hơn" để đoán nghĩa trong đống rác. Bạn chỉ cần dọn rác trước, rồi AI tự khắc trả lời đúng.
Vì sao kế này hiệu quả?
Cơ chế này dựa trên vật lý của Attention trong transformer. Khi bạn nhét 4.000 token vào context window, trong đó 800 token là "Trang X", "Công ty ABC", các dòng kẻ vô nghĩa — bạn đã chiếm mất 20% "không gian trí nhớ" của AI cho rác.
Softmax dilution: Trong cơ chế attention, mỗi token "tranh nhau" sự chú ý. Khi có quá nhiều token nhiễu (noise), attention weights bị phân tán giống như ánh sáng bị phân tán qua kính mờ. AI bắt đầu "nhìn nhòa" thông tin quan trọng.
Ngoài ra, LLM là autocomplete machine — nó học cách lặp lại pattern. Nếu input có pattern "Trang 1... Trang 2... Trang 3", output dễ bị nhiễm pattern đó và bắt đầu đếm số vô tận.
Bằng cách làm sạch input, bạn:
- Tăng tín hiệu/gõ (Signal-to-Noise ratio): AI thấy rõ điều quan trọng
- Tiết kiệm token budget: Chỗ đó dùng để chứa thêm ngữ cảnh hữu ích
- Giảm hallucination: Ít nhiễu = ít cơ hội AI "đoán nhầm"
Ứng dụng thực chiến
Nếu bạn là nhân viên văn phòng: Trước khi nhờ AI tóm tắt biên bản họp dài, hãy xóa bỏ:
- Timestamp
[10:23],[10:25] - Tiếng đệm "um", "ah", "thì là"
- Tên người lặp lại mỗi lần họp (
Nguyễn Văn A: ... Nguyễn Văn A: ...) Chỉ giữ lại: Quyết định + Người chịu trách nhiệm + Deadline. AI sẽ tóm tắt chính xác thay vì liệt kê lịch sử chat.
Nếu bạn là developer debug code: Đừng paste cả file log dài 1000 dòng kèm timestamp và thread ID. Hãy lọc:
LOG 2024-01-15 09:23:45 ERROR Connection timeout
→ Giữ lại: ERROR Connection timeout at line 45AI sẽ tập trung vào lỗi logic thay vì phân tích xem "09:23:45" có phải là giờ vàng không.
Nếu bạn là data analyst:
Đừng đưa file Excel thô có merged cells, màu vàng, công thức lỗi #N/A. Chuyển thành CSV sạch:
Sản phẩm,Số lượng,Giá
Áo thun,100,200000AI đọc CSV nhanh hơn 10 lần và không bị nhầm "màu vàng" thành "mức độ ưu tiên cao".
| Cách thông thường | Áp dụng Kế 10 |
|---|---|
| Paste nguyên PDF 30 trang có header/số trang | Chỉ paste nội dung, xóa số trang, chuyển bảng sang markdown |
| Đưa cả đoạn chat Slack có timestamp, emoji | Chỉ trích xuất câu hỏi + câu trả lời quan trọng |
| Gửi file Excel có màu mè, merged cell | Export CSV sạch, tên cột rõ ràng |
Đọc thêm
Kế 9: Trinh sát trước trận — Đọc hiểu tài liệu trước khi đưa AI
Kế 9 Binh pháp AI: Đừng dump 100 trang PDF vào ChatGPT. Học cách trinh sát tài liệu trước khi dùng AI để xử lý thông tin chính xác, tiết kiệm chi phí.
Kế 11: Xây thành trước trận — System prompt là pháo đài
Kế 11 Binh pháp AI: Dựng 'pháo đài' system prompt để AI không lang thang. Kỹ thuật chuẩn bị khung giá trị & format trước khi hỏi, tiết kiệm token và giữ nhất...