TROISINH
Chỉ huy tối thượngKế tùy cơ ứng biến

Kế 28: Lui binh giữ thế — Graceful Degradation khi model yếu

Kế 28 Binh pháp AI: Khi model yếu, đừng ép làm việc nặng. Thu nhỏ phạm vi, giảm context, đơn giản hóa prompt để AI vẫn đạt chất lượng trong 'vùng an toàn' củ...

Định nghĩa

Năm 208, khi Tào Tháo đại quân áp sát, Lưu Bị không chọn cách "cố thủ" bằng binh lực thua kém, mà chủ động rút lui khỏi Trường Bản Đạp, giữ lại cốt lõi nhân mã để chiến đấu một ngày khác. Trong thế giới AI, Graceful Degradation (Lui binh giữ thế) là chiến thuật động: khi phát hiện LLM đang vượt quá "vùng năng lực" (competence basin) — context quá dài, task quá phức tạp, hoặc model quá nhỏ — ta chủ động thu hẹp phạm vi nhiệm vụ (scope reduction) thay vì ép buộc model chạy "đua ngựa" rồi nhận kết quả toàn hallucination.

Giải thích chi tiết

Vấn đề: "Vực thẳm năng lực" (Capability Cliff)

Hầu hết người dùng tưởng tượng khả năng của LLM giống như dốc núi — càng lên cao càng mệt dần. Thực tế là vách đá: một model 7B tokens xử lý tốt 4K context, nhưng khi bạn ép nó đọc 32K tokens, nó không "hơi mệt" mà ngã xuống vực sâu của sự bịa đặt (hallucination). Đây là hiện tượng "Lost in the Middle" khi attention mechanism bị loãng, softmax denominator trở nên quá lớn, và model bắt đầu "tưởng tượng" nội dung để lấp chỗ trống.

Lỗi thường gặp: Dùng Llama 3.1 8B trên laptop cá nhân để tóm tắt hợp đồng 200 trang. Người dùng paste toàn bộ PDF vào, model trả về văn bản "rất hay" nhưng sai 40% nội dung trang giữa — đó là model đã rơi xuống vực.

Thuật toán: Ba cách "lui binh" động

Thay vì "chết đứng", ta chủ động rút lui theo ba cấp độ:

1. Context Distillation (Cô đọng bối cảnh) Dùng entropy gating: đoán độ "rối" (perplexity) của model trên từng đoạn context. Cắt bỏ những đoạn có entropy cao (model không chắc chắn), chỉ giữ lại "vùng trũng entropy thấp" — nơi model tự tin nhất. Ví dụ: thay vì đưa cả 100 trang PDF, chỉ đưa 3 đoạn có liên quan ngữ nghĩa cao nhất (RAG aggressive).

2. Prompt Downgrading (Hạ cấp yêu cầu) Thiết kế "thang prompt" dự phòng:

  • Cao cấp: "Phân tích chiến lược SWOT và đề xuất lộ trình 5 năm"
  • Trung cấp: "Liệt kê 5 điểm mạnh/yếu chính"
  • Sơ cấp: "Tóm tắt 3 ý chính từ tài liệu"

Khi phát hiện model "lúng túng" (confidence score thấp hoặc output bắt đầu lặp lại), tự động hạ xuống mức thấp hơn.

3. Cascading Degradation (Thác nước hạ cấp) Kết hợp với Kế 24 (RAG) và Kế 13 (Role prompting):

  • Bước 1: Dùng model nhỏ (3B) để trích xuất entity
  • Bước 2: Nếu confidence < 0.7, chuyển sang model lớn hơn (70B) nhưng chỉ cho phép xử lý 1/10 context đã được lọc ở bước 1

Tại sao hiệu quả? Entropy Localization và Hallucination Cascade

Entropy Localization: Transformer attention có băng thông cố định. Khi context dài, attention weights bị loãng thành "soup đồng nhất" — model không biết nên nhìn đâu. Bằng cách cắt context đến vùng entropy thấp (thông tin rõ ràng, liên quan cao), ta giữ model trong "lòng chảo năng lực" (competence basin) — nơi nó có thể tự tin dự đoán token tiếp theo.

Hallucination Cascade: Khi model bắt đầu bối rối ở token thứ 500, nó có xu hướng "bịa" token thứ 501 để che giấu. Lỗi này lan truyền — token 502 dựa trên 501 sai, càng ngày càng sai. Graceful Degradation cắt đứt chuỗi này bằng cách giảm tải trước khi cascade bắt đầu.

Ví dụ thực tế

Ví dụ 1: Tóm tắt hợp đồng bằng laptop cá nhân Bạn có hợp đồng thuê nhà 50 trang, dùng Llama 3.1 8B chạy local (không dùng GPT-4 vì bảo mật).

  • Cách thông thường: Paste toàn bộ 50 trang → model bịa ra các điều khoản phạt không có thật.
  • Lui binh giữ thế: Chia 50 trang thành 5 chunk 10 trang. Với mỗi chunk, hỏi: "Đoạn này có đề cập điều khoản phạt trễ hạn không? (Chỉ trả lời Có/Không)". Chỉ khi trả lời "Có", mới yêu cầu trích dẫn cụ thể. Kết quả: chính xác 95%, dùng đúng 12% context window.

Ví dụ 2: Chatbot chăm sóc khách hàng "thông minh" Startup xây dựng bot hỗ trợ kỹ thuật. Khi server quá tải hoặc câu hỏi quá phức tạp (detect qua độ dài câu hỏi và thời gian phản hồi tăng đột biến):

  • Bình thường: Trả lời chi tiết, đề xuất 3 giải pháp kèm code mẫu.
  • Khi quá tải: Chuyển sang mode "ghi nhận và chuyển tiếp": "Tôi đã ghi nhận vấn đề về [từ khóa chính]. Kỹ thuật viên sẽ gọi lại trong 15 phút." Bot không cố trả lời những gì không chắc, tránh làm khách hàng tức giận vì thông tin sai.

Ví dụ 3: Phân tích báo cáo tài chính đa quý Phân tích so sánh Q1-Q4 cho cổ đông.

  • Ban đầu: Yêu cầu "So sánh chi tiết xu hướng margin giữa 4 quý".
  • Phát hiện lỗi: Model 7B bắt đầu đoán số liệu Q2 (vì quên context).
  • Lui binh: Thu nhỏ xuống "Chỉ so sánh Q4 vs Q3, chỉ tập trung vào dòng tiền". Chất lượng output tăng từ 60% lên 90%, mặc dù mất thông tin Q1-Q2.

Ứng dụng

Sinh viên/Nghiên cứu sinh (Dùng AI trên laptop cá nhân) Khi chạy model local (Llama, Mistral) với VRAM 8-12GB, đừng ép nó đọc cả 20 paper PDF. Dùng chiến thuật "trích lọc trước, đọc sau":

  1. Dùng embedding nhẹ (bge-small-en) tìm top-3 đoạn liên quan nhất trong 20 paper.
  2. Chỉ đưa 3 đoạn (tổng <1000 tokens) vào LLM 7B để phân tích. Bạn giữ được bảo mật dữ liệu (không lên cloud) mà vẫn có kết quả chất lượng cao.

Nhân viên văn phòng (Xử lý email/Slack dài) Dùng Claude 3 Haiku (nhanh, rẻ) cho 90% công việc. Khi gặp email dài 10 trang với nhiều quoted text cũ:

  • Tự động cắt bỏ quoted text trước khi gửi vào API (giảm 70% token).
  • Nếu Haiku trả về "Tôi không chắc chắn", đừng ép nó đoán. Chuyển sang prompt đơn giản: "Liệt kê 3 action items cần làm từ email này".

Doanh nghiệp/Startup (Kiến trúc Tiered AI) Thiết kế hệ thống "phòng thủ chiều sâu":

  • Tầng 1: Model nhỏ (Gemini Flash, Claude Haiku) xử lý 80% query đơn giản.
  • Tầng 2: Khi tầng 1 có confidence < ngưỡng, không ép nó trả lời. Chuyển sang tầng 2 (model lớn) nhưng chỉ với context đã được lọc từ tầng 1. Chi phí giảm 60% so với dùng model lớn cho tất cả, nhưng chất lượng không sụt giảm nhờ "lui binh" đúng lúc.

So sánh

Tiêu chíGraceful Degradation (Lui binh giữ thế)Early Exit (CALM — Điều binh nhanh)
Chiến lượcGiảm "đất" (scope/context) để giữ chất lượng outputGiảm "lính" (layers) để tăng tốc độ
Thời điểm dùngModel yếu, input quá lớn, hoặc task quá phức tạpModel đủ mạnh, chỉ cần ít suy luận
Cơ chếCắt bớt context, đơn giản hóa prompt, chia nhỏ taskDừng sớm các lớp neural, không chờ hết 70B parameters
Rủi roCó thể mất thông tin ngoài scope (cần RAG tốt)Output có thể hơi "nông" nhưng vẫn đúng cú pháp

Kết luận: Early Exit là "chạy nhanh hơn khi đường bằng"; Graceful Degradation là "bỏ balo nặng để leo dốc không ngã". Hai kế này có thể kết hợp: giảm scope trước, rồi dùng Early Exit để tính toán nhanh hơn trên scope đã thu hẹp.

Bài viết liên quan

Đọc tiếp (Level 2 — Chỉ huy tối thượng):

On this page