Hallucination & Calibration — Tự tin nhưng sai, đo bằng cách nào?

Tại sao LLM tự tin nhưng lại sai? Không phải bug, mà là hệ quả toán học của calibration. Hiểu monofacts và cách đo uncertainty đúng.

Bạn hỏi GPT-4 về một nhà nghiên cứu cụ thể: "Tiến sĩ Eleanor Vance phát hiện peptide gì năm 2019?" Model trả lời đầy tự tin: "Peptide X-47, một phát hiện đột phá..." — nhưng Eleanor Vance không tồn tại. Đây không phải lỗi coding hay thiếu data. Đây là hallucination, và nghiên cứu từ STOC 2024 chứng minh nó là hệ quả toán học không thể tránh khỏi nếu model được calibrate đúng.

Vấn đề

Truyền thống, chúng ta coi hallucination là "bệnh" cần chữa — thêm data, fine-tune thêm, hoặc dùng RLHF để "bảo model đừng nói điều chưa chắc". Nhưng cách tiếp cận này bỏ qua một thực tế khó chịu: LLM là máy dự đoán xác suất được calibrate. Khi bắt model output probability khớp với tần suất thực tế (calibration), bạn vô tình tạo ra ràng buộc toán học buộc model phải hallucinate trên các facts hiếm gặp.

Vấn đề cụ thể: làm sao đo được mức độ "tự tin sai lầm" này? Và quan trọng hơn, làm sao thiết kế model biết nói "tôi không biết" thay vì bịa ra câu trả lời?

Ý tưởng cốt lõi

Hallucination là "phần dư" của phân phối xác suất.

Đây là insight từ bài toán "Missing Mass" trong lý thuyết thông tin. Hãy tưởng tượng training data của bạn có N tokens. Trong đó có những facts chỉ xuất hiện đúng một lần — gọi là monofacts (ví dụ: thông tin về một peptide cụ thể trong một bài blog ít người đọc).

Một model được calibrate tốt sẽ gán xác suất ~1/N cho monofact này (vì đó là tần suất thực nghiệm). Nhưng khi bắt model generate, nó phải phân phối 100% probability mass cho các possible completions. Nếu 1/N dành cho sự thật, còn lại (N-1)/N phải đi đâu đó — và nó chảy vào các completions sai nhưng plausible-sounding. Đó chính là hallucination.

That's it. Không cần architecture phức tạp, không cần lỗi training. Đơn giản là bảo toàn probability mass: nếu bạn calibrate đúng, bạn bị ép phải hallucinate trên facts hiếm.

Misconception cần phá bỏ: "Thêm data sẽ giảm hallucination". Thực tế ngược lại: dữ liệu ngôn ngữ tuân theo phân phối Zipf/Pareto. Khi bạn thêm data, số lượng monofacts tăng nhanh hơn tuyến tính. Nhiều data = nhiều facts chỉ xuất hiện một lần = nhiều "missing mass" hơn để trở thành hallucination. Bạn không thể "train away" hallucinations — bạn chỉ có thể quản lý nó.

Behavioral Calibration vs Statistical Calibration: Có hai cách tiếp cận calibration:

Statistical: Probability khớp tần suất thực (điều kiện tiên quyết gây ra hallucination ở trên)
Behavioral: Dạy model chuyển probability mass sang token "I don't know" thay vì trả lời sai

Đây là sự khác biệt giữa "biết mình không biết" (epistemic uncertainty) và "tự tin nhưng sai" (miscalibration).

Tại sao nó hoạt động

Cơ chế toán học đằng sau là Good-Turing estimator và bất đẳng thức cơ bản:

Hallucination rate ≥ Monofact rate − Miscalibration

Hoặc theo cách diễn đạt của Vempala: Hallucination rate ≥ 2 × Misclassification rate − correction term.

Giải thích bằng lời:

Monofact rate: Tỷ lệ facts chỉ xuất hiện đúng một lần trong training data. Trong corpus lớn, con số này đáng kể (thường 5-15% tùy domain).
Miscalibration: Khoảng cách giữa predicted probability và empirical frequency. Nếu model quá tự tin (over-confident), miscalibration cao → hallucination có thể thấp hơn monofact rate (nhưng accuracy vẫn tệ). Nếu model calibrate hoàn hảo, hallucination chạm mức tối thiểu lý thuyết.
Mass Conservation: Xác suất phải sum to 1. Khi bạn gán ~1/N cho truth, (N-1)/N còn lại phân bổ cho false alternatives. Với N lớn (tỷ tokens), 1/N rất nhỏ, nên phần lớn mass "đổ" vào các câu trả lời sai.

Ví dụ cụ thể: Giả sử bạn hỏi về "Tiến sĩ Eleanor Vance". Trong training data (1 tỷ tokens), thông tin này xuất hiện đúng 1 lần. Model calibrate gán P(truth) = 1e-9. Còn lại 0.999999999 probability phải phân phối cho các alternatives: "làm việc ở MIT", "Nobel laureate", "phát hiện X-48". Khi forced to generate, model pick một trong các alternatives này với tổng probability cao hơn hẳn truth — dẫn đến hallucination tự tin.

Ý nghĩa thực tế

Shift từ "Elimination" sang "Management": Hiểu được rằng hallucination là inevitable đối với arbitrary facts (biographical trivia, rare technical details) giúp chúng ta tập trung vào:

Abstention mechanisms: Dạy model output "I don't know" token thay vì guess
Uncertainty quantification: Layers phía trên LLM để detect khi model đang ở vùng monofact
Selective upweighting: Tăng weight của training examples chứa monofacts quan trọng để giảm monofact rate (Miao & Kearns 2025 chứng minh điều này giảm hallucination tỷ lệ thuận)

Benchmark thực tế:

HalluBench & Vectara leaderboards: Track empirical hallucination rates nhưng không đo calibration alignment
Miao & Kearns (2025): Validate theory trên n-gram models và Transformers — cho thấy controlled upweighting training examples giảm hallucination tỷ lệ thuận với monofact rate reduction

Ai đang dùng:

OpenAI: Vempala's work underpin theoretical understanding của o-series models
AI Safety researchers: Thiết kế abstention mechanisms thay vì "hallucination-free" goals bất khả thi
Vectara: Hallucination detection benchmarking cho enterprise RAG
Enterprise: Implement "uncertainty quantification" layers trên LLMs để flag khi cần human-in-the-loop

Các giới hạn:

Chỉ áp dụng cho arbitrary facts (trivia, biographical details rare), không áp dụng cho systematic facts (math, logic) hoặc high-frequency facts (kiến thức phổ biến)
Giả định training data ideal (không có label errors); noise trong thực tế làm vấn đề trầm trọng hơn
Calibration ≠ Truth: Model có thể perfectly calibrated nhưng systematically wrong trên edge cases (calibration là về frequency matching, không phải truth-tracking)

Đào sâu hơn

Paper gốc:

"Calibrated Language Models Must Hallucinate" (Kalai & Vempala, STOC 2024) — Chứng minh bất đẳng thức fundamental và kết nối với Good-Turing estimator
"Hallucination, Monofacts, and Miscalibration" (Miao & Kearns, 2025) — Validation thực nghiệm và chiến lược upweighting data

Bài liên quan TroiSinh:

Cùng cụm (eval-safety):

Constitutional AI — Model tự critique theo nguyên tắc, safety built-in — Cách dạy model "từ chối trả lời" thay vì hallucinate
MMLU, HumanEval, BIG-Bench — Thước đo chung cho LLM — Benchmarks để đo capability, complement với calibration metrics

Đọc tiếp:

Alignment Basics (Level 0) — Foundation của RLHF và preference learning, prerequisite để hiểu behavioral calibration
LLM-as-Judge (Level 2) — Dùng LLM để detect hallucination trong production với rubric-based evaluation

Mở rộng:

Arize Blog — Santosh Vempala explains why language models hallucinate — Interview giải thích intuition đằng sau định lý
Reddit Discussion — "There will be no AGI until hallucination problem is solved" — Community perspective về tầm quan trọng của vấn đề