MMLU, HumanEval, BIG-Bench — Thước đo chung cho LLM

Bộ ba kỳ thi tốt nghiệp của AI: MMLU đo độ rộng tri thức, HumanEval kiểm tra tính đúng đắn chức năng, BIG-Bench dò tìm khả năng suy luận mới xuất hiện ở quy...

Mọi nhà phát triển LLM đều tuyên bố model của họ đạt "state-of-the-art", nhưng làm sao để biết đâu là thật? Ngành công nghiệp cần những bài kiểm tra chuẩn hóa—như kỳ thi SAT cho sinh viên—để so sánh khách quan giữa GPT-4, Claude, Llama hay DeepSeek. Bộ ba MMLU, HumanEval và BIG-Bench đã trở thành hệ thống đánh giá "vàng" cho AI, nhưng ý nghĩa thực sự của chúng nằm ở cách chúng đo lường bản chất nén thông tin của mô hình, chứ không chỉ là điểm số bề mặt.

Vấn đề

Trước năm 2020, các benchmark như GLUE và SuperGLUE bão hòa nhanh chóng—các model đạt >90% chỉ sau vài năm. Điều này cho thấy hai vấn đề: thứ nhất, các bài test quá dễ và không đo được khả năng tổng quát hóa; thứ hai, các model có thể "gaming" benchmark bằng cách ghi nhớ pattern hẹp thay vì hiểu logic.

Khi LLM scaling lên hàng trăm tỷ tham số, chúng ta cần thước đo cho ba khía cạnh hoàn toàn khác nhau:

Breadth: Model có biết "mọi thứ" từ vật lý lượng tử đến luật hình sự không?
Functional Correctness: Code do model sinh ra có thực sự chạy được và pass unit test không, hay chỉ "trông đúng"?
Emergent Reasoning: Những khả năng suy luận đa bước có xuất hiện đột ngột khi đạt quy mô nhất định, hay chỉ là ảo giác thống kê?

Các benchmark cũ thiếu khả năng phân biệt những điểm này, dẫn đến việc các model trông thông minh trên paper nhưng thất bại thảm hại trong production.

Ý tưởng cốt lõi

Bộ ba "kỳ thi tốt nghiệp" MMLU, HumanEval và BIG-Bench không chỉ là bộ câu hỏi khó hơn. Chúng đại diện cho ba triết lý đánh giá hoàn toàn khác nhau, cùng nhau tạo nên bức tranh toàn diện về "trí thông minh nén" (compressed intelligence).

MMLU — Đo mức độ nén cấu trúc thế giới

MMLU (Massive Multitask Language Understanding) gồm 15,908 câu hỏi trắc nghiệm 4 lựa chọn, phủ 57 môn học từ toán cao cấp, luật, y học, đến lịch sử nghệ thuật. Human expert đạt ~89.8%, người không chuyên ~34.5%, random ~25%.

Insight cốt lõi: MMLU không test trí nhớ. 57 môn học là random samples từ phân phối chung của toàn bộ văn bản tri thức nhân loại. Nếu model gán xác suất cao hơn cho đáp án đúng so với sai trong tất cả các lĩnh vực này, nó đã học được latent causal structure (cấu trúc nhân quả ẩn) tạo ra dữ liệu huấn luyện, không chỉ là pattern surface. Format 4-choice không hỏi "bạn có nhớ không" mà hỏi "bạn có thể xếp hạng likelihood đúng thứ tự không".

Đây là lý do Scaling Laws (Kaplan et al.) dự đoán được MMLU score: nhiều tham số hơn = nén tốt hơn entropy của thực tại. GPT-4 đạt ~86-89% (gần ngang human expert) không phải vì nó "thông minh" như sinh viên giỏi, mà vì nó có cross-entropy thấp trên corpus tri thức.

Misconception buster: Điểm MMLU cao không có nghĩa là model hiểu logic như con người. Nó chỉ nghĩa là model có khả năng nén thống kê tốt. Sinh viên hiểu logic; model chỉ dự đoán phân phối token.

HumanEval — Bộ lọc đối kháng (Adversarial Sieve)

HumanEval gồm 164 hàm Python với docstring, metric pass@k—kiểm tra code có chạy được và pass unit test không. Binary constraint: syntax error = fail.

Insight cốt lõi: Đánh giá ngôn ngữ tự nhiên luôn mơ hồ (BLEU, ROUGE không tương quan với utility thực). Code thì nhị phân: pass hoặc fail. Điều này tạo ra adversarial sieve—hallucination nghe có vẻ đúng trong văn bản sẽ gây crash trong code. Pass@k metric capture bản chất stochastic của LLM: model "biết" giải pháp nếu bất kỳ một trong k samples hoạt động, vì vậy temperature và sampling diversity trở thành một phần của capability. Claude 3.5 Sonnet đạt ~92% HumanEval pass@1 cho thấy nó không chỉ "viết code đẹp" mà viết code chạy được.

BIG-Bench — Dò tìm khả năng âm (Negative Capability)

BIG-Bench gồm 200+ tasks thiết kế bởi 450+ researchers, test reasoning đa bước, social understanding, causal inference—những capability chỉ xuất hiện ở models >100B params.

Insight cốt lõi: Chúng ta không thể liệt kê tất cả khả năng của AI tương lai, nhưng có thể dò tìm "bóng đổ"—những tasks mà model nhỏ thất bại hoàn toàn (random) nhưng model lớn đột nhiên thành công (emergence). BIG-Bench thiết kế tasks "fractal": mỗi task đòi hỏi compose patterns từ pre-training data theo cách chưa từng thấy. Nếu model chỉ là associative retrieval, nó sẽ fail; nếu nó xây dựng internal world model (nhân quả, vật lý, xã hội), nó sẽ generalize. BIG-Bench Hard: PaLM vượt human average chỉ khi dùng Chain-of-Thought trên 10/23 tasks, chứng minh sự xuất hiện của khả năng suy luận ở quy mô lớn.

Tại sao nó hoạt động

Toán học của MMLU: MMLU dựa trên lý thuyết nén thông tin. Khi model dự đoán token tiếp theo, nó thực chất đang ước lượng phân phối xác suất có điều kiện của văn bản. Điểm cao trên 57 lĩnh vực đồng nghĩa với việc model đã học được cấu trúc thống kê chung (common structure) chia sẻ giữa vật lý và lịch sử—chứng tỏ generalization.

Tính nhị phân của HumanEval: Code execution cung cấp reward sparse (0/1) không thể "hack" bằng cách viết dài dòng hay dùng từ hoa mỹ. Điều này force model phải học representation chính xác về semantics của ngôn ngữ lập trình, không chỉ surface form.

Emergence trong BIG-Bench: Các task được thiết kế để có "phase transition"—khi model đủ lớn, khả năng suy luận xuất hiện đột ngột như hiện tượng vật lý. Điều này giúp xác định ngưỡng (threshold) compute cần thiết cho các capability mới.

Ý nghĩa thực tế

Benchmark	Đo gì	Điểm SOTA (2024)	Limitation chính
MMLU	Breadth kiến thức, nén entropy	GPT-4 ~86-89%	6.49% lỗi annotation, nhạy cảm với thứ tự lựa chọn (position bias ~13% variance), dễ bị data contamination
HumanEval	Functional correctness (code)	Claude 3.5 ~92% pass@1	Chỉ test Python đơn giản, không đo software engineering thực tế (debugging, architecture, multi-file)
BIG-Bench	Emergent reasoning, world model	PaLM + CoT > human trên 10/23 hard tasks	Scoring subjectivity cao, một số tasks đánh giá bằng human preference thay vì automatic metric

Impact thực tế:

Model Cards: OpenAI, Anthropic, Google bắt buộc báo cáo MMLU/HumanEval trong model cards như EPA rating cho xe hơi.
Procurement: Doanh nghiệp dùng bộ ba này để chọn model cho RAG (cần MMLU cao) hay coding assistant (cần HumanEval cao).
MMLU-Pro (2024): Thay thế MMLU gốc với 10 lựa chọn thay vì 4, giảm đoán mò và tăng độ khó, dần trở thành chuẩn mới.

Giới hạn nghiêm trọng:

Data Contamination: Nhiều câu MMLu xuất hiện trong web crawl, model có thể đã "nhìn thấy" đáp án trong pre-training.
Position Bias: Thay đổi thứ tự đáp án A/B/C/D có thể làm variance điểm số tới 13%.
Code là hẹp: HumanEval không test khả năng đọc codebase lớn hay debug, chỉ test viết hàm độc lập.

Đào sâu hơn

Paper gốc:

MMLU (Hendrycks et al., 2020) — "Measuring Massive Multitask Language Understanding"
HumanEval (Chen et al., 2021) — "Evaluating Large Language Models Trained on Code"
BIG-Bench (2022) — "Beyond the Imitation Game"
MMLU-Pro (2024) — Bản nâng cấp với 10 choices và độ khó cao hơn

Cùng cụm:

Constitutional AI — Khi benchmark không đủ, cần cơ chế tự critique để đảm bảo safety
Hallucination & Calibration — Tại sao model tự tin đạt điểm MMLU cao vẫn có thể hallucinate trên facts hiếm

Đọc tiếp:

LLM-as-Judge — Khi cần đánh giá creative tasks không có đáp án cố định như MMLU
Alignment Basics — Làm sao để model không chỉ đỗ benchmark mà thực sự helpful và harmless

External:

MMLU-Pro Leaderboard — Theo dõi SOTA thực tế trên benchmark này
HumanEval Hand-Decontamination Study — Phân tích mức độ contamination trong code benchmarks