GPTQ — Dùng Hessian để biết weight nào quan trọng khi round

GPTQ giải mã cách nén LLM xuống 4-bit bằng ma trận Hessian: xác định hướng trọng số nhạy cảm và bù lỗi ngay lập tức, chạy 70B model trên GPU 24GB.

Bạn muốn chạy Llama-70B trên chiếc RTX 4090 24GB? Điều tưởng chừng bất khả thi này đã trở thành hiện thực nhờ GPTQ — kỹ thuật quantization một lần (one-shot) không cần retrain, dùng toán học bậc hai để biết chính xác weight nào được phép "làm tròn" mạnh tay, weight nào cần giữ precision cao. Đây là công nghệ đứng sau hàng loạt model 4-bit chạy local trên máy tính cá nhân hiện nay.

Định nghĩa

GPTQ (General-purpose Post-Training Quantization) là phương pháp nén trọng số (weight) của mô hình neural network xuống độ chính xác thấp (thường 4-bit hoặc 3-bit) sau khi đã train xong (post-training), bằng cách sử dụng ma trận Hessian để đo độ nhạy của output đối với từng hướng trong không gian trọng số, từ đó bù đắp lỗi làm tròn (rounding error) ngay lập tức thay vì để lỗi tích lũy qua các layer.

Giải thích chi tiết

Vấn đề: Lỗi tích lũy trong quantization thông thường

Quantization kiểu "round-to-nearest" — làm tròn mỗi weight đến giá trị gần nhất trong grid 4-bit — có vẻ đơn giản. Nhưng trong transformer sâu 100+ layer, lỗi nhỏ ở layer 1 sẽ bị amplify qua layer 2, rồi layer 3, tạo thành hiệu ứng "sai một li đi một dặm".

Hãy tưởng tượng bạn đang điêu khắc tượng đá. Nếu cắt sai một đường ở chỗ phẳng (flat direction), tượng vẫn giữ hình dáng. Nhưng nếu cắt sai ở chỗ nhọn (sharp direction), cả khuôn mặt biến dạng. Quantization thông thường cắt "mù" — không phân biệt đâu là mũi quan trọng, đâu là nền phông nền có thể xóa mờ.

Ý tưởng cốt lõi: Hessian như bản đồ quan trọng

GPTQ nhận ra rằng lỗi quantization là vector, không phải số vô hướng. Ma trận Hessian ( H \approx X^T X ) (ma trận hiệp phương sai của activation) chính là "bản đồ địa hình" cho biết hướng nào trong không gian weight là "nguy hiểm" (lỗi nhỏ gây sai lệch output lớn) và hướng nào là "an toàn".

Với layer linear ( Y = WX ), lỗi quantization là ( |(W_q - W)X|^2 ). Khai triển ra: ( (W_q - W)^T (XX^T) (W_q - W) ). Term ( XX^T ) chính là Hessian. Nếu một hướng có eigenvalue lớn trong ( H ), thay đổi nhỏ ở đó sẽ làm output bùng nổ sai lệch. GPTQ ưu tiên giữ precision cho các hướng này, trong khi làm tròn mạnh tay ở hướng eigenvalue thấp.

Cơ chế bù lỗi tuần tự (Sequential Error Compensation)

Thay vì quantize toàn bộ layer cùng lúc, GPTQ xử lý từng weight một (hoặc từng nhóm nhỏ). Khi làm tròn weight thứ nhất và tạo ra lỗi ( \epsilon ), nó chiếu ( \epsilon ) lên các weight chưa được quantize còn lại và giải bài toán least-squares: điều chỉnh các weight còn lại bao nhiêu để triệt tiêu lỗi ( \epsilon )?

Giống như điêu khắc đá: nếu nhát cắt đầu tiên quá sâu, bạn không chấp nhận lỗi đó, mà điều chỉnh góc cắt tiếp theo để bù trừ. Neural network có dư thừa tham số (over-parameterized) — có vô số cấu hình weight cho cùng một output. GPTQ tận dụng tính dư thừa này để "sửa lỗi ngay lập tức" trước khi nó lan truyền.

Tối ưu tính toán với Cholesky Decomposition

Tính nghịch đảo Hessian ( H^{-1} ) cho layer triệu tham số là ( O(n^3) ) — không khả thi. GPTQ dùng trick Cholesky: vì xử lý tuần tự, nó duy trì phân rã Cholesky của ( H^{-1} ) dưới dạng running update. Độ phức tạp giảm xuống mức có thể chạy model 175B trong ~4 giờ GPU thay vì hàng năm.

Ví dụ thực tế

Chạy Llama-2-70B trên RTX 4090 24GB: Model 70B thông thường cần ~140GB VRAM ở FP16. Với GPTQ 4-bit, kích thước giảm xuống ~40GB. Kết hợp với 4-bit KV cache (như trong KV Cache Quantization), model vừa vặn trong 24GB VRAM của RTX 4090, chạy được 2-3 token/giây — đủ để chat interactive.

So sánh Perplexity trên Vicuna-7B: Round-to-nearest 4-bit làm tăng perplexity >2 điểm (model gần như vô dụng). GPTQ 4-bit với group-size 128 chỉ tăng ~0.1 điểm — gần như không thể phân biệt với bản gốc khi đọc văn bản dài.

Trực quan hóa lỗi: Tưởng tượng một layer đang vẽ chân dung. Quantization thông thường làm mờ cả mũi lẫn nền. GPTQ nhận ra mũi là "sharp direction" (Hessian eigenvalue cao) nên giữ nét chi tiết, nhưng chủ động làm mờ nền (an toàn) rồi dùng các pixel lân cận để vẽ lại mũi cho đúng tỷ lệ — kết quả là bức tranh nhỏ gọn nhưng vẫn nhận ra ngay khuôn mặt.

Ứng dụng

Sinh viên/Researcher: Chạy thử nghiệm Llama-70B, Mixtral-8x7B, hoặc Qwen-72B trên GPU consumer (RTX 3090/4090) mà không cần thuê cluster cloud. Dùng AutoGPTQ với ~128 sample calibration data từ Wikipedia hoặc domain-specific corpus để tạo bản 4-bit cá nhân.

ML Engineer triển khai production: Giảm 75% VRAM requirement cho inference server, cho phép tăng batch size gấp 4 lần trên cùng hardware, hoặc chạy model lớn hơn (70B thay vì 13B) để cải thiện quality mà không tăng cost infrastructure. Đặc biệt hữu ích khi dùng ExLlamaV2 trên server A100 để tối ưu throughput.

Doanh nghiệp Edge/On-device: Mặc dù GPTQ chủ yếu dùng cho GPU, các công cụ như llama.cpp có thể load model GPTQ đã quantize để chạy trên laptop MacBook (Metal) hoặc CPU high-end, cho phép triển khai AI assistant offline trong môi trường compliance khắt khe (ngân hàng, y tế) mà không gửi data ra ngoài.

So sánh

Đặc điểm	GPTQ	AWQ	GGUF (llama.cpp)
Nguyên lý cốt lõi	Hessian-based error compensation	Activation-aware salient weight protection	K-means quantization + streaming dequantization
Giảm memory	~4x (4-bit weights)	~4x (4-bit weights)	~4x (Q4_K_M)
Tốc độ inference	3.25x trên A100 so với FP16	Tương đương hoặc nhanh hơn 8-19% trên vLLM	Chậm hơn trên GPU, nhanh trên CPU (AVX/NEON)
Xử lý outlier	Kém hơn (weights-only)	Tốt (bảo vệ channels có activation lớn)	Trung bình (K-quant methods)
Calibration data	Cần ~128-256 samples	Cần ~100 samples	Không cần (data-free)
Group-size tuning	Cần thiết (g128/g64)	Ít nhạy cảm hơn	N/A (K-quant đã cố định)
Best use case	GPU inference VRAM chật hẹp, model lớn	Production serving với vLLM/TensorRT-LLM	Local inference trên laptop/CPU/edge devices

Kết luận: GPTQ là lựa chọn "cân bằng" cho GPU — nhanh, chính xác, và dễ tích hợp vào pipeline HuggingFace. Nếu bạn cần tối đa hóa chất lượng trên model đã quantize, hãy xem AWQ. Nếu cần chạy trên CPU hoặc MacBook, GGUF linh hoạt hơn.