Autoregressive LM — Đoán token tiếp theo, lặp lại, GPT ra đời

Hiểu bản chất Autoregressive Language Model: dự đoán từng token một bằng causal masking, tại sao GPT thống trị AI, và điểm khác biệt với BERT.

GPT viết văn như thế nào? Không phải bằng cách nghĩ ra cả đoạn văn một lúc, mà bằng cách đoán từng từ tiếp theo, lặp đi lặp lại hàng nghìn lần. Cơ chế đơn giản này—gọi là Autoregressive Language Modeling—đã tạo ra cuộc cách mạng AI mà chúng ta đang chứng kiến. Nó là nền tảng của mọi model sinh văn bản hiện đại, từ ChatGPT đến Claude và Llama.

Vấn đề

Xác suất của một chuỗi từ—ví dụ "Hôm nay trời đẹp"—không thể được tính trực tiếp. Bạn không thể nhét cả câu vào một neural network và hỏi "câu này có hợp lý không?" với một con số duy nhất. Ngôn ngữ là chuỗi các lựa chọn phụ thuộc lẫn nhau: từ thứ 5 phụ thuộc vào 4 từ trước đó, và không thể đảo ngược thứ tự.

Trước Transformer, người ta dùng n-grams (thống kê chuỗi N từ) nhưng chúng thất bại với những phụ thuộc xa. Cần một cách để phân rã xác suất chuỗi thành các bước dự đoán có điều kiện, nhưng vẫn học được từ dữ liệu không nhãn (unsupervised) và xử lý context dài.

Ý tưởng cốt lõi

Autoregressive LM giải quyết bài toán bằng quy tắc chuỗi (chain rule) của xác suất:

$P(x_1, x_2, ..., x_T) = \prod_{t=1}^{T} P(x_t | x_1, ..., x_{t-1})$

Thay vì đoán cả câu, model chỉ học một nhiệm vụ duy nhất: dự đoán token tiếp theo. Nhưng nó làm điều này rất giỏi, áp dụng lặp lại cho đến hết câu.

Causal Masking — "Không được nhìn trộm tương lai"

Để đảm bảo model chỉ dựa vào quá khứ khi dự đoán tương lai, người ta dùng causal mask (hay autoregressive mask) trong Attention. Hãy tưởng tượng một ma trận tam giác: tại vị trí thứ 5, model được phép nhìn các token 1-4, nhưng bị che chắn (set score = $-\infty$ ) tất cả token 6-10. Khi đi qua softmax, những vị trí bị che có attention weight = 0.

Đây là "aha moment": training và inference tách biệt hoàn toàn về mặt thuật toán nhưng giống nhau về mặt nguyên tắc.

Training: Dùng "teacher forcing"—với câu "The cat sat...", model dự đoán token 2 ("cat") từ token 1 ("The"), token 3 ("sat") từ "The cat", v.v. Tất cả các vị trí được tính song song trong một forward pass nhờ mask.
Inference: Model thực sự tự sinh ra token rồi feed lại vào để sinh tiếp—theo đúng định nghĩa autoregressive (tự hồi quy).

Tại sao kiến trúc Decoder-Only thắng thế?

Ban đầu Transformer được thiết kế với cả Encoder và Decoder (encoder-decoder), nhưng các model như GPT chỉ giữ lại phần Decoder với causal mask. Lý do: đơn giản hơn, và việc dự đoán next-token tạo ra tín hiệu gradient dày đặc (dense supervision)—mỗi token trong sequence đều là một bài tập. Điều này cho phép pre-training trên terabyte dữ liệu văn bản thô mà không cần nhãn.

Tại sao nó hoạt động

1. Factorization của phân phối ngôn ngữ

Chain rule cho phép chúng ta biến việc học joint distribution phức tạp thành hàng triệu bài toán classification đơn giản (multi-class với vocab size ~50k). Mỗi bước là một softmax:

$P(x_t | x_{<t}) = \text{softmax}(W \cdot h_t)$

với $h_t$ là hidden state tại vị trí $t$ sau khi qua các lớp self-attention.

2. Attention mechanism xử lý long-range dependencies

Nhờ multi-head attention, token ở cuối câu có thể "nhìn" trực tiếp đến token đầu câu thông qua Q·K^T/√d, bất chấp khoảng cách. Causal mask chỉ ngăn nhìn về phía tương lai, không ngăn nhìn xa trong quá khứ.

3. KV Cache tối ưu inference

Khi sinh token thứ 100, model không cần tính lại Key/Value cho 99 token trước (chúng không đổi). KV Cache lưu lại K/V của quá khứ, giúp mỗi bước sinh token chỉ tốn O(1) compute thay vì O(n). Đây là lý do tại sao autoregressive generation tuy tuần tự nhưng vẫn đủ nhanh để dùng thực tế.

Ý nghĩa thực tế

Ưu điểm:

Scale tốt: Objective đơn giản (next-token prediction) cho phép model học từ bất kỳ văn bản nào, tạo ra khả năng few-shot emergent.
Coherence dài hạn: Cơ chế autoregressive tự nhiên duy trì consistency của câu chuyện, vì mỗi token mới được điều kiện hóa bởi toàn bộ lịch sử trước đó.
Dễ triển khai: Chỉ cần sampling từ distribution—không cần beam search phức tạp (beam-search là optional optimization).

Hạn chế:

Không sửa được lỗi: Khác con người viết lại đoạn đầu sau khi viết xong đoạn cuối, autoregressive model commit "một đi không trở lại". Nếu token thứ 5 sai, các token sau đó có khả năng cao cũng sai.
Exposure bias: Training dùng ground truth làm input cho bước tiếp theo, nhưng inference dùng chính prediction của model—nếu model sinh lỗi, nó sẽ tiếp tục sinh lỗi (divergence).
Inference chậm: Phải sinh tuần tự, không thể song song hóa như training. Đây là lý do cần các kỹ thuật như speculative decoding hoặc continuous batching.

So sánh với các approach khác:

Đặc điểm	Autoregressive (GPT)	Masked LM (BERT)	Encoder-Decoder (T5)
Hướng nhìn	Chỉ trái (causal)	Hai chiều (bidirectional)	Encoder 2 chiều, Decoder causal
Nhiệm vụ	Generation (sinh text)	Understanding (classification, fill-in-blank)	Translation, summarization
Cách dùng	Dự đoán next token	Dự đoán token bị che (15%)	Encode input → Decode output
Tính autoregressive	Có (tất cả các token)	Không	Chỉ phần Decoder

BERT (Masked Language Modeling) học tốt hơn cho hiểu ngữ cảnh nhưng không thể sinh văn bản liên tục vì thiếu tính autoregressive trong inference. GPT "hi sinh" khả năng nhìn tương lai để đổi lấy khả năng sinh văn bản mạch lạc.

Đào sâu hơn

Paper gốc:

Attention Is All You Need — Vaswani et al., 2017. Giới thiệu Transformer và causal masking.
Language Models are Few-Shot Learners — Brown et al., 2020 (GPT-3). Chứng minh scaling laws của autoregressive pre-training.

Cùng cụm (Sequence Modeling):

Word2Vec & GloVe — Hiểu vector hóa từ ngữ trước khi có Transformer.
BPE, WordPiece, SentencePiece — Cách text được cắt thành token để model dự đoán.
Transformer Architecture — Bỏ recurrence, chỉ giữ Attention.
Self-Attention — Cơ chế "hỏi-đáp" giữa các token.
Masked Language Modeling — Cách BERT làm ngược lại: đoán từ bị che thay vì next-token.

Đọc tiếp:

Decoder-Only — Tại sao chỉ cần Decoder là đủ cho generation.
KV Cache — Tối ưu inference cho autoregressive models.
Attention Efficiency — Làm thế nào để attention nhanh hơn 3x mà vẫn giữ độ chính xác.
New Architectures — Mamba & SSMs: các thay thế cho Attention trong xử lý chuỗi dài.