Kế 30: Điều binh bằng khí hậu — Temperature Control

Kế 30 Binh pháp AI: Điều chỉnh temperature để cân bằng giữa sáng tạo và chính xác. Khi nào cần AI liều lĩnh, khi nào cần thận trọng.

Mở đầu: Khí hậu chiến trường

Tôn Tử dạy: "Địa lợi" là một trong năm yếu tố quyết định thắng bại. Nhưng địa lợi không chỉ là địa hình — còn là khí hậu. Thời tiết nóng lạnh, ẩm khô ảnh hưởng trực tiếp đến tinh thần quân sĩ và hiệu quả tác chiến. Tướng giỏi biết chọn thời điểm đánh, không chỉ dựa vào vị trí địa lý.

Trong AI, khí hậu chính là temperature — tham số điều chỉnh mức độ ngẫu nhiên (randomness) trong quá trình sinh văn bản. Temperature thấp = khí hậu "lạnh", AI trung thành với pattern quen thuộc. Temperature cao = khí hậu "nóng", AI sáng tạo, liều lĩnh, đôi khi bất ngờ.

Bối cảnh binh pháp: "Điều binh bằng khí hậu" không phải là thay đổi thời tiết thật — mà là chọn thời điểm, địa điểm, cách thức tác chiến phù hợp với điều kiện thời tiết. Tương tự, temperature control là chọn đúng "khí hậu" cho từng nhiệm vụ AI.

Vấn đề: Temperature sai, kết quả sai

Bạn có thể đã trải qua:

Temperature quá thấp (0.0-0.2) cho brainstorming → AI lặp lại các ý cũ, không có gì mới mẻ
Temperature quá cao (1.0+) cho fact-checking → AI bịa đặt thông tin, hallucination tăng
Dùng cùng temperature cho mọi task → chưa "tinh chỉnh" công cụ cho đúng mục đích

Temperature hoạt động thế nào?

Khi LLM dự đoán token tiếp theo, nó tính probability distribution cho vocabulary. Temperature "điều chỉnh" distribution này:

T = 0: Argmax — luôn chọn token có xác suất cao nhất. Deterministic.
T = 0.7: Distribution gần gốc — cân bằng
T = 1.0+: Distribution "phẳng" hơn — token ít likely hơn có cơ hội được chọn

Hiểu sai phổ biến: Temperature không phải là "thông minh hơn" hay "ngu hơn". Nó là creativity vs predictability. AI vẫn cùng một model, chỉ khác cách lấy mẫu từ distribution.

Kế sách: Chọn khí hậu cho từng trận

Temperature thấp (0.0-0.3): Trận định hình

Dùng khi cần chính xác, lặp lại được, ít sáng tạo:

Trích xuất thông tin từ tài liệu
Phân loại (classification)
Format chuyển đổi (JSON, XML)
Code generation cần chạy đúng
Fact-checking, Q&A với ground truth

Ví dụ: "Trích xuất ngày tháng từ text sau. Trả về YYYY-MM-DD. Temperature: 0.1"

Temperature trung bình (0.4-0.7): Trận cân bằng

Dùng khi cần vừa đúng vừa linh hoạt:

Viết email, message
Paraphrase, rewrite
Tóm tắt văn bản
Chatbot thông thường

Ví dụ: "Viết lại đoạn sau dễ hiểu hơn. Temperature: 0.6"

Temperature cao (0.8-1.2+): Trận đột kích

Dùng khi cần sáng tạo, đa dạng, unexpected:

Brainstorming ý tưởng
Creative writing, storytelling
Marketing copy, tagline
Role-play, simulation
"What if" scenarios

Ví dụ: "Brainstorm 20 tên sản phẩm mới cho dòng nước hoa nam. Temperature: 1.0"

Kế nâng cao: Dynamic temperature

Theo giai đoạn workflow

Bước 1: Brainstorm (T=1.0) → 20 ý tưởng
Bước 2: Lọc (T=0.3) → chọn 3 ý tưởng tốt nhất  
Bước 3: Phát triển (T=0.6) → viết chi tiết
Bước 4: Format (T=0.1) → chuyển thành JSON

Theo kết quả intermediate

Nếu AI đang "lặp" (repetitive output), tăng T. Nếu AI đang "bay" (hallucinating), giảm T.

Multi-temperature ensemble

Chạy cùng prompt với 3 temperature khác nhau, chọn/kết hợp:

T=0.2: "Safe" output
T=0.7: "Balanced" output
T=1.0: "Creative" output → Judge chọn hoặc hybrid.

Tại sao kế này hiệu quả?

Exploration vs Exploitation

Temperature thấp = exploitation (khai thác kiến thức có sẵn). Temperature cao = exploration (khám phá vùng không gian mới).

Chiến lược tối ưu trong RL (Reinforcement Learning) là điều chỉnh exploration/exploitation theo giai đoạn. Tương tự, AI prompting cần điều chỉnh theo giai đoạn task.

Top-p (Nucleus Sampling): Thay vì temperature, có thể dùng top-p để kiểm soát diversity. Top-p=0.9 nghĩa là chỉ lấy từ vocabulary chiếm 90% cumulative probability. Top-p thấp = conservative, cao = diverse.

Ứng dụng thực chiến

Task	Temperature	Lý do
JSON schema generation	0.0-0.2	Phải chính xác, không được sai format
Unit test generation	0.2-0.4	Cần đúng logic, nhưng có thể linh hoạt tên biến
Email drafting	0.5-0.7	Cân bằng professionalism và natural flow
Blog brainstorming	0.8-1.0	Cần diversity, nhiều góc độ
Creative story	1.0-1.2	Maximize creativity, chấp nhận weirdness
Code refactoring	0.3-0.5	An toàn nhưng không quá rigid

Ví dụ — Pipeline với dynamic T:

Task: Viết bài blog từ outline

Prompt 1 (Draft): "Viết bản thô từ outline" → T=0.8 (sáng tạo)
Prompt 2 (Edit): "Sửa grammar và flow" → T=0.2 (chính xác)  
Prompt 3 (Polish): "Làm hay hơn" → T=0.6 (cân bằng)