Kế 30: Điều binh bằng khí hậu — Temperature Control
Kế 30 Binh pháp AI: Điều chỉnh temperature để cân bằng giữa sáng tạo và chính xác. Khi nào cần AI liều lĩnh, khi nào cần thận trọng.
Mở đầu: Khí hậu chiến trường
Tôn Tử dạy: "Địa lợi" là một trong năm yếu tố quyết định thắng bại. Nhưng địa lợi không chỉ là địa hình — còn là khí hậu. Thời tiết nóng lạnh, ẩm khô ảnh hưởng trực tiếp đến tinh thần quân sĩ và hiệu quả tác chiến. Tướng giỏi biết chọn thời điểm đánh, không chỉ dựa vào vị trí địa lý.
Trong AI, khí hậu chính là temperature — tham số điều chỉnh mức độ ngẫu nhiên (randomness) trong quá trình sinh văn bản. Temperature thấp = khí hậu "lạnh", AI trung thành với pattern quen thuộc. Temperature cao = khí hậu "nóng", AI sáng tạo, liều lĩnh, đôi khi bất ngờ.
Bối cảnh binh pháp: "Điều binh bằng khí hậu" không phải là thay đổi thời tiết thật — mà là chọn thời điểm, địa điểm, cách thức tác chiến phù hợp với điều kiện thời tiết. Tương tự, temperature control là chọn đúng "khí hậu" cho từng nhiệm vụ AI.
Vấn đề: Temperature sai, kết quả sai
Bạn có thể đã trải qua:
- Temperature quá thấp (0.0-0.2) cho brainstorming → AI lặp lại các ý cũ, không có gì mới mẻ
- Temperature quá cao (1.0+) cho fact-checking → AI bịa đặt thông tin, hallucination tăng
- Dùng cùng temperature cho mọi task → chưa "tinh chỉnh" công cụ cho đúng mục đích
Temperature hoạt động thế nào?
Khi LLM dự đoán token tiếp theo, nó tính probability distribution cho vocabulary. Temperature "điều chỉnh" distribution này:
- T = 0: Argmax — luôn chọn token có xác suất cao nhất. Deterministic.
- T = 0.7: Distribution gần gốc — cân bằng
- T = 1.0+: Distribution "phẳng" hơn — token ít likely hơn có cơ hội được chọn
Hiểu sai phổ biến: Temperature không phải là "thông minh hơn" hay "ngu hơn". Nó là creativity vs predictability. AI vẫn cùng một model, chỉ khác cách lấy mẫu từ distribution.
Kế sách: Chọn khí hậu cho từng trận
Temperature thấp (0.0-0.3): Trận định hình
Dùng khi cần chính xác, lặp lại được, ít sáng tạo:
- Trích xuất thông tin từ tài liệu
- Phân loại (classification)
- Format chuyển đổi (JSON, XML)
- Code generation cần chạy đúng
- Fact-checking, Q&A với ground truth
Ví dụ: "Trích xuất ngày tháng từ text sau. Trả về YYYY-MM-DD. Temperature: 0.1"Temperature trung bình (0.4-0.7): Trận cân bằng
Dùng khi cần vừa đúng vừa linh hoạt:
- Viết email, message
- Paraphrase, rewrite
- Tóm tắt văn bản
- Chatbot thông thường
Ví dụ: "Viết lại đoạn sau dễ hiểu hơn. Temperature: 0.6"Temperature cao (0.8-1.2+): Trận đột kích
Dùng khi cần sáng tạo, đa dạng, unexpected:
- Brainstorming ý tưởng
- Creative writing, storytelling
- Marketing copy, tagline
- Role-play, simulation
- "What if" scenarios
Ví dụ: "Brainstorm 20 tên sản phẩm mới cho dòng nước hoa nam. Temperature: 1.0"Kế nâng cao: Dynamic temperature
Theo giai đoạn workflow
Bước 1: Brainstorm (T=1.0) → 20 ý tưởng
Bước 2: Lọc (T=0.3) → chọn 3 ý tưởng tốt nhất
Bước 3: Phát triển (T=0.6) → viết chi tiết
Bước 4: Format (T=0.1) → chuyển thành JSONTheo kết quả intermediate
Nếu AI đang "lặp" (repetitive output), tăng T. Nếu AI đang "bay" (hallucinating), giảm T.
Multi-temperature ensemble
Chạy cùng prompt với 3 temperature khác nhau, chọn/kết hợp:
- T=0.2: "Safe" output
- T=0.7: "Balanced" output
- T=1.0: "Creative" output → Judge chọn hoặc hybrid.
Tại sao kế này hiệu quả?
Exploration vs Exploitation
Temperature thấp = exploitation (khai thác kiến thức có sẵn). Temperature cao = exploration (khám phá vùng không gian mới).
Chiến lược tối ưu trong RL (Reinforcement Learning) là điều chỉnh exploration/exploitation theo giai đoạn. Tương tự, AI prompting cần điều chỉnh theo giai đoạn task.
Top-p (Nucleus Sampling): Thay vì temperature, có thể dùng top-p để kiểm soát diversity. Top-p=0.9 nghĩa là chỉ lấy từ vocabulary chiếm 90% cumulative probability. Top-p thấp = conservative, cao = diverse.
Ứng dụng thực chiến
| Task | Temperature | Lý do |
|---|---|---|
| JSON schema generation | 0.0-0.2 | Phải chính xác, không được sai format |
| Unit test generation | 0.2-0.4 | Cần đúng logic, nhưng có thể linh hoạt tên biến |
| Email drafting | 0.5-0.7 | Cân bằng professionalism và natural flow |
| Blog brainstorming | 0.8-1.0 | Cần diversity, nhiều góc độ |
| Creative story | 1.0-1.2 | Maximize creativity, chấp nhận weirdness |
| Code refactoring | 0.3-0.5 | An toàn nhưng không quá rigid |
Ví dụ — Pipeline với dynamic T:
Task: Viết bài blog từ outline
Prompt 1 (Draft): "Viết bản thô từ outline" → T=0.8 (sáng tạo)
Prompt 2 (Edit): "Sửa grammar và flow" → T=0.2 (chính xác)
Prompt 3 (Polish): "Làm hay hơn" → T=0.6 (cân bằng)Đọc thêm
Kế 29: Biết lúc rút quân
Human-in-the-loop — khi temperature không giải quyết được vấn đề
Kế 31: Tam quân phối hợp
Multi-agent — điều nhiệt độ khác nhau cho từng chuyên gia
Kế 18: Tam cố thảo lư
Self-consistency — dùng nhiều run với cùng T để vote
Tổng kết: Temperature là "khí hậu" bạn điều khiển. Tướng giỏi không đánh trận dưới nắng gắt khi quân khát nước, cũng không để quân đói trong mưa bão. Chọn temperature phù hợp với mục tiêu — đó là nghệ thuật điều binh.
Kế 29: Biết lúc rút quân — Human-in-the-loop
Kế 29 Binh pháp AI: Khi nào dừng AI để chuyển quyền cho người. Chiến lược nhận diện 'vùng sương mù' và bảo toàn năng lực con người trước hiểm họa automation...
Kế 31: Tam quân phối hợp — Multi-agent mỗi AI một chuyên môn
Kế 31 Binh pháp AI: Thay vì một AI làm tất cả, dùng nhiều agent chuyên môn hóa (coder, reviewer, planner) phối hợp để giải quyết vấn đề phức tạp với độ chính...