TROISINH
Chỉ huy tối thượngKế thống soái

Kế 30: Điều binh bằng khí hậu — Temperature Control

Kế 30 Binh pháp AI: Điều chỉnh temperature để cân bằng giữa sáng tạo và chính xác. Khi nào cần AI liều lĩnh, khi nào cần thận trọng.

Mở đầu: Khí hậu chiến trường

Tôn Tử dạy: "Địa lợi" là một trong năm yếu tố quyết định thắng bại. Nhưng địa lợi không chỉ là địa hình — còn là khí hậu. Thời tiết nóng lạnh, ẩm khô ảnh hưởng trực tiếp đến tinh thần quân sĩ và hiệu quả tác chiến. Tướng giỏi biết chọn thời điểm đánh, không chỉ dựa vào vị trí địa lý.

Trong AI, khí hậu chính là temperature — tham số điều chỉnh mức độ ngẫu nhiên (randomness) trong quá trình sinh văn bản. Temperature thấp = khí hậu "lạnh", AI trung thành với pattern quen thuộc. Temperature cao = khí hậu "nóng", AI sáng tạo, liều lĩnh, đôi khi bất ngờ.

Bối cảnh binh pháp: "Điều binh bằng khí hậu" không phải là thay đổi thời tiết thật — mà là chọn thời điểm, địa điểm, cách thức tác chiến phù hợp với điều kiện thời tiết. Tương tự, temperature control là chọn đúng "khí hậu" cho từng nhiệm vụ AI.

Vấn đề: Temperature sai, kết quả sai

Bạn có thể đã trải qua:

  • Temperature quá thấp (0.0-0.2) cho brainstorming → AI lặp lại các ý cũ, không có gì mới mẻ
  • Temperature quá cao (1.0+) cho fact-checking → AI bịa đặt thông tin, hallucination tăng
  • Dùng cùng temperature cho mọi task → chưa "tinh chỉnh" công cụ cho đúng mục đích

Temperature hoạt động thế nào?

Khi LLM dự đoán token tiếp theo, nó tính probability distribution cho vocabulary. Temperature "điều chỉnh" distribution này:

  • T = 0: Argmax — luôn chọn token có xác suất cao nhất. Deterministic.
  • T = 0.7: Distribution gần gốc — cân bằng
  • T = 1.0+: Distribution "phẳng" hơn — token ít likely hơn có cơ hội được chọn

Hiểu sai phổ biến: Temperature không phải là "thông minh hơn" hay "ngu hơn". Nó là creativity vs predictability. AI vẫn cùng một model, chỉ khác cách lấy mẫu từ distribution.

Kế sách: Chọn khí hậu cho từng trận

Temperature thấp (0.0-0.3): Trận định hình

Dùng khi cần chính xác, lặp lại được, ít sáng tạo:

  • Trích xuất thông tin từ tài liệu
  • Phân loại (classification)
  • Format chuyển đổi (JSON, XML)
  • Code generation cần chạy đúng
  • Fact-checking, Q&A với ground truth
Ví dụ: "Trích xuất ngày tháng từ text sau. Trả về YYYY-MM-DD. Temperature: 0.1"

Temperature trung bình (0.4-0.7): Trận cân bằng

Dùng khi cần vừa đúng vừa linh hoạt:

  • Viết email, message
  • Paraphrase, rewrite
  • Tóm tắt văn bản
  • Chatbot thông thường
Ví dụ: "Viết lại đoạn sau dễ hiểu hơn. Temperature: 0.6"

Temperature cao (0.8-1.2+): Trận đột kích

Dùng khi cần sáng tạo, đa dạng, unexpected:

  • Brainstorming ý tưởng
  • Creative writing, storytelling
  • Marketing copy, tagline
  • Role-play, simulation
  • "What if" scenarios
Ví dụ: "Brainstorm 20 tên sản phẩm mới cho dòng nước hoa nam. Temperature: 1.0"

Kế nâng cao: Dynamic temperature

Theo giai đoạn workflow

Bước 1: Brainstorm (T=1.0) → 20 ý tưởng
Bước 2: Lọc (T=0.3) → chọn 3 ý tưởng tốt nhất  
Bước 3: Phát triển (T=0.6) → viết chi tiết
Bước 4: Format (T=0.1) → chuyển thành JSON

Theo kết quả intermediate

Nếu AI đang "lặp" (repetitive output), tăng T. Nếu AI đang "bay" (hallucinating), giảm T.

Multi-temperature ensemble

Chạy cùng prompt với 3 temperature khác nhau, chọn/kết hợp:

  • T=0.2: "Safe" output
  • T=0.7: "Balanced" output
  • T=1.0: "Creative" output → Judge chọn hoặc hybrid.

Tại sao kế này hiệu quả?

Exploration vs Exploitation

Temperature thấp = exploitation (khai thác kiến thức có sẵn). Temperature cao = exploration (khám phá vùng không gian mới).

Chiến lược tối ưu trong RL (Reinforcement Learning) là điều chỉnh exploration/exploitation theo giai đoạn. Tương tự, AI prompting cần điều chỉnh theo giai đoạn task.

Top-p (Nucleus Sampling): Thay vì temperature, có thể dùng top-p để kiểm soát diversity. Top-p=0.9 nghĩa là chỉ lấy từ vocabulary chiếm 90% cumulative probability. Top-p thấp = conservative, cao = diverse.

Ứng dụng thực chiến

TaskTemperatureLý do
JSON schema generation0.0-0.2Phải chính xác, không được sai format
Unit test generation0.2-0.4Cần đúng logic, nhưng có thể linh hoạt tên biến
Email drafting0.5-0.7Cân bằng professionalism và natural flow
Blog brainstorming0.8-1.0Cần diversity, nhiều góc độ
Creative story1.0-1.2Maximize creativity, chấp nhận weirdness
Code refactoring0.3-0.5An toàn nhưng không quá rigid

Ví dụ — Pipeline với dynamic T:

Task: Viết bài blog từ outline

Prompt 1 (Draft): "Viết bản thô từ outline" → T=0.8 (sáng tạo)
Prompt 2 (Edit): "Sửa grammar và flow" → T=0.2 (chính xác)  
Prompt 3 (Polish): "Làm hay hơn" → T=0.6 (cân bằng)

Đọc thêm

Tổng kết: Temperature là "khí hậu" bạn điều khiển. Tướng giỏi không đánh trận dưới nắng gắt khi quân khát nước, cũng không để quân đói trong mưa bão. Chọn temperature phù hợp với mục tiêu — đó là nghệ thuật điều binh.

On this page