LLM — Bộ não của Agent: Reasoning, planning, decision

LLM là bộ não của AI Agent — giải thích cách model suy luận, lập kế hoạch và ra quyết định thay vì chỉ sinh văn bản. Khám phá reasoning, planning và tool sel...

Hãy tưởng tượng bạn đang xây dựng một nhân viên kỹ thuật số. Bạn có thể trang bị cho anh ta đầy đủ công cụ — truy cập database, khả năng gửi email, quyền deploy server — nhưng nếu không có bộ não để suy nghĩ, lập kế hoạch và ra quyết định, anh ta chỉ là một bộ máy rỗng biết tuân thủ mệnh lệnh cứng nhắc. Đó chính xác là vai trò của LLM (Large Language Model) trong kiến trúc Agent: nó là bộ não, trung tâm xử lý thông tin biến các công cụ thô sơ thành hành động thông minh.

Vấn đề

Trước đây, tự động hóa dựa trên rule-based systems — hệ thống luật if-then cứng nhắc. Nếu người dùng nói "tôi muốn đặt vé máy bay", hệ thống kiểm tra từ khóa "đặt vé" và kích hoạt workflow A. Nhưng thực tế là: "Tôi đang cân nhắc chuyến đi Hà Nội tuần sau, nhưng ngân sách có hạn, có lẽ tôi nên đặt vé tàu thay vì máy bay?"

Rule-based systems bị "nghẹt thở" trước sự mơ hồ của ngôn ngữ tự nhiên. Chúng cần lập trình viên dự đoán trước mọi kịch bản — điều bất khả thi trong thế giới thực đầy biến số. Kết quả là chatbot "ngu ngốc" chỉ hiểu đúng những gì đã được "gõ vào đầu" hoặc RPA chỉ xử lý được các tác vụ lặp lại cơ học, thất bại ngay khi gặp dữ liệu lệch một ký tự so với template.

Ý tưởng cốt lõi

LLM không chỉ là "máy sinh văn bản". Nó là một inference engine — động cơ suy luận — có khả năng xử lý ngữ cảnh, suy luận logic và đưa ra quyết định trong môi trường mở. Trong kiến trúc Agent, LLM đảm nhận ba chức năng chính: Reasoning (suy luận), Planning (lập kế hoạch), và Decision (ra quyết định).

Reasoning — Suy luận qua Chain-of-Thought

Thay vì nhảy từ input sang output, LLM tự "nghĩ ra suy nghĩ" ở giữa. Khi bạn yêu cầu agent "tính tổng chi phí dự án từ 5 file Excel khác nhau", LLM không mở ngay file đầu tiên tìm kiếm. Thay vào đó, nó tạo ra một chain of thought (dây suy nghĩ):

"Trước tiên tôi cần liệt kê các file, sau đó đọc từng file để tìm cột chi phí, tiếp theo trích xuất số liệu, cuối cùng tổng hợp."

Đây là quá trình reasoning — biến yêu cầu mơ hồ thành các bước logic cụ thể. Đáng chú ý là LLM có thể tự "nói chuyện với chính mình" qua nhiều turn để debug logic trước khi đưa ra quyết định cuối cùng.

Planning — Phân rã nhiệm vụ

Reasoning tạo ra ý tưởng, Planning tổ chức thực thi. LLM phân rã mục tiêu lớn thành đồ thị các subtask (task decomposition). Ví dụ: "Viết một ứng dụng web bán hàng" được phân rã thành:

Thiết kế schema database
Tạo API endpoints
Xây dựng frontend
Viết unit tests

Mỗi node trong đồ thị này là một "intent" mà agent sẽ thực hiện tuần tự hoặc song song. Planning cũng xác định dependencies — bước 3 không thể chạy trước bước 2, nhưng bước 1 và 2 có thể song song nếu có đủ tài nguyên.

Decision — Lựa chọn công cụ

Đây là khả năng biến suy nghĩ thành hành động. Trước mặt agent có 40+ công cụ (đọc file, chạy code, tìm Google, gửi Slack), LLM phải chọn đúng tool với đúng parameters. Nó phân tích ngữ cảnh:

"Người dùng hỏi về lỗi production hôm qua" → quyết định dùng tool đọc log thay vì tool viết code.

Decision cũng bao gồm việc biết khi nào dừng lại — agent nhận ra task đã hoàn thành hoặc khi nào cần nhờ người (human-in-the-loop).

Kiến trúc kết nối với các thành phần khác

LLM không đứng một mình. Nó nhận "nhân cách" từ SOUL.md (định nghĩa agent là ai), "ký ức" từ Memory (các cuộc hội thoại trước), và ra lệnh cho Tools (các bài sau). Nhưng chính LLM là bộ não trung tâm xử lý tất cả thông tin này để tạo ra "ý chí" — quyết định hành động tiếp theo.

Ví dụ cấu hình đơn giản trong OpenClaw/GoClaw:

# SOUL.md — định nghĩa "bộ não"
model: gpt-4o
temperature: 0.2  # Thấp để decision ổn định, không hallucinate
system_prompt: |
  Bạn là một kỹ sư DevOps senior. Khi xử lý incident:
  1. Suy luận (Reason): Xác định nguyên nhân gốc rễ từ log
  2. Lập kế hoạch (Plan): Liệt kê các bước fix theo thứ tự ưu tiên  
  3. Quyết định (Decide): Chọn tool phù hợp — chỉ dùng kubectl để xem pod, 
     dùng sed/awk để edit file config, không bao giờ dùng `rm -rf /`

Đây là khoảnh khắc "à ra vậy": LLM không chỉ trả lời câu hỏi, nó đang tạo ra chương trình thực thi — một kịch bản động được viết lại trong từng bước, thay vì chạy một script cố định.

Tại sao nó hoạt động

Sức mạnh của LLM nằm ở việc nó là một universal function approximator cho ngôn ngữ và logic. Khác với code truyền thống (deterministic — cùng input luôn cho cùng output), LLM là probabilistic — nó xử lý ambiguity bằng cách gán xác suất cho các khả năng khác nhau.

Trade-off chính:

Rule-based: Nhanh, deterministic, dễ debug, nhưng brittle — gãy ngay khi gặc edge case chưa lập trình.
LLM-based: Linh hoạt, xử lý được ngữ cảnh mới, nhưng non-deterministic (cùng yêu cầu có thể cho kết quả khác nhau), đắt (tính tiền token), chậm hơn (latency ~500ms-2s mỗi lần suy nghĩ).

Context window (thường 128K-200K tokens hiện nay) đóng vai trò như working memory (bộ nhớ làm việc) của não. Nó cho phép LLM giữ nguyên context dài hạn trong một phiên làm việc, nhưng cũng là điểm nghẽn — không thể nhét cả codebase 1 triệu dòng vào để suy luận cùng lúc, do đó cần kết hợp với RAG và Memory (sẽ đề cập ở các bài sau).

Ý nghĩa thực tế

Benchmark thực chiến: Trên WebArena (benchmark agent thực thi task web), agent dùng LLM với reasoning capability đạt ~43% success rate, trong khi rule-based chỉ ~12%. SWE-bench (sửa bug code) tăng từ 12.8% lên ~40% khi thêm reasoning loop (Claude 3.5 Sonnet, 2024).

Ai đang dùng:

Claude Code (Anthropic): Dùng Claude làm bộ não, tách biệt rõ "suy nghĩ" và "hành động".
OpenClaw: Mô hình LLM được bọc trong sandbox để decision không gây hại hệ thống host.
GitHub Copilot Workspace: LLM làm "architect" để planning trước khi code.

Hạn chế:

Hallucination: LLM có thể tưởng tượng ra tool không tồn tại hoặc quyết định sai trong chuỗi suy luận dài. Cần guardrails (pre-action hooks, validation layers) để kiểm soát.
Latency: Mỗi "suy nghĩ" mất vài giây, task phức tạp có thể kéo dài phút.
Cost: Reasoning và planning tiêu tốn nhiều token hơn simple generation (thường 3-5x).

Đào sâu hơn

Tài liệu chính thức:

Anthropic Claude System Prompt Guidelines — Cách thiết kế system prompt để định hướng reasoning và personality.

Cùng cụm (Core Components):

Chạy Agent đầu tiên — Bắt tay vào thực hành với bộ não đã có
Skill System nâng cao — Level 1: Cách "dạy" bộ não kỹ năng mới qua SKILL.md

Mở rộng:

Paper: "Reasoning with Language Models" — arXiv:2308.09124 (2023), phân tích cơ chế CoT.
Blog: "The Shift from Prompt Engineering to Context Engineering" — Su Wei, 2026.

LLM — Bộ não của Agent: Reasoning, planning, decision

Vấn đề

Ý tưởng cốt lõi

Reasoning — Suy luận qua Chain-of-Thought

Planning — Phân rã nhiệm vụ

Decision — Lựa chọn công cụ

Kiến trúc kết nối với các thành phần khác

Tại sao nó hoạt động

Ý nghĩa thực tế

Đào sâu hơn

Tools & Actions

Memory cho Agent

Planning & Reasoning

SOUL.md — Định nghĩa Agent

On this page