Giải phẫu một AI Agent: Perception → Reasoning → Action

Cấu trúc cốt lõi của AI Agent qua 3 thành phần: Perception (nhận thức), Reasoning (suy luận), Action (hành động). Hiểu rõ sự khác biệt với chatbot thông thường.

Tại sao ChatGPT chỉ trả lời câu hỏi nhưng Devin lại có thể viết cả ứng dụng web từ đầu đến cuối? Sự khác biệt nằm ở "cấu trúc giải phẫu" — không phải ở bộ não LLM, mà ở cách các thành phần kết nối để tạo thành vòng lặp liên tục. Hiểu rõ ba lớp Perception → Reasoning → Action giúp bạn phân biệt đâu là công cụ trò chuyện, đâu là tác nhân tự chủ thực sự.

Vấn đề

Khi người dùng lần đầu tiếp xúc với AI, họ thường nhầm lẫn giữa "trò chuyện" và "hành động". Bạn hỏi ChatGPT "Đặt vé máy bay đi Đà Nẵng", nó trả về hướng dẫn từng bước rất chi tiết — nhưng vé máy bay thì không có. Ngược lại, bạn kỳ vọng một "AI Agent" sẽ thực sự mở trình duyệt, đăng nhập Vietnam Airlines, chọn chuyến bay, điền thông tin thẻ và xác nhận đặt chỗ.

Sự thất vọng xuất phát từ việc không nhìn thấy ranh giới kiến trúc giữa hai loại hệ thống:

Chatbot/Assistant: Chỉ có "miệng" (text generation). Nhận input → xử lý qua LLM → trả output. Một chiều, tĩnh.
AI Agent: Có "giác quan", "não" và "tay chân". Nhận thông tin từ thế giới thực → suy luận → thay đổi thế giới → lặp lại.

Vấn đề là hầu hết tài liệu học thuật nói về Agent bằng thuật ngữ triết học (agentic AI, AGI) hoặc lập trình phức tạp (ReAct pattern, tool schemas) khiến người mới bị choáng ngợp. Chúng ta cần một cách giải thích trực quan hơn — giống như giải phẫu cơ thể người, để thấy rõ chức năng từng bộ phận.

Ý tưởng cốt lõi

AI Agent không phải là một "bộ não to hơn". Nó là ba lớp chuyên biệt kết nối thành vòng lặp:

┌─────────────┐     ┌─────────────┐     ┌─────────────┐
│  Perception │────→│   Reasoning │────→│    Action   │
│   (Nhận)    │     │   (Nghĩ)    │     │    (Làm)    │
└──────┬──────┘     └──────┬──────┘     └──────┬──────┘
       │                   │                   │
       └───────────────────┴───────────────────┘
                    (Feedback Loop)

Perception — Giác quan và cảm biến

Không chỉ là "đọc prompt". Perception là cách Agent tiếp nhận thông tin từ môi trường:

File System Sensor: Đọc code, log, PDF trong máy tính
Web Sensor: Truy cập API, crawl website, kiểm tra giá vé thực tế
Communication Sensor: Nhận webhook từ Slack, email mới đến, tin nhắn Telegram
Memory Sensor: Truy cập database vector (RAG) để "nhớ" thông tin cũ

Tưởng tượng như mắt và tai của con người: liên tục quét môi trường, không chờ người khác hỏi mới nhìn.

Reasoning — Não bộ lập kế hoạch

Đây là LLM (GPT-4, Claude, v.v.), nhưng được sử dụng theo cách chủ động thay vì phản ứng:

Planning: Chia task lớn thành sub-tasks ("Để đặt vé, tôi cần: 1) Tìm chuyến bay, 2) So sánh giá, 3) Điền form" )
Tool Selection: Quyết định dùng cảm biến nào ("Tôi cần gọi API Vietnam Airlines, không phải tìm trên Google")
Error Recovery: Khi Action thất bại (ví dụ API trả lỗi 500), Reasoning phải điều chỉnh kế hoạch ("Thử lại sau 5 giây hoặc chuyển sang Vietjet")

Điểm then chốt: Reasoning không chỉ "trả lời câu hỏi" mà là quyết định hành động tiếp theo dựa trên trạng thái thế giới hiện tại.

Action — Tay chân và hiệu ứng

Là phần Agent tác động lên thế giới, tạo ra thay đổi trạng thái (state change):

Code Execution: Chạy Python, gọi git commit, deploy Docker
API Calls: POST request đến payment gateway, tạo ticket Jira, gửi SMS
File Mutation: Viết code mới, xóa file log cũ, chỉnh sửa Excel
Communication: Gửi email phản hồi, reply Slack, cập nhật CRM

Khác với chatbot chỉ "nói", Action là "làm thật". Sau khi Action xong, thế giới đã khác — và điều này kích hoạt vòng lặp mới.

Vòng lặp liên tục (The Loop)

Đây là khoảnh khắc "à ra vậy":

Agent không dừng lại sau một lần Reasoning → Action. Nó quan sát kết quả của hành động mình vừa làm, rồi suy luận tiếp.

Ví dụ:

Perception: Đọc yêu cầu "Viết web bán hàng"
Reasoning: Quyết định "Tôi cần tạo file index.html trước"
Action: Ghi file index.html
Perception (lại): Kiểm tra file vừa ghi — phát hiện lỗi syntax CSS
Reasoning: "Tôi thiếu dấu } ở dòng 15, cần sửa"
Action: Sửa file
... lặp lại cho đến khi test pass ...

Chatbot không có bước 4-5-6. Nó dừng ở bước 2 (đưa ra code mẫu) và để người dùng tự copy-paste, tự kiểm tra lỗi. Agent thì tự chạy vòng lặp cho đến khi mục tiêu đạt được.

Tại sao nó hoạt động

Kiến trúc này hiệu quả vì ba nguyên lý:

Tách biệt mối lo ngại (Separation of Concerns) Bạn có thể nâng cấp "mắt" (thêm cảm biến mới đọc được PDF scan) mà không cần đổi "não" (vẫn dùng GPT-4). Hoặc thay "tay" — từ gọi API nội bộ chuyển sang dùng MCP server — mà không cần train lại LLM. Mỗi lớp là một interface độc lập.

Phản hồi thực tế (Grounding) Con người không hoạt động trong chân không. Khi bạn vặn ốc vít, bạn cảm nhận lực phản hồi để biết chặt hay chưa. Tương tự, Agent kiểm tra kết quả Action (file có ghi thành công không? API trả 200 hay 404?) để điều chỉnh. Điều này ngăn "hallucination" tích lũy — nếu sai, Perception sẽ phát hiện và Reasoning sửa ngay.

Mở rộng không giới hạn (Composability) Bạn có thể thêm vô số "công cụ" mới vào Action (theo chuẩn MCP hay OpenAPI) mà Agent tự học cách dùng qua description. Không cần fine-tune model. Đây là lý do Agent như Devin có thể xử lý task chưa từng gặp — nó tổng hợp tool cũ thành workflow mới.

Trade-off: Vòng lặp này tốn token và thời gian. Một chatbot trả lời 1 lần hết 500 token. Một Agent có thể chạy 20 vòng lặp, mỗi vòng 2000 token, tổng cộng 40.000 token cho cùng một câu hỏi. Đổi lại là kết quả chính xác và tự chủ.

Ý nghĩa thực tế

Hiểu rõ ba lớp này giúp bạn đặt đúng kỳ vọng và chọn đúng công cụ:

Đặc điểm	Chatbot (Assistant)	AI Agent
Perception	Chỉ nhận text chat	Đa kênh: file, API, web, database
Reasoning	Single-turn (hỏi-đáp)	Multi-turn loop (lập kế hoạch → sửa lỗi)
Action	Chỉ trả text	Thay đổi trạng thái: ghi file, gọi API, deploy
Ví dụ thực	ChatGPT trả lời "Cách đặt vé"	Devin tự viết và deploy code production
Khi nào dùng	FAQ, brainstorming, viết lách	Automation, xử lý ticket, lập trình end-to-end

Ví dụ thực chiến:

Customer Support Agent: Perception (đọc email khách hàng + query database đơn hàng) → Reasoning (quyết định refund hay gửi hàng mới) → Action (gọi API refund + gửi email xác nhận) → Perception (kiểm tra trạng thái refund thành công chưa).
Devin (Software Engineer Agent): Perception (clone repo, đọc issue) → Reasoning (phân tích architecture, chia tasks) → Action (viết code, chạy test) → Perception (đọc log lỗi) → Reasoning (debug) → Action (sửa code) → ... cho đến khi PR ready.

Giới hạn cần nhớ:

Không phải bài toán nào cũng cần Agent. Nếu câu trả lời là tĩnh (thời tiết, định nghĩa), chatbot đủ và rẻ hơn 20 lần.
Perception có thể bị "ảo giác" nếu tool trả về dữ liệu sai — và Reasoning sẽ tin theo, dẫn đến Action sai lầm (garbage in, garbage out).

Đào sâu hơn

Tài liệu gốc:

ReAct: Synergizing Reasoning and Acting in Language Models — Bài gốc định nghĩa mẫu hình Perception-Reasoning-Action
Anthropic: Building effective agents — Hướng dẫn thực hành từ nhóm phát triển Claude

Cùng cụm "Agent Fundamentals":

Giải phẫu một AI Agent: Perception → Reasoning → Action

Vấn đề

Ý tưởng cốt lõi

Perception — Giác quan và cảm biến

Reasoning — Não bộ lập kế hoạch

Action — Tay chân và hiệu ứng

Vòng lặp liên tục (The Loop)

Tại sao nó hoạt động

Ý nghĩa thực tế

Đào sâu hơn

AI Agent là gì? Khác gì chatbot thông thường

Agent vs Assistant vs Copilot

Agent Loop: Vòng lặp Observe → Think → Act

Tools và Actions: Cho agent đôi tay để hành động

Memory & Context: Não bộ mở rộng của agent

Bản đồ Framework 2026

On this page