Giải phẫu một AI Agent: Perception → Reasoning → Action
Cấu trúc cốt lõi của AI Agent qua 3 thành phần: Perception (nhận thức), Reasoning (suy luận), Action (hành động). Hiểu rõ sự khác biệt với chatbot thông thường.
Tại sao ChatGPT chỉ trả lời câu hỏi nhưng Devin lại có thể viết cả ứng dụng web từ đầu đến cuối? Sự khác biệt nằm ở "cấu trúc giải phẫu" — không phải ở bộ não LLM, mà ở cách các thành phần kết nối để tạo thành vòng lặp liên tục. Hiểu rõ ba lớp Perception → Reasoning → Action giúp bạn phân biệt đâu là công cụ trò chuyện, đâu là tác nhân tự chủ thực sự.
Vấn đề
Khi người dùng lần đầu tiếp xúc với AI, họ thường nhầm lẫn giữa "trò chuyện" và "hành động". Bạn hỏi ChatGPT "Đặt vé máy bay đi Đà Nẵng", nó trả về hướng dẫn từng bước rất chi tiết — nhưng vé máy bay thì không có. Ngược lại, bạn kỳ vọng một "AI Agent" sẽ thực sự mở trình duyệt, đăng nhập Vietnam Airlines, chọn chuyến bay, điền thông tin thẻ và xác nhận đặt chỗ.
Sự thất vọng xuất phát từ việc không nhìn thấy ranh giới kiến trúc giữa hai loại hệ thống:
- Chatbot/Assistant: Chỉ có "miệng" (text generation). Nhận input → xử lý qua LLM → trả output. Một chiều, tĩnh.
- AI Agent: Có "giác quan", "não" và "tay chân". Nhận thông tin từ thế giới thực → suy luận → thay đổi thế giới → lặp lại.
Vấn đề là hầu hết tài liệu học thuật nói về Agent bằng thuật ngữ triết học (agentic AI, AGI) hoặc lập trình phức tạp (ReAct pattern, tool schemas) khiến người mới bị choáng ngợp. Chúng ta cần một cách giải thích trực quan hơn — giống như giải phẫu cơ thể người, để thấy rõ chức năng từng bộ phận.
Ý tưởng cốt lõi
AI Agent không phải là một "bộ não to hơn". Nó là ba lớp chuyên biệt kết nối thành vòng lặp:
┌─────────────┐ ┌─────────────┐ ┌─────────────┐
│ Perception │────→│ Reasoning │────→│ Action │
│ (Nhận) │ │ (Nghĩ) │ │ (Làm) │
└──────┬──────┘ └──────┬──────┘ └──────┬──────┘
│ │ │
└───────────────────┴───────────────────┘
(Feedback Loop)Perception — Giác quan và cảm biến
Không chỉ là "đọc prompt". Perception là cách Agent tiếp nhận thông tin từ môi trường:
- File System Sensor: Đọc code, log, PDF trong máy tính
- Web Sensor: Truy cập API, crawl website, kiểm tra giá vé thực tế
- Communication Sensor: Nhận webhook từ Slack, email mới đến, tin nhắn Telegram
- Memory Sensor: Truy cập database vector (RAG) để "nhớ" thông tin cũ
Tưởng tượng như mắt và tai của con người: liên tục quét môi trường, không chờ người khác hỏi mới nhìn.
Reasoning — Não bộ lập kế hoạch
Đây là LLM (GPT-4, Claude, v.v.), nhưng được sử dụng theo cách chủ động thay vì phản ứng:
- Planning: Chia task lớn thành sub-tasks ("Để đặt vé, tôi cần: 1) Tìm chuyến bay, 2) So sánh giá, 3) Điền form" )
- Tool Selection: Quyết định dùng cảm biến nào ("Tôi cần gọi API Vietnam Airlines, không phải tìm trên Google")
- Error Recovery: Khi Action thất bại (ví dụ API trả lỗi 500), Reasoning phải điều chỉnh kế hoạch ("Thử lại sau 5 giây hoặc chuyển sang Vietjet")
Điểm then chốt: Reasoning không chỉ "trả lời câu hỏi" mà là quyết định hành động tiếp theo dựa trên trạng thái thế giới hiện tại.
Action — Tay chân và hiệu ứng
Là phần Agent tác động lên thế giới, tạo ra thay đổi trạng thái (state change):
- Code Execution: Chạy Python, gọi
git commit, deploy Docker - API Calls: POST request đến payment gateway, tạo ticket Jira, gửi SMS
- File Mutation: Viết code mới, xóa file log cũ, chỉnh sửa Excel
- Communication: Gửi email phản hồi, reply Slack, cập nhật CRM
Khác với chatbot chỉ "nói", Action là "làm thật". Sau khi Action xong, thế giới đã khác — và điều này kích hoạt vòng lặp mới.
Vòng lặp liên tục (The Loop)
Đây là khoảnh khắc "à ra vậy":
Agent không dừng lại sau một lần Reasoning → Action. Nó quan sát kết quả của hành động mình vừa làm, rồi suy luận tiếp.
Ví dụ:
- Perception: Đọc yêu cầu "Viết web bán hàng"
- Reasoning: Quyết định "Tôi cần tạo file
index.htmltrước" - Action: Ghi file
index.html - Perception (lại): Kiểm tra file vừa ghi — phát hiện lỗi syntax CSS
- Reasoning: "Tôi thiếu dấu
}ở dòng 15, cần sửa" - Action: Sửa file
- ... lặp lại cho đến khi test pass ...
Chatbot không có bước 4-5-6. Nó dừng ở bước 2 (đưa ra code mẫu) và để người dùng tự copy-paste, tự kiểm tra lỗi. Agent thì tự chạy vòng lặp cho đến khi mục tiêu đạt được.
Tại sao nó hoạt động
Kiến trúc này hiệu quả vì ba nguyên lý:
Tách biệt mối lo ngại (Separation of Concerns) Bạn có thể nâng cấp "mắt" (thêm cảm biến mới đọc được PDF scan) mà không cần đổi "não" (vẫn dùng GPT-4). Hoặc thay "tay" — từ gọi API nội bộ chuyển sang dùng MCP server — mà không cần train lại LLM. Mỗi lớp là một interface độc lập.
Phản hồi thực tế (Grounding) Con người không hoạt động trong chân không. Khi bạn vặn ốc vít, bạn cảm nhận lực phản hồi để biết chặt hay chưa. Tương tự, Agent kiểm tra kết quả Action (file có ghi thành công không? API trả 200 hay 404?) để điều chỉnh. Điều này ngăn "hallucination" tích lũy — nếu sai, Perception sẽ phát hiện và Reasoning sửa ngay.
Mở rộng không giới hạn (Composability) Bạn có thể thêm vô số "công cụ" mới vào Action (theo chuẩn MCP hay OpenAPI) mà Agent tự học cách dùng qua description. Không cần fine-tune model. Đây là lý do Agent như Devin có thể xử lý task chưa từng gặp — nó tổng hợp tool cũ thành workflow mới.
Trade-off: Vòng lặp này tốn token và thời gian. Một chatbot trả lời 1 lần hết 500 token. Một Agent có thể chạy 20 vòng lặp, mỗi vòng 2000 token, tổng cộng 40.000 token cho cùng một câu hỏi. Đổi lại là kết quả chính xác và tự chủ.
Ý nghĩa thực tế
Hiểu rõ ba lớp này giúp bạn đặt đúng kỳ vọng và chọn đúng công cụ:
| Đặc điểm | Chatbot (Assistant) | AI Agent |
|---|---|---|
| Perception | Chỉ nhận text chat | Đa kênh: file, API, web, database |
| Reasoning | Single-turn (hỏi-đáp) | Multi-turn loop (lập kế hoạch → sửa lỗi) |
| Action | Chỉ trả text | Thay đổi trạng thái: ghi file, gọi API, deploy |
| Ví dụ thực | ChatGPT trả lời "Cách đặt vé" | Devin tự viết và deploy code production |
| Khi nào dùng | FAQ, brainstorming, viết lách | Automation, xử lý ticket, lập trình end-to-end |
Ví dụ thực chiến:
-
Customer Support Agent: Perception (đọc email khách hàng + query database đơn hàng) → Reasoning (quyết định refund hay gửi hàng mới) → Action (gọi API refund + gửi email xác nhận) → Perception (kiểm tra trạng thái refund thành công chưa).
-
Devin (Software Engineer Agent): Perception (clone repo, đọc issue) → Reasoning (phân tích architecture, chia tasks) → Action (viết code, chạy test) → Perception (đọc log lỗi) → Reasoning (debug) → Action (sửa code) → ... cho đến khi PR ready.
Giới hạn cần nhớ:
- Không phải bài toán nào cũng cần Agent. Nếu câu trả lời là tĩnh (thời tiết, định nghĩa), chatbot đủ và rẻ hơn 20 lần.
- Perception có thể bị "ảo giác" nếu tool trả về dữ liệu sai — và Reasoning sẽ tin theo, dẫn đến Action sai lầm (garbage in, garbage out).
Đào sâu hơn
Tài liệu gốc:
- ReAct: Synergizing Reasoning and Acting in Language Models — Bài gốc định nghĩa mẫu hình Perception-Reasoning-Action
- Anthropic: Building effective agents — Hướng dẫn thực hành từ nhóm phát triển Claude
Cùng cụm "Agent Fundamentals":
AI Agent là gì? Khác gì chatbot thông thường
Định nghĩa tổng quan và phân biệt agent với các dạng AI khác
Agent vs Assistant vs Copilot
So sánh chi tiết 3 paradigm: Devin, ChatGPT, GitHub Copilot
Agent Loop: Vòng lặp Observe → Think → Act
Đi sâu vào cơ chế vòng lặp phản hồi giữa các lớp
Đọc tiếp (Core Components):
Tools và Actions: Cho agent đôi tay để hành động
Chi tiết kỹ thuật về cách Agent thực thi tác động lên thế giới
Memory & Context: Não bộ mở rộng của agent
Cách Agent lưu trữ và truy xuất thông tin qua nhiều phiên làm việc
Bản đồ Framework 2026
Tổng quan các công cụ để xây dựng agent với kiến trúc 3 lớp
AI Agent là gì? Khác gì chatbot thông thường — Từ ChatGPT đến Devin
Phân biệt rõ AI Agent, chatbot và assistant. Hiểu vòng lặp Observe-Think-Act và tại sao agent có thể tự đặt vé máy bay còn chatbot chỉ trả lời câu hỏi.
Agent vs Assistant vs Copilot: Phân biệt 3 paradigm AI đang thống trị 2026
Phân biệt rõ 3 khái niệm Agent tự chủ, Assistant phản ứng và Copilot hỗ trợ. Hiểu đúng để chọn công cụ AI phù hợp cho từng bài toán thực tế.