TROISINH
Làm quen AgentAI Agent là gì?

Giải phẫu một AI Agent: Perception → Reasoning → Action

Cấu trúc cốt lõi của AI Agent qua 3 thành phần: Perception (nhận thức), Reasoning (suy luận), Action (hành động). Hiểu rõ sự khác biệt với chatbot thông thường.

Tại sao ChatGPT chỉ trả lời câu hỏi nhưng Devin lại có thể viết cả ứng dụng web từ đầu đến cuối? Sự khác biệt nằm ở "cấu trúc giải phẫu" — không phải ở bộ não LLM, mà ở cách các thành phần kết nối để tạo thành vòng lặp liên tục. Hiểu rõ ba lớp Perception → Reasoning → Action giúp bạn phân biệt đâu là công cụ trò chuyện, đâu là tác nhân tự chủ thực sự.

Vấn đề

Khi người dùng lần đầu tiếp xúc với AI, họ thường nhầm lẫn giữa "trò chuyện" và "hành động". Bạn hỏi ChatGPT "Đặt vé máy bay đi Đà Nẵng", nó trả về hướng dẫn từng bước rất chi tiết — nhưng vé máy bay thì không có. Ngược lại, bạn kỳ vọng một "AI Agent" sẽ thực sự mở trình duyệt, đăng nhập Vietnam Airlines, chọn chuyến bay, điền thông tin thẻ và xác nhận đặt chỗ.

Sự thất vọng xuất phát từ việc không nhìn thấy ranh giới kiến trúc giữa hai loại hệ thống:

  • Chatbot/Assistant: Chỉ có "miệng" (text generation). Nhận input → xử lý qua LLM → trả output. Một chiều, tĩnh.
  • AI Agent: Có "giác quan", "não" và "tay chân". Nhận thông tin từ thế giới thực → suy luận → thay đổi thế giới → lặp lại.

Vấn đề là hầu hết tài liệu học thuật nói về Agent bằng thuật ngữ triết học (agentic AI, AGI) hoặc lập trình phức tạp (ReAct pattern, tool schemas) khiến người mới bị choáng ngợp. Chúng ta cần một cách giải thích trực quan hơn — giống như giải phẫu cơ thể người, để thấy rõ chức năng từng bộ phận.

Ý tưởng cốt lõi

AI Agent không phải là một "bộ não to hơn". Nó là ba lớp chuyên biệt kết nối thành vòng lặp:

┌─────────────┐     ┌─────────────┐     ┌─────────────┐
│  Perception │────→│   Reasoning │────→│    Action   │
│   (Nhận)    │     │   (Nghĩ)    │     │    (Làm)    │
└──────┬──────┘     └──────┬──────┘     └──────┬──────┘
       │                   │                   │
       └───────────────────┴───────────────────┘
                    (Feedback Loop)

Perception — Giác quan và cảm biến

Không chỉ là "đọc prompt". Perception là cách Agent tiếp nhận thông tin từ môi trường:

  • File System Sensor: Đọc code, log, PDF trong máy tính
  • Web Sensor: Truy cập API, crawl website, kiểm tra giá vé thực tế
  • Communication Sensor: Nhận webhook từ Slack, email mới đến, tin nhắn Telegram
  • Memory Sensor: Truy cập database vector (RAG) để "nhớ" thông tin cũ

Tưởng tượng như mắt và tai của con người: liên tục quét môi trường, không chờ người khác hỏi mới nhìn.

Reasoning — Não bộ lập kế hoạch

Đây là LLM (GPT-4, Claude, v.v.), nhưng được sử dụng theo cách chủ động thay vì phản ứng:

  • Planning: Chia task lớn thành sub-tasks ("Để đặt vé, tôi cần: 1) Tìm chuyến bay, 2) So sánh giá, 3) Điền form" )
  • Tool Selection: Quyết định dùng cảm biến nào ("Tôi cần gọi API Vietnam Airlines, không phải tìm trên Google")
  • Error Recovery: Khi Action thất bại (ví dụ API trả lỗi 500), Reasoning phải điều chỉnh kế hoạch ("Thử lại sau 5 giây hoặc chuyển sang Vietjet")

Điểm then chốt: Reasoning không chỉ "trả lời câu hỏi" mà là quyết định hành động tiếp theo dựa trên trạng thái thế giới hiện tại.

Action — Tay chân và hiệu ứng

Là phần Agent tác động lên thế giới, tạo ra thay đổi trạng thái (state change):

  • Code Execution: Chạy Python, gọi git commit, deploy Docker
  • API Calls: POST request đến payment gateway, tạo ticket Jira, gửi SMS
  • File Mutation: Viết code mới, xóa file log cũ, chỉnh sửa Excel
  • Communication: Gửi email phản hồi, reply Slack, cập nhật CRM

Khác với chatbot chỉ "nói", Action là "làm thật". Sau khi Action xong, thế giới đã khác — và điều này kích hoạt vòng lặp mới.

Vòng lặp liên tục (The Loop)

Đây là khoảnh khắc "à ra vậy":

Agent không dừng lại sau một lần Reasoning → Action. Nó quan sát kết quả của hành động mình vừa làm, rồi suy luận tiếp.

Ví dụ:

  1. Perception: Đọc yêu cầu "Viết web bán hàng"
  2. Reasoning: Quyết định "Tôi cần tạo file index.html trước"
  3. Action: Ghi file index.html
  4. Perception (lại): Kiểm tra file vừa ghi — phát hiện lỗi syntax CSS
  5. Reasoning: "Tôi thiếu dấu } ở dòng 15, cần sửa"
  6. Action: Sửa file
  7. ... lặp lại cho đến khi test pass ...

Chatbot không có bước 4-5-6. Nó dừng ở bước 2 (đưa ra code mẫu) và để người dùng tự copy-paste, tự kiểm tra lỗi. Agent thì tự chạy vòng lặp cho đến khi mục tiêu đạt được.

Tại sao nó hoạt động

Kiến trúc này hiệu quả vì ba nguyên lý:

Tách biệt mối lo ngại (Separation of Concerns) Bạn có thể nâng cấp "mắt" (thêm cảm biến mới đọc được PDF scan) mà không cần đổi "não" (vẫn dùng GPT-4). Hoặc thay "tay" — từ gọi API nội bộ chuyển sang dùng MCP server — mà không cần train lại LLM. Mỗi lớp là một interface độc lập.

Phản hồi thực tế (Grounding) Con người không hoạt động trong chân không. Khi bạn vặn ốc vít, bạn cảm nhận lực phản hồi để biết chặt hay chưa. Tương tự, Agent kiểm tra kết quả Action (file có ghi thành công không? API trả 200 hay 404?) để điều chỉnh. Điều này ngăn "hallucination" tích lũy — nếu sai, Perception sẽ phát hiện và Reasoning sửa ngay.

Mở rộng không giới hạn (Composability) Bạn có thể thêm vô số "công cụ" mới vào Action (theo chuẩn MCP hay OpenAPI) mà Agent tự học cách dùng qua description. Không cần fine-tune model. Đây là lý do Agent như Devin có thể xử lý task chưa từng gặp — nó tổng hợp tool cũ thành workflow mới.

Trade-off: Vòng lặp này tốn token và thời gian. Một chatbot trả lời 1 lần hết 500 token. Một Agent có thể chạy 20 vòng lặp, mỗi vòng 2000 token, tổng cộng 40.000 token cho cùng một câu hỏi. Đổi lại là kết quả chính xác và tự chủ.

Ý nghĩa thực tế

Hiểu rõ ba lớp này giúp bạn đặt đúng kỳ vọng và chọn đúng công cụ:

Đặc điểmChatbot (Assistant)AI Agent
PerceptionChỉ nhận text chatĐa kênh: file, API, web, database
ReasoningSingle-turn (hỏi-đáp)Multi-turn loop (lập kế hoạch → sửa lỗi)
ActionChỉ trả textThay đổi trạng thái: ghi file, gọi API, deploy
Ví dụ thựcChatGPT trả lời "Cách đặt vé"Devin tự viết và deploy code production
Khi nào dùngFAQ, brainstorming, viết láchAutomation, xử lý ticket, lập trình end-to-end

Ví dụ thực chiến:

  • Customer Support Agent: Perception (đọc email khách hàng + query database đơn hàng) → Reasoning (quyết định refund hay gửi hàng mới) → Action (gọi API refund + gửi email xác nhận) → Perception (kiểm tra trạng thái refund thành công chưa).

  • Devin (Software Engineer Agent): Perception (clone repo, đọc issue) → Reasoning (phân tích architecture, chia tasks) → Action (viết code, chạy test) → Perception (đọc log lỗi) → Reasoning (debug) → Action (sửa code) → ... cho đến khi PR ready.

Giới hạn cần nhớ:

  • Không phải bài toán nào cũng cần Agent. Nếu câu trả lời là tĩnh (thời tiết, định nghĩa), chatbot đủ và rẻ hơn 20 lần.
  • Perception có thể bị "ảo giác" nếu tool trả về dữ liệu sai — và Reasoning sẽ tin theo, dẫn đến Action sai lầm (garbage in, garbage out).

Đào sâu hơn

Tài liệu gốc:

Cùng cụm "Agent Fundamentals":

AI Agent là gì? Khác gì chatbot thông thường

Định nghĩa tổng quan và phân biệt agent với các dạng AI khác

Agent vs Assistant vs Copilot

So sánh chi tiết 3 paradigm: Devin, ChatGPT, GitHub Copilot

Agent Loop: Vòng lặp Observe → Think → Act

Đi sâu vào cơ chế vòng lặp phản hồi giữa các lớp

Đọc tiếp (Core Components):

Tools và Actions: Cho agent đôi tay để hành động

Chi tiết kỹ thuật về cách Agent thực thi tác động lên thế giới

Memory & Context: Não bộ mở rộng của agent

Cách Agent lưu trữ và truy xuất thông tin qua nhiều phiên làm việc

Bản đồ Framework 2026

Tổng quan các công cụ để xây dựng agent với kiến trúc 3 lớp

On this page