Agent Loop: Vòng lặp Observe → Think → Act → Feedback — Nhân tạo sự khác biệt giữa chatbot và agent tự chủ

Agent Loop là vòng lặp vô hạn của AI Agent: quan sát môi trường, suy nghĩ, hành động, rồi học hỏi từ kết quả. Hiểu rõ cơ chế này để phân biệt chatbot trả lời...

Agent Loop — hay vòng lặp Observe → Think → Act → Feedback — là cơ chế cốt lõi biến một mô hình ngôn ngữ (LLM) từ "người trả lời câu hỏi" thành "người làm việc tự chủ". Trong khi chatbot chỉ phản hồi một lần rồi dừng lại, agent thực thụ sống trong vòng lặp vô hạn: quan sát môi trường, suy nghĩ, hành động, rồi lại quan sát kết quả để điều chỉnh, lặp lại cho đến khi hoàn thành nhiệm vụ.

Giải thích chi tiết

Vòng lặp 4 giai đoạn

Một AI Agent thực thụ không bao giờ "trả lời xong rồi thôi". Nó chạy trong một vòng lặp vô hạn cho đến khi đạt mục tiêu hoặc gặp điều kiện dừng:

┌─────────────┐     ┌─────────────┐     ┌─────────────┐     ┌─────────────┐
│  Observe    │────→│   Think     │────→│    Act      │────→│  Feedback   │
│  (Quan sát) │     │  (Suy nghĩ) │     │ (Hành động) │     │ (Phản hồi)  │
└─────────────┘     └─────────────┘     └─────────────┘     └──────┬──────┘
                                                                  │
                                                                  ↓
                                                           (Lặp lại)
                                                                  │
┌─────────────────────────────────────────────────────────────────┘
↓

Observe: Agent "mở mắt" — đọc file trong repository, truy vấn database, nhận tin nhắn mới từ người dùng, hoặc kiểm tra kết quả lệnh vừa chạy. Đây là giai đoạn thu thập dữ liệu từ môi trường.

Think: Dựa trên dữ liệu vừa thu thập, agent lập kế hoạch: "Mình cần sửa file nào?", "Có nên chạy test không?", "Lỗi này là do thiếu thư viện hay syntax?". LLM đóng vai trò "bộ não" ở đây để ra quyết định.

Act: Agent thực thi hành động cụ thể — ghi file code, chạy lệnh terminal, gọi API thanh toán, hoặc gửi email. Đây là lúc agent tác động lên thế giới thực, không chỉ nói chuyện.

Feedback: Sau khi hành động, agent quan sát kết quả: test có pass không, API trả về lỗi 404 hay 200, người dùng có phản hồi gì không. Kết quả này trở thành input cho vòng lặp tiếp theo.

Tại sao không phải "hỏi-đáp một lần"?

Chatbot truyền thống (như ChatGPT ở chế độ mặc định) tuân theo mô hình Input → LLM → Output rồi dừng lại. Nó không có khả năng kiểm tra xem câu trả lời có thực sự giải quyết được vấn đề hay không, cũng không thể tự động lấy thêm thông tin nếu thiếu dữ liệu.

Agent Loop thì khác: nó là Input → Loop → Goal. Mỗi lần lặp là một "bước đi" trong không gian tìm kiếm giải pháp. Giống như lập trình viên không viết hết code 10.000 dòng trong một phút, agent cũng cần nhiều bước để hoàn thành task phức tạp.

Sức mạnh của iteration

Vòng lặp cho phép agent tự sửa lỗi. Ví dụ: Devin (AI software engineer) viết code → chạy test → thấy báo lỗi IndexError → quay lại bước Think để phân tích → Act bằng cách sửa boundary condition → Feedback bằng cách chạy test lại → thấy pass mới dừng. Không có vòng lặp, agent sẽ gửi code lỗi cho bạn và nói "tôi đã xong".

Ví dụ thực tế

ChatGPT (Assistant paradigm) Bạn hỏi: "Viết hàm tính Fibonacci bằng Python." ChatGPT trả về đoạn code, giải thích thuật toán, và cuộc hội thoại kết thúc. Nó không chạy thử code, không biết code có lỗi syntax không, và không tự động deploy lên server của bạn. Đây là zero-loop: nhận input, xuất output, dừng.

Devin (Agent paradigm) Bạn giao: "Tạo REST API endpoint cho phép user đăng ký tài khoản." Devin chạy vòng lặp:

Observe: Đọc README.md để hiểu tech stack hiện tại
Think: Quyết định cần tạo model User, viết migration, và endpoint POST /register
Act: Tạo file models.py với SQLAlchemy User model
Feedback: Chạy alembic revision --autogenerate, thấy lỗi import → quay lại bước 2
Observe: Đọc lỗi ImportError
Think: Nhận ra thiếu import Column từ SQLAlchemy
Act: Sửa file models.py, thêm import
Feedback: Chạy migration thành công, tạo được bảng User → Tiếp tục viết endpoint... Quá trình này kéo dài 20-50 vòng lặp, tự động commit code khi xong.

GitHub Copilot (Copilot paradigm) Bạn viết code, Copilot gợi ý dòng tiếp theo dựa trán context file hiện tại. Bạn nhấn Tab để chấp nhận (human Act) hoặc bỏ qua. Copilot không tự bấm Tab, không tự chạy compiler, và không tự sửa lỗi nếu code không compile. Con người đóng vai trò "cầu nối" giữa các bước trong vòng lặp.

Ứng dụng

Sinh viên học lập trình Dùng ChatGPT để giải thích khái niệm "recursion" (không cần loop — chỉ cần giải thích rõ). Nhưng khi cần refactor project 1000 dòng code Python thành TypeScript, dùng Claude Code (agent) — nó sẽ lặp qua từng file, kiểm tra type error từng bước, chạy test sau mỗi lần sửa, đảm bảo không phá vỡ chức năng cũ.

Developer làm việc hàng ngày Copilot giúp viết nhanh hơn khoảng 30-50% thời gian nhưng bạn vẫn phải tự chạy pytest, đọc log lỗi, rồi quay lại sửa code. Agent như Claude Code hoặc OpenClaw tự chạy test, tự đọc log, tự sửa lỗi qua 10-20 iteration — bạn chỉ intervent khi nó bí hoặc khi cần quyết định kiến trúc cao cấp.

Doanh nghiệp tự động hóa Chatbot FAQ chỉ trả lời "Sản phẩm A giá bao nhiêu?" rồi im. Agent xử lý đơn hàng thì lặp: kiểm tra inventory (Observe) → tính toán giá với khuyến mãi (Think) → tạo invoice trên Shopify (Act) → gửi email xác nhận cho khách (Feedback loop để xác nhận email đã gửi) → cập nhật Slack cho team vận chuyển.

So sánh

Đặc điểm	ChatGPT (Assistant)	GitHub Copilot (Copilot)	Devin/Claude Code (Agent)
Tự động hành động	Không — chỉ gợi ý text	Mờ nhạt — gợi ý code nhưng cần người bấm Tab	Có — tự ghi file, chạy lệnh, gọi API
Vòng lặp phản hồi	Không — trả lời 1 lần	Không — gợi ý 1 lần cho mỗi context	Có — tự động lặp 10-50 lần đến khi xong
Xử lý lỗi	Người dùng phát hiện lỗi và hỏi lại	Người dùng compile và fix	Tự phát hiện lỗi runtime và tự sửa
Trạng thái (State)	Quên hết sau mỗi turn (trừ khi có Memory)	Chỉ nhớ context file hiện tại	Duy trì session dài, nhớ plan và lỗi đã gặp
Ví dụ hành động	Viết email, giải thích code	Gợi ý hàm, autocomplete	Fix bug, deploy, refactor codebase

Kết luận: Agent Loop là đường biên giới rõ ràng nhất. Nếu hệ thống chỉ "nói" mà không "làm rồi kiểm tra lại", đó là Assistant. Nếu nó "làm từng bước nhỏ và tự điều chỉnh", đó là Agent.

Agent Loop: Vòng lặp Observe → Think → Act → Feedback — Nhân tạo sự khác biệt giữa chatbot và agent tự chủ

Giải thích chi tiết

Vòng lặp 4 giai đoạn

Tại sao không phải "hỏi-đáp một lần"?

Sức mạnh của iteration

Ví dụ thực tế

Ứng dụng

So sánh

Bài viết liên quan

Cùng cụm: Agent Fundamentals

AI Agent là gì? Khác gì chatbot thông thường

Giải phẫu một AI Agent: Perception → Reasoning → Action

Agent vs Assistant vs Copilot: Phân biệt 3 paradigm

Khi nào cần Agent? Khi nào chatbot là đủ?

Đọc tiếp

Các thành phần cốt lõi bên trong Agent

Bản đồ framework AI Agent 2026

Tài liệu mở rộng

On this page