Agentic AI & Tool Use — LLM gọi function, plan multi-step, hành động tự chủ

Hiểu bản chất Agentic AI: LLM không chỉ sinh text mà tự chủ gọi API, lập kế hoạch đa bước và học từ phản hồi qua vòng lặp Perceive-Reason-Act-Learn.

Enterprise adoption đã đạt 35% vào năm 2023 với 44% doanh nghiệp đang lên kế hoạch triển khai — Agentic AI đang chuyển LLM từ "bộ não trong lọ" chỉ biết sinh text sang hệ thống tự chủ có khả năng gọi API, thao tác database và lập kế hoạch đa bước để hoàn thành mục tiêu. Khác với RPA (Robotic Process Automation) dễ gãy khi UI thay đổi, Agentic AI kết hợp hiểu ngữ nghĩa của LLM với thực thi xác định của tool để tạo ra automation thích ứng thực sự.

Định nghĩa

Agentic AI là paradigm nơi LLM vận hành trong hệ thống khép kín Perceive → Reason → Act → Learn, tự động gọi các công cụ xác định (API, database, code execution) để hoàn thành mục tiêu đa bước mà không cần con người can thiệp từng bước. Đây là sự chuyển dịch từ "static prediction" sang "autonomous action" — LLM trở thành semantic glue giữa ý định con người và interface máy móc.

Giải thích chi tiết

Vấn đề: Static Brain vs. Brittle Automation

Traditional GenAI là brain in a jar — kiến thức cắt ngày training, không tương tác môi trường. Bạn có thể hỏi nó về thời tiết, nhưng nó không thể thực sự mở app Weather để kiểm tra. Mặt khác, RPA (Robotic Process Automation) dựa trên hard-coded scripts: nếu button "Submit" dịch chuyển 5 pixel hoặc API thay đổi schema, toàn bộ workflow sập đổi.

Agentic AI giải quyết khoảng trống này bằng vòng lặp khép kín: LLM hiểu ngữ cảnh và lập kế hoạch, còn tools xử lý thực thi xác định. Kết quả là automation thích ứng — có thể xử lý trang web động, API thay đổi, và tình huống không lường trước.

Ý tưởng cốt lõi: Semantic Glue và ReAct Loop

Insight cốt lõi khiến Agentic AI hoạt động: LLM là dịch giả ngữ nghĩa xuất sắc giữa intent con người và machine interface, dù bản thân LLM rất tệ ở tính toán chính xác. Hãy tưởng tượng LLM như CEO không biết code nhưng biết chính xác kỹ sư nào cần gọi và cách diễn giải báo cáo kỹ thuật.

Structured Tool Calling là cơ chế then chốt. Thay vì sinh text tự do, LLM output JSON/XML schema chuẩn hóa để invoke function. Điều này tách biệt "what to do" (lý do, chiến lược) khỏi "how to execute" (implementation chi tiết). Ví dụ: khi bạn yêu cầu "đặt vé máy bay đi Đà Nẵng", LLM không đoán giá vé mà gọi search_flights(destination="DAD"), nhận về JSON kết quả, rồi dùng thông tin đó để quyết định tiếp theo.

ReAct Loop (Reasoning + Acting) định nghĩa lại cách agent tương tác thế giới. Thay vì viết toàn bộ kế hoạch trước rồi mới hành động, agent xen kẽ lý luận (Chain-of-Thought) và hành động (tool execution):

Thought: "Tôi cần biết thời tiết Đà Nẵng để tư vấn trang phục"
Action: Gọi get_weather(city="Da Nang")
Observation: API trả về {"temp": 35, "rain": false}
Thought: "Nắng nóng, cần khuyên mang theo kem chống nắng"

Đây là "aha moment" — mỗi observation từ tool feed back vào context window, grounding lý luận tiếp theo trong dữ liệu thực chứ không phải hallucination. Agent không cần nhớ tất cả kiến thức thế giới; nó chỉ cần biết tra cứu đâu và xử lý thông tin gì trả về.

Planning & Decomposition: Với mục tiêu phức tạp như "lập báo cáo tài chính Q3", agent dùng tree-search hoặc Monte Carlo Tree Search (MCTS) để phân rã thành subtasks: truy vấn database → tính toán metrics → generate visualization → viết nhận xét → gửi email. Đây không phải một prompt dài, mà là chuỗi quyết định động có thể backtrack khi gặp lỗi.

Memory Systems cho phép học dài hạn:

Working memory: Conversation context hiện tại
Long-term memory: Vector stores lưu trữ tương tác quá khứ, preferences người dùng
Procedural memory: "Skills" — workflow đóng gói với applicability conditions (ví dụ: skill "book_flight" chỉ trigger khi detect intent đặt vé)

Multi-Agent Orchestration: Trong hệ thống phức tạp, agent đơn lẻ được thay bằng kiến trúc tổ chức:

Vertical: Conductor LLM giám sát nhiều worker chuyên biệt (researcher, coder, writer)
Horizontal: Swarm peer-to-peer coordination qua message passing

Đây là nền tảng của cụm multi-agent — system design patterns thay vì monolithic models.

Tại sao nó hoạt động: Grounding và Composability

Toán học đằng sau Agentic AI là vòng lặp khép kín với deterministic feedback. Khi agent gọi tool, nó nhận observation xác định (binary pass/fail hoặc structured data) thay vì phỏng đoán. Điều này giảm hallucination vì lý luận được neo vào facts từ môi trường.

Tuy nhiên, error compounding là rủi ro toán học nghiêm trọng: nếu mỗi bước chính xác 90%, chuỗi 10 bước chỉ còn ~35% success rate (0.9^10). Đây là lý do planning và verification quan trọng — agent cần khả năng backtrack và self-correction khi observation cho thấy lỗi.

Ví dụ thực tế

1. MoA Aggregation Pipeline với Tool Verification Trong Mixture of Agents, proposer agents sinh response song song cho cùng một prompt. Aggregator agent không chỉ voting mà dùng tool use để verify facts: gọi search API kiểm chứng số liệu, chạy code interpreter validate calculation, rồi mới tổng hợp final answer. Đây là ví dụ tool use trong môi trường multi-agent để nâng cao reliability.

2. Agent Planning Loop trong AutoGPT AutoGPT thực hiện lập kế hoạch đa bước động: "Tìm thông tin thời tiết" → gọi weather API → phân tích dữ liệu bằng Python interpreter (tool) → "So sánh với lịch sử" → query SQL database → "Viết email cảnh báo" → gọi send_mail function. Mỗi bước decision dựa trên kết quả thực tế của bước trước, tạo execution graph adapt với context.

3. Salesforce Agentforce với CRM Tool Use Salesforce Agentforce cho phép agent gọi CRM API để cập nhật lead status, đọc database qua SQL tool, và gửi Slack notification — tất cả qua function calling schema chuẩn hóa. Agent có thể thực hiện chuỗi 5-20 bước (tau-bench complexity) để hoàn thành "qualify lead và schedule demo", với state tracking xuyên suốt workflow.

Ứng dụng

Doanh nghiệp:

Salesforce Agentforce, Microsoft Copilot Studio, ServiceNow Now Assist — tự động hóa workflow nghiệp vụ phức tạp từ helpdesk đến sales pipeline.
SWE-bench agents: Tự động sửa bug GitHub với SOTA ~20-40% resolution rate trên real issues, dùng tool use để đọc codebase, chạy tests, và submit PR.

Developer:

LangChain, AutoGen, CrewAI — frameworks cho phép orchestrate multi-agent systems với tool integration.
Claude Computer Use: Anthropic cho phép Claude điều khiển desktop environment qua screenshot và keyboard/mouse actions.

Người dùng cuối:

OpenAI Operator: Đặt vé máy bay, mua hàng trên web qua tool use và browser automation.

Hạn chế thực tế:

Error Compounding: Multi-step chain dễ tích lũy lỗi; cần robust verification mechanisms.
Latency/Cost: N lần gọi LLM sequential thay vì 1 lần, tăng đáng kể thời gian và chi phí inference.
Security: "ClawHavoc attack" — malicious skills trong marketplace có thể exfiltrate credentials qua prompt injection trong tool outputs.
Tool Brittleness: Schema thay đổi làm agent gãy, không tự động adapt như con người.
Evaluation Gap: Hầu hết benchmarks (tau-bench, BFCL) chỉ test atomic tool use, chưa đo lường long-horizon adaptation (hundreds of steps).

So sánh

Tiêu chí	Static LLM (ChatGPT thuần)	RPA (Traditional Automation)	Agentic AI
Tương tác môi trường	Không (chỉ sinh text)	Cứng nhắc (UI-based, hard-coded)	Linh hoạt (API/Tool, semantic understanding)
Xử lý ngữ nghĩa	Xuất sắc	Không có	Tốt (kết hợp LLM + deterministic tools)
Brittleness	N/A (không tương tác)	Cao (gãy khi UI đổi 1 pixel)	Trung bình (sensible đến schema changes, cần maintenance)
Lập kế hoạch	Single-turn, static	Hard-coded sequence	Multi-step, adaptive (tree-search, MCTS)
Cost inference	Thấp (1 call)	Trung bình	Cao (N sequential calls)
Ví dụ benchmark	MMLU, HumanEval	N/A	tau-bench (multi-step), BFCL (function calling), SWE-bench

Kết luận: Agentic AI là bước tiến hóa từ "text generator" sang "autonomous system" có khả năng tác động thực sự lên thế giới, nhưng trade-off là complexity, cost, và rủi ro error propagation. Đây là công nghệ frontier đang định hình lại automation từ script-based sang intent-based.