TROISINH
Làm quen AgentThiết lập & Chạy agent đầu tiên

Chọn và cấu hình LLM provider: OpenAI, Anthropic, Ollama — Từ zero đến agent chạy được

Chọn và cấu hình LLM provider (OpenAI, Anthropic, Ollama) cho AI agent: So sánh chi phí, cài đặt local, và thiết lập API key. Hướng dẫn từ zero cho người mới.

Bạn đã cài đặt OpenClaw hoặc GoClaw, nhưng agent cứ báo lỗi "API key not found"? Hay đang phân vân giữa GPT-4, Claude 3.5 Sonnet, hay chạy Llama 3.2 local trên laptop cũ? Chọn sai provider không chỉ tốn tiền mà còn khiến agent chậm chạp hoặc rò rỉ dữ liệu — đặc biệt quan trọng trong bối cảnh tuân thủ AI Law 2026 tại Việt Nam.

Vấn đề

Thị trường LLM hiện nay là một "rừng nhiệt đới" endpoint: OpenAI với GPT-4o, Anthropic với Claude 3.5 Sonnet, Google Gemini, các model mã nguồn mở như Llama 3.2 hay Qwen 2.5, và giải pháp local qua Ollama. Người mới thường mắc phải analysis paralysis — dành 3 ngày so sánh benchmark nhưng bỏ qua yếu tố quyết định: chi phí thực tế trên từng token, độ trễ (latency) ảnh hưởng đến trải nghiệm chat, và yêu cầu bảo mật dữ liệu (đặc biệt khi triển khai agent xử lý dữ liệu khách hàng qua Zalo OA).

Các lỗi thường gặp ở Level 0:

  • Hardcode API key vào code, push lên GitHub → bị đánh cắp key trong 5 phút (theo ghi nhận từ các vụ SSRF trong nghiên cứu "A Systematic Taxonomy of Security Vulnerabilities").
  • Chọn GPT-4 cho tất cả task → bill đầu tháng 500 USD cho agent trả lời FAQ đơn giản.
  • Cấu hình Ollama sai Base URL → agent báo "connection refused" dù model đã tải về.

Ý tưởng cốt lõi

Cấu hình LLM provider không phải là "chọn một rồi gắn bó đến chết". Kiến trúc hiện đại (OpenClaw, GoClaw, hay LangChain) coi provider như một endpoint abstraction — bạn có thể hot-swap giữa OpenAI, Anthropic, hay Ollama chỉ bằng cách đổi biến môi trường.

The Provider Triangle: Chọn 1 trong 3 hướng

  1. Power Cloud (OpenAI/Anthropic): Dùng cho agent cần reasoning phức tạp, coding, hoặc multi-agent coordination. Chi phí cao nhưng độ chính xác cao.
  2. Fast & Cheap (GPT-3.5/Gemini Flash): Dùng cho tác vụ đơn giản: phân loại intent, tóm tắt ngắn, routing.
  3. Privacy/Offline (Ollama/LM Studio): Chạy local trên GPU/CPU. Phù hợp cho dữ liệu nhạy cảm (y tế, ngân hàng) theo yêu cầu AI Law 2026 Việt Nam về data sovereignty.

Cấu hình thực tế trong OpenClaw/GoClaw

Mẫu cấu hình SOUL.md (OpenClaw):

---
model: gpt-4o-mini
temperature: 0.7
max_tokens: 2000
---

Bạn là trợ lý khách hàng cho cửa hàng cà phê.

Mẫu environment variables (.env):

# OpenAI
OPENAI_API_KEY=sk-...

# Anthropic (Claude)
ANTHROPIC_API_KEY=sk-ant-...

# Ollama (Local)
OLLAMA_BASE_URL=http://localhost:11434
OLLAMA_MODEL=llama3.2

Điểm khác biệt runtime (theo kiến trúc GoClaw vs OpenClaw):

  • GoClaw (Golang) thường được cấu hình qua file YAML với goroutine pool để xử lý concurrent requests đến nhiều provider.
  • OpenClaw hỗ trợ "skill distribution channel" cho phép chọn provider per-skill.

Ollama cho thị trường Việt Nam

Với hạ tầng GPU còn hạn chế (theo Vietnam AI Readiness Report), Ollama cho phép chạy model nhỏ (3B-7B parameters) trên CPU hiện đại:

ollama run qwen2.5:3b  # Chạy được trên Mac M1 hoặc PC có 8GB RAM

Aha moment: Provider chỉ là một dòng URL và model name. Bạn có thể dev với GPT-4 (nhanh) nhưng production chuyển sang Ollama (miễn phí) cho các tác vụ không cần reasoning cao — chỉ bằng cách đổi biến env, không cần sửa code.

Tại sao nó hoạt động

Abstraction layer này hoạt động nhờ OpenAI-compatible API format — định dạng /v1/chat/completions đã trở thành "tiếng Anh" của LLM industry. Anthropic, Ollama, và nhiều provider khác đều hỗ trợ endpoint này, cho phép bạn dùng cùng một codebase với các client khác nhau.

Trade-offs:

Yếu tốOpenAI GPT-4oAnthropic Claude 3.5Ollama (Local)
Latency~500-800ms~600-1000ms~50-300ms (no network)
Cost (input/output per 1M tokens)5 USD/15 USD3 USD/15 USD0 USD (electricity)
Vietnamese contextTốtRất tốt (dài hơi)Phụ thuộc model (Qwen2.5 tốt hơn Llama)
Data privacyCloudCloud100% local
Tool use (MCP)NativeNativeGiới hạn

Kiến trúc bảo mật: Theo nguyên tắc "5-layer security", API key không nằm trong code mà được inject qua environment hoặc secret manager (AWS Secrets Manager, HashiCorp Vault). Điều này ngăn SSRF attack vector khi agent gọi tool bên ngoài.

Why Go vs Python runtime: GoClaw (viết bằng Go) có binary size nhỏ và khởi động nhanh, phù hợp cho deployment trên VPS giá rẻ tại Việt Nam (theo benchmarks của Nick Janetakis với Flask app 90 nghìn USD revenue trên 100 USD hosting).

Ý nghĩa thực tế

Chi phí thực tế cho agent Zalo OA: Giả sử bạn triển khai agent chăm sóc khách hàng qua Zalo, với 1000 tin nhắn/ngày, mỗi tin nhắn 500 tokens:

  • GPT-4o: ~300 USD/tháng.
  • GPT-4o-mini: ~15 USD/tháng — phù hợp startup Việt Nam.
  • Ollama (Qwen 2.5 7B): 0 USD nhưng cần server ~8GB RAM chạy 24/7 (chi phí điện + VPS ~20 USD/tháng).

Khi nào dùng cái nào:

  • OpenAI: Khi cần function calling chuẩn xác (MCP tools), vision (đọc ảnh), hoặc JSON mode strict.
  • Anthropic: Khi xử lý văn bản dài (200K context window), coding (Claude Code), hoặc cần "personality" ít "yes-man" hơn.
  • Ollama: Khi xử lý dữ liệu PII (Personal Identifiable Information) theo Nghị định AI 2026, hoặc khi triển khai ở vùng sâu với internet chập chờn.

Hạn chế:

  • Local LLM không thông minh bằng: 7B parameter model sẽ kém hiệu quả hơn GPT-4o rất nhiều trong multi-step reasoning. Đừng ép nó làm task phức tạp.
  • Context window: Ollama local thường giới hạn 4K-8K tokens, trong khi Claude hỗ trợ 200K.
  • Cold start: Ollama cần load model vào VRAM/RAM lần đầu (5-10 giây), trong khi API cloud luôn sẵn sàng.

Đào sâu hơn

Tài liệu chính thức:

  • OpenAI Platform — Console quản lý key và usage dashboard.
  • Anthropic Console — Test Claude với system prompts trước khi tích hợp.
  • Ollama Library — Tải model phù hợp (khuyến nghị qwen2.5 hoặc llama3.2 cho tiếng Việt).

Bài viết liên quan TroiSinh:

Cùng cụm (Getting Started):

Cài đặt OpenClaw

Cài đặt OpenClaw từ zero và chạy agent đầu tiên sau 5 phút.

Cài đặt GoClaw

Single binary, khởi động dưới 1 giây — lựa chọn cho VPS giá rẻ.

Viết SOUL.md đầu tiên

Định nghĩa personality và rules cho agent sau khi đã chọn xong provider.

Đọc tiếp:

Kết nối agent với messaging

Sau khi có provider, kết nối Telegram/Zalo/Discord cho agent.

Tối ưu chi phí

Prompt caching, model selection theo task, và rate limits để không bị "bill shock".

On this page