Tối ưu Harness: Đo lường và cải thiện hiệu suất

Đo lường và tối ưu Harness AI Agent: phân tích Claude Code leaked source, Meta-Harness framework, và cách tăng hiệu suất 64% mà không cần đổi model.

Định nghĩa

Harness Optimization là quá trình đo lường, phân tích và cải thiện hiệu suất của toàn bộ hệ thống AI agent — bao gồm tool design, feedback loops, context management và execution environment — thay vì chỉ tập trung vào việc nâng cấp model.

Giải thích chi tiết

Bottleneck không nằm ở Model

Paper SWE-agent từ Princeton NLP chứng minh một điều gây sốc: với cùng model GPT-4, chỉ thay đổi harness design (interface structure, tool availability, feedback format) — hiệu suất tăng 64%. Điều này phá vỡ misconception rằng "model mới hơn = kết quả tốt hơn".

Trong thực tế triển khai, bottleneck thường nằm ở:

Tool latency: Thời gian tool thực thi blocking LLM, đặc biệt với bash commands chạy lâu
Context bloat: Đưa quá nhiều irrelevant information vào context window làm model "bối rối"
Feedback loop inefficiency: Agent không nhận đủ thông tin để self-correct sớm, dẫn đến lạc đường dài mới phát hiện lỗi

Framework đo lường Harness

Khác với ML metrics truyền thống (accuracy, F1-score), Harness Optimization đo lường hệ thống theo các chỉ số end-to-end:

End-to-end latency: Từ user request đến final output, bao gồm cả thời gian thực thi tool và I/O operations
Token efficiency: Số token "wasted" cho retry, error handling, và over-thinking trong reasoning
Success rate theo task complexity: Phân tách success rate theo tiers (simple/medium/complex) thay vì average chung chung
Cost-per-task: Tính toán tổng chi phí API cost cộng infrastructure cost (compute của tool execution environment)

Kỹ thuật tối ưu từ Claude Code leak

Phân tích 512K lines source leak của Claude Code cho thấy họ tối ưu harness ở 3 tầng kiến trúc:

Tool Design layer: Bash tool được thiết kế với streaming output (gửi kết quả về LLM theo từng chunk thay vì đợi command xong) và timeout strict theo command type. Edit tool dùng diff-based editing thay vì rewrite-whole-file, giảm token count đi 90% cho các thay đổi nhỏ.

Context Management layer: Implement auto-compaction khi context đạt 80% window size — không đợi full 100% mới xử lý. Họ cũng dùng semantic compression cho các file code đã xem nhưng không đang active edit.

Execution layer: Speculative execution — agent predict next tool call có khả năng cao và prepare context trước, giảm perceived latency cho user dù technically vẫn mất thời gian tương tự.

Anthropic DAW Pattern

Trong kiến trúc 3-agent được định giá $124.70 (Design-Architecture-Workflow), Anthropic tối ưu bằng cách parallelize workflow:

Editor agent: Focus vào việc sửa code, có quyền write file
Navigator agent: Tra cứu codebase, tìm references, read-only
Reviewer agent: Kiểm tra lỗi syntax, logic, chạy lint/test

Bằng cách tách harness thành 3 process riêng biệt với message bus trung gian, họ giảm sequential latency thay vì dùng 1 agent làm tất cả (vốn bị blocking khi đang "suy nghĩ").

Meta-Harness và Adaptive Optimization

Paper từ Stanford (arxiv 2603.28052) đề xuất khái niệm Meta-Harness: một harness điều khiển và tối ưu harness khác theo thời gian thực. Cơ chế bao gồm:

Dynamic context sizing: Tự động điều chỉnh context window dựa trên task complexity — không dùng max window cho mọi task
Model tier switching: Chuyển giữa strong model (GPT-4) và weak model (GPT-3.5) dựa trên confidence score của từng step
Tool routing: Chọn sub-set tools phù hợp cho từng phase của task, thay vì expose toàn bộ toolkit cho mọi step (giảm distraction cho model)

Ví dụ thực tế

Tối ưu Bash Tool trong Coding Agent

Từ phân tích source leak của Claude Code, họ không dùng exec() đơn giản mà implement:

// Pseudocode từ leak
interface BashTool {
  streaming: true;        // Gửi output về LLM ngay khi có stdout mới
  timeout: {
    default: 30_000,      // ms
    build: 300_000,       // 5 phút cho lệnh build/test
    install: 600_000
  };
  signal: 'SIGINT';       // Xử lý Ctrl+C đúng cách đến subprocess
}

Kết quả: Giảm latency trung bình 40% cho các task liên quan terminal so với cách implement naive (đợi command xong mới return).

Parallel Agents trong Code Review

Áp dụng pattern từ Anthropic DAW cho hệ thống review PR tự động:

Khi developer đẩy code mới, Navigator agent bắt đầu đọc và index codebase song song với Editor agent phân tích diff
Thay vì sequential "read → plan → comment", ta có "read & analyze concurrently" với sync points mỗi 5 giây
Reviewer agent chạy test suite riêng biệt, không block editing flow của Editor

Trade-off: Tăng cost (3x API calls) nhưng giảm wall-clock time 60%, cho phép feedback real-time trong vòng dưới 30 giây thay vì 2-3 phút.

Context Compression cho Long-running Agent

Triển khai Meta-Harness approach cho agent monitoring logs 24/7:

Thay vì gửi full 24 giờ logs vào context mỗi lần hỏi, harness dùng compression tool tạo summary every 1000 lines
Detect "interesting events" (errors, anomalies) và chỉ expand context chi tiết cho những segment đó
Auto-archive conversations cũ vào vector DB, chỉ giữ 5-turn gần nhất trong context window trực tiếp

Kết quả: Duy trì conversation liên tục 24 giờ mà không hit context limit, giảm cost 70% so với naive approach (luôn gửi full history).

Ứng dụng

AI Engineer (Implementer)

Dùng profiling tools đo thời gian thực thi của từng tool (bash, read, edit) để tìm bottleneck
Implement streaming cho long-running tools thay vì blocking wait
Thiết kế "tool timeout matrix" — không phải tool nào cũng cần chờ vô hạn, fail fast để retry với strategy khác

Tech Lead (Architecture)

Đánh đổi giữa latency và accuracy: Quyết định khi nào dùng weaker model cho simple tasks để giảm cost, khi nào bắt buộc strong model
Design feedback loops: Đảm bảo agent nhận signal "đang làm đúng hay sai" sau mỗi 2-3 bước, đừng để agent đi lầm đường 10 steps mới phát hiện lỗi

Startup/CTO (Strategy)

Cost optimization: Tối ưu harness có thể giảm bill AI 50-80% mà quality giữ nguyên (theo SWE-agent findings), cho phép bootstrapped startup dùng GPT-4 tier hiệu quả
Scaling decision: Xác định metrics rõ ràng để quyết định khi nào cần sharding thành multi-agent thay vì optimize single agent

So sánh

Chiến lược	Tập trung vào	Impact	Thời gian ROI	Chi phí triển khai
Model-Centric	Upgrade LLM (GPT-4 → GPT-5)	Linear improvement	Ngay lập tức	Cao (API cost tăng theo tier)
Harness-Centric	Tool design, context management, feedback loops	Multiplicative (64% SWE-agent)	2-4 tuần (implementation)	Thấp (dev time, infra tuning)
Data-Centric	Fine-tuning, RAG improvement	Dataset dependent	1-3 tháng	Trung bình (data labeling, training infra)

Kết luận: Khi đã sử dụng model tier cao nhất hiện có (GPT-4/Claude 3.5), harness optimization là lever duy nhất cho phép improvement đáng kể. Đây là lý do Anthropic và OpenAI đều đầu tư nặng vào "infrastructure" như Claude Code hay Codex CLI thay vì chỉ release model weights.