TROISINH
Harness EngineeringNền tảng Harness

Tiến hóa: Prompt → Context → Harness Engineering

Hành trình tiến hóa từ Prompt đến Harness Engineering trong AI. Tại sao SWE-agent tăng 64% hiệu suất chỉ nhờ thiết kế interface thay vì đổi model?

Định nghĩa

Prompt Engineering là cách ta nói chuyện với AI. Context Engineering là cách ta chuẩn bị thông tin cho AI. Harness Engineering là cách ta thiết kế toàn bộ môi trường để AI có thể suy nghĩ và hành động. Đây là ba giai đoạn tiến hóa tự nhiên của AI engineering, từ việc tối ưu hóa đầu vào đến tối ưu hóa hệ sinh thái xung quanh model.

Giải thích chi tiết

Giai đoạn 1: Prompt Engineering — Khi "câu hỏi đẹp" là tất cả

Cách đây vài năm, AI engineering đồng nghĩa với việc viết prompt hay. Cả cộng đồng săn lùng "magic prompts" — những câu mở đầu bí ẩn khiến GPT-4 trở nên thông minh hơn. Ta học về Zero-shot, Few-shot, Chain-of-Thought. Ta tin rằng bottleneck nằm ở cách diễn đạt.

Nhưng có vấn đề: khi model mạnh hơn (GPT-3.5 → GPT-4 → Claude 3.5), lợi tức từ việc tinh chỉnh prompt giảm dần. Model hiện đại hiểu ngôn ngữ tự nhiên tốt đến mức việc "đánh lừa" bằng prompt phức tạp trở nên lãng phí. Bạn không cần viết "Hãy suy nghĩ từng bước một" cho model đã được huấn luyện để tự suy luận.

Giai đoạn 2: Context Engineering — Ai cũng nhìn, nhưng nhìn gì?

Khi prompt không còn là bottleneck, ta nhận ra vấn đề thực sự: AI không biết gì về dữ liệu riêng của bạn. Context Engineering ra đời — tập trung vào việc đưa đúng thông tin vào Context Window: RAG, Vector Database, Memory systems, Context compression.

Đây là bước tiến lớn. Ta chuyển từ "nói sao cho AI hiểu" sang "cho AI biết cái gì". Nhưng giới hạn nhanh chóng lộ ra: context window dù dài đến 200K tokens cũng không đủ chứa toàn bộ codebase của bạn. Và việc nhồi nhét thông tin vào prompt không giúp AI biết cách hành động — nó chỉ giúp AI biết cách trả lời.

Giai đoạn 3: Harness Engineering — Thiết kế môi trường suy nghĩ

Đến giai đoạn này, ta nhận ra câu quote của Mitchell Hashimoto (founder HashiCorp): "Model là thứ suy nghĩ. Harness là thứ mà nó suy nghĩ VỀ."

Harness Engineering không tối ưu model, cũng không tối ưu prompt — nó tối ưu môi trường mà model tương tác. Đó là Agent-Computer Interface (ACI): AI nhìn file như thế nào? Edit code bằng lệnh gì? Nhận feedback từ test runner ra sao? Đây là tầng kiến trúc cao nhất, nơi quyết định AI có thể thực hiện công việc phức tạp hay chỉ trả lời chat.

Paper SWE-agent từ Princeton NLP chứng minh điều này: cùng model GPT-4, cùng task lập trình, chỉ thay đổi cách AI xem file và chỉnh sửa code (ACI redesign) — hiệu suất tăng 64%. Không phải model mới. Không phải prompt hay hơn. Chỉ là harness tốt hơn.

Ví dụ thực tế

SWE-agent: Bằng chứng số học cho Harness Engineering

Nhóm nghiên cứu Princeton xây dựng SWE-agent trên nền GPT-4. Họ không tinh chỉnh model. Thay vào đó, họ thiết kế lại toàn bộ interface giữa AI và máy tính: cách AI xem file (view with line numbers), cách AI chỉnh sửa (specialized edit commands), cách AI nhận phản hồi (auto-linting sau mỗi edit).

Kết quả: giải quyết 12.47% bug trong benchmark SWE-bench — cao hơn hẳn các phương pháp chỉ dựa trên prompt và context đơn thuần. Đây là minh chứng rằng khi model đã đủ mạnh, leverage nằm ở harness.

Claude Code so với Claude chat thuần

Dùng Claude qua giao diện web chat để viết code là Prompt/Context level. Bạn paste code vào, hỏi "sửa lỗi này", copy-paste kết quả ra.

Claude Code (IDE harness) khác biệt hoàn toàn: nó có quyền đọc file system, chạy lệnh terminal, thực thi test, giữ session state qua nhiều file. Cùng model Sonnet 3.5, nhưng khả năng tác động vào codebase tăng theo cấp số nhân — không phải vì prompt đẹp hơn, mà vì harness (quyền hạn, tool access, state management) được thiết kế đúng.

Tiến hóa của một coding assistant

Năm 2022 (Prompt era): Developer viết prompt "viết cho tôi hàm sắp xếp quicksort bằng Python". AI trả về code, developer copy vào editor.

Năm 2023 (Context era): Developer dùng Copilot với RAG. AI nhìn được file hiện tại, suggest code phù hợp context. Nhưng vẫn chỉ là "gợi ý", developer phải tự quyết định apply hay không.

Năm 2024 (Harness era): Developer dùng Cursor hoặc Claude Code. AI có quyền đọc toàn bộ repo, tạo file mới, chạy test, debug lỗi compile. AI không chỉ "viết code" — nó "làm việc trong codebase". Sự khác biệt nằm ở harness: tool use permission, multi-file session, feedback loop từ compiler.

Ứng dụng

Sinh viên và người mới học AI

Đừng dành 6 tháng học "viết prompt siêu cấp". Hiểu rằng đó chỉ là tầng nền. Hãy học cách thiết kế system: AI cần truy cập API nào? Làm sao xử lý lỗi? Đây mới là kỹ năng được trả lương cao trong 5 năm tới.

Developer và AI Engineer

Chuyển mindset từ "tuning prompt" sang "designing interface". Công việc của bạn không phải viết lời nhắc đẹp cho AI, mà là thiết kế API và tool mà AI sẽ gọi. Hãy đầu tư thời gian vào việc thiết kế ACI (Agent-Computer Interface) thay vì săn lùng model mới nhất.

Tech Lead và Architect

Phân bổ ngân sách thông minh: thay vì trả phí cao ngất cho GPT-4 Turbo hay Claude Opus, hãy audit harness hiện tại. Nếu AI của bạn không có quyền gọi test runner hoặc không nhận được structured feedback từ linter, dùng model đắt gấp đôi cũng không cứu được hiệu suất. Invest vào tool design trước khi invest vào model upgrade.

Doanh nghiệp và Product Manager

Xây chiến lược AI bền vững: Đừng xây sản phẩm trên nền "prompt hack" dễ vỡ khi OpenAI update model. Hãy xây harness — hệ thống tool, permission, feedback loop — để khi model thay đổi (hoặc bạn đổi sang model rẻ hơn), sản phẩm vẫn chạy. Harness là moat thực sự, không phải prompt bí mật.

So sánh: Ba giai đoạn của AI Engineering

Tiêu chíPrompt EngineeringContext EngineeringHarness Engineering
Trọng tâmCách diễn đạt yêu cầuCách quản lý thông tin đầu vàoCách thiết kế môi trường tương tác
BottleneckModel hiểu sai ýContext window quá ngắnAI không thể thao tác hiệu quả
Công cụ chínhChain-of-thought, Few-shot promptingRAG, Vector DB, Memory systemsACI, Tool design, Feedback loops
Metrics thành côngOutput đúng formatThông tin đầy đủ, không hallucinateTask completion rate, Error recovery
Tư duy cốt lõiCommunicationInformation retrievalSystem architecture
Ví dụ điển hìnhViết prompt "suy nghĩ từng bước"Dùng Pinecone để retrieve tài liệuThiết kế file viewer cho SWE-agent

Kết luận: Ba giai đoạn này không thay thế mà bao trùm lẫn nhau. Prompt Engineering vẫn cần thiết nhưng là tầng nền. Harness Engineering là tầng cao nhất hiện nay — nơi leverage thực sự nằm, đặc biệt khi model ngày càng trở thành commodity và đắt đỏ hơn ít hiệu quả hơn so với thiết kế hệ thống thông minh.

Bài viết liên quan

Cùng cụm

Harness Engineering là gì?

Định nghĩa chính thức về Harness Engineering và tại sao nó quan trọng hơn model

Agent-Computer Interface (ACI)

Thiết kế giao diện giữa AI và máy tính — nền tảng của Harness Engineering

Bài học từ SWE-agent

Phân tích chi tiết paper Princeton về +64% hiệu suất nhờ thiết kế interface

Harness vs Context Engineering

Phân biệt ranh giới giữa hai giai đoạn cao nhất của AI engineering

Đọc tiếp

Context Engineering thực chiến

Quay lại Level 1 để củng cố nền tảng quản lý thông tin trước khi thiết kế harness

Tool & Permission Design

Đi sâu vào thiết kế công cụ và phân quyền cho AI agent — phần core của harness

Feedback Loops & Quality Gates

Xây dựng vòng lặp phản hồi để AI tự cải thiện trong harness

On this page