Tiến hóa: Prompt → Context → Harness Engineering
Hành trình tiến hóa từ Prompt đến Harness Engineering trong AI. Tại sao SWE-agent tăng 64% hiệu suất chỉ nhờ thiết kế interface thay vì đổi model?
Định nghĩa
Prompt Engineering là cách ta nói chuyện với AI. Context Engineering là cách ta chuẩn bị thông tin cho AI. Harness Engineering là cách ta thiết kế toàn bộ môi trường để AI có thể suy nghĩ và hành động. Đây là ba giai đoạn tiến hóa tự nhiên của AI engineering, từ việc tối ưu hóa đầu vào đến tối ưu hóa hệ sinh thái xung quanh model.
Giải thích chi tiết
Giai đoạn 1: Prompt Engineering — Khi "câu hỏi đẹp" là tất cả
Cách đây vài năm, AI engineering đồng nghĩa với việc viết prompt hay. Cả cộng đồng săn lùng "magic prompts" — những câu mở đầu bí ẩn khiến GPT-4 trở nên thông minh hơn. Ta học về Zero-shot, Few-shot, Chain-of-Thought. Ta tin rằng bottleneck nằm ở cách diễn đạt.
Nhưng có vấn đề: khi model mạnh hơn (GPT-3.5 → GPT-4 → Claude 3.5), lợi tức từ việc tinh chỉnh prompt giảm dần. Model hiện đại hiểu ngôn ngữ tự nhiên tốt đến mức việc "đánh lừa" bằng prompt phức tạp trở nên lãng phí. Bạn không cần viết "Hãy suy nghĩ từng bước một" cho model đã được huấn luyện để tự suy luận.
Giai đoạn 2: Context Engineering — Ai cũng nhìn, nhưng nhìn gì?
Khi prompt không còn là bottleneck, ta nhận ra vấn đề thực sự: AI không biết gì về dữ liệu riêng của bạn. Context Engineering ra đời — tập trung vào việc đưa đúng thông tin vào Context Window: RAG, Vector Database, Memory systems, Context compression.
Đây là bước tiến lớn. Ta chuyển từ "nói sao cho AI hiểu" sang "cho AI biết cái gì". Nhưng giới hạn nhanh chóng lộ ra: context window dù dài đến 200K tokens cũng không đủ chứa toàn bộ codebase của bạn. Và việc nhồi nhét thông tin vào prompt không giúp AI biết cách hành động — nó chỉ giúp AI biết cách trả lời.
Giai đoạn 3: Harness Engineering — Thiết kế môi trường suy nghĩ
Đến giai đoạn này, ta nhận ra câu quote của Mitchell Hashimoto (founder HashiCorp): "Model là thứ suy nghĩ. Harness là thứ mà nó suy nghĩ VỀ."
Harness Engineering không tối ưu model, cũng không tối ưu prompt — nó tối ưu môi trường mà model tương tác. Đó là Agent-Computer Interface (ACI): AI nhìn file như thế nào? Edit code bằng lệnh gì? Nhận feedback từ test runner ra sao? Đây là tầng kiến trúc cao nhất, nơi quyết định AI có thể thực hiện công việc phức tạp hay chỉ trả lời chat.
Paper SWE-agent từ Princeton NLP chứng minh điều này: cùng model GPT-4, cùng task lập trình, chỉ thay đổi cách AI xem file và chỉnh sửa code (ACI redesign) — hiệu suất tăng 64%. Không phải model mới. Không phải prompt hay hơn. Chỉ là harness tốt hơn.
Ví dụ thực tế
SWE-agent: Bằng chứng số học cho Harness Engineering
Nhóm nghiên cứu Princeton xây dựng SWE-agent trên nền GPT-4. Họ không tinh chỉnh model. Thay vào đó, họ thiết kế lại toàn bộ interface giữa AI và máy tính: cách AI xem file (view with line numbers), cách AI chỉnh sửa (specialized edit commands), cách AI nhận phản hồi (auto-linting sau mỗi edit).
Kết quả: giải quyết 12.47% bug trong benchmark SWE-bench — cao hơn hẳn các phương pháp chỉ dựa trên prompt và context đơn thuần. Đây là minh chứng rằng khi model đã đủ mạnh, leverage nằm ở harness.
Claude Code so với Claude chat thuần
Dùng Claude qua giao diện web chat để viết code là Prompt/Context level. Bạn paste code vào, hỏi "sửa lỗi này", copy-paste kết quả ra.
Claude Code (IDE harness) khác biệt hoàn toàn: nó có quyền đọc file system, chạy lệnh terminal, thực thi test, giữ session state qua nhiều file. Cùng model Sonnet 3.5, nhưng khả năng tác động vào codebase tăng theo cấp số nhân — không phải vì prompt đẹp hơn, mà vì harness (quyền hạn, tool access, state management) được thiết kế đúng.
Tiến hóa của một coding assistant
Năm 2022 (Prompt era): Developer viết prompt "viết cho tôi hàm sắp xếp quicksort bằng Python". AI trả về code, developer copy vào editor.
Năm 2023 (Context era): Developer dùng Copilot với RAG. AI nhìn được file hiện tại, suggest code phù hợp context. Nhưng vẫn chỉ là "gợi ý", developer phải tự quyết định apply hay không.
Năm 2024 (Harness era): Developer dùng Cursor hoặc Claude Code. AI có quyền đọc toàn bộ repo, tạo file mới, chạy test, debug lỗi compile. AI không chỉ "viết code" — nó "làm việc trong codebase". Sự khác biệt nằm ở harness: tool use permission, multi-file session, feedback loop từ compiler.
Ứng dụng
Sinh viên và người mới học AI
Đừng dành 6 tháng học "viết prompt siêu cấp". Hiểu rằng đó chỉ là tầng nền. Hãy học cách thiết kế system: AI cần truy cập API nào? Làm sao xử lý lỗi? Đây mới là kỹ năng được trả lương cao trong 5 năm tới.
Developer và AI Engineer
Chuyển mindset từ "tuning prompt" sang "designing interface". Công việc của bạn không phải viết lời nhắc đẹp cho AI, mà là thiết kế API và tool mà AI sẽ gọi. Hãy đầu tư thời gian vào việc thiết kế ACI (Agent-Computer Interface) thay vì săn lùng model mới nhất.
Tech Lead và Architect
Phân bổ ngân sách thông minh: thay vì trả phí cao ngất cho GPT-4 Turbo hay Claude Opus, hãy audit harness hiện tại. Nếu AI của bạn không có quyền gọi test runner hoặc không nhận được structured feedback từ linter, dùng model đắt gấp đôi cũng không cứu được hiệu suất. Invest vào tool design trước khi invest vào model upgrade.
Doanh nghiệp và Product Manager
Xây chiến lược AI bền vững: Đừng xây sản phẩm trên nền "prompt hack" dễ vỡ khi OpenAI update model. Hãy xây harness — hệ thống tool, permission, feedback loop — để khi model thay đổi (hoặc bạn đổi sang model rẻ hơn), sản phẩm vẫn chạy. Harness là moat thực sự, không phải prompt bí mật.
So sánh: Ba giai đoạn của AI Engineering
| Tiêu chí | Prompt Engineering | Context Engineering | Harness Engineering |
|---|---|---|---|
| Trọng tâm | Cách diễn đạt yêu cầu | Cách quản lý thông tin đầu vào | Cách thiết kế môi trường tương tác |
| Bottleneck | Model hiểu sai ý | Context window quá ngắn | AI không thể thao tác hiệu quả |
| Công cụ chính | Chain-of-thought, Few-shot prompting | RAG, Vector DB, Memory systems | ACI, Tool design, Feedback loops |
| Metrics thành công | Output đúng format | Thông tin đầy đủ, không hallucinate | Task completion rate, Error recovery |
| Tư duy cốt lõi | Communication | Information retrieval | System architecture |
| Ví dụ điển hình | Viết prompt "suy nghĩ từng bước" | Dùng Pinecone để retrieve tài liệu | Thiết kế file viewer cho SWE-agent |
Kết luận: Ba giai đoạn này không thay thế mà bao trùm lẫn nhau. Prompt Engineering vẫn cần thiết nhưng là tầng nền. Harness Engineering là tầng cao nhất hiện nay — nơi leverage thực sự nằm, đặc biệt khi model ngày càng trở thành commodity và đắt đỏ hơn ít hiệu quả hơn so với thiết kế hệ thống thông minh.
Bài viết liên quan
Cùng cụm
Harness Engineering là gì?
Định nghĩa chính thức về Harness Engineering và tại sao nó quan trọng hơn model
Agent-Computer Interface (ACI)
Thiết kế giao diện giữa AI và máy tính — nền tảng của Harness Engineering
Bài học từ SWE-agent
Phân tích chi tiết paper Princeton về +64% hiệu suất nhờ thiết kế interface
Harness vs Context Engineering
Phân biệt ranh giới giữa hai giai đoạn cao nhất của AI engineering
Đọc tiếp
Context Engineering thực chiến
Quay lại Level 1 để củng cố nền tảng quản lý thông tin trước khi thiết kế harness
Tool & Permission Design
Đi sâu vào thiết kế công cụ và phân quyền cho AI agent — phần core của harness
Feedback Loops & Quality Gates
Xây dựng vòng lặp phản hồi để AI tự cải thiện trong harness
Harness Engineering là gì? Tại sao model không phải thứ quan trọng nhất
Khám phá Harness Engineering - từ bài học SWE-agent tăng 64% hiệu suất nhờ thiết kế interface. Hiểu vì sao môi trường quan trọng hơn model.
Agent-Computer Interface (ACI): Thiết kế giao diện cho AI
ACI là giao diện giữa AI và máy tính. Khám phá vì sao SWE-agent tăng 64% hiệu suất chỉ nhờ thiết kế interface, không phải model mới hơn.