Tiến hóa: Prompt → Context → Harness Engineering

Hành trình tiến hóa từ Prompt đến Harness Engineering trong AI. Tại sao SWE-agent tăng 64% hiệu suất chỉ nhờ thiết kế interface thay vì đổi model?

Định nghĩa

Prompt Engineering là cách ta nói chuyện với AI. Context Engineering là cách ta chuẩn bị thông tin cho AI. Harness Engineering là cách ta thiết kế toàn bộ môi trường để AI có thể suy nghĩ và hành động. Đây là ba giai đoạn tiến hóa tự nhiên của AI engineering, từ việc tối ưu hóa đầu vào đến tối ưu hóa hệ sinh thái xung quanh model.

Giải thích chi tiết

Giai đoạn 1: Prompt Engineering — Khi "câu hỏi đẹp" là tất cả

Cách đây vài năm, AI engineering đồng nghĩa với việc viết prompt hay. Cả cộng đồng săn lùng "magic prompts" — những câu mở đầu bí ẩn khiến GPT-4 trở nên thông minh hơn. Ta học về Zero-shot, Few-shot, Chain-of-Thought. Ta tin rằng bottleneck nằm ở cách diễn đạt.

Nhưng có vấn đề: khi model mạnh hơn (GPT-3.5 → GPT-4 → Claude 3.5), lợi tức từ việc tinh chỉnh prompt giảm dần. Model hiện đại hiểu ngôn ngữ tự nhiên tốt đến mức việc "đánh lừa" bằng prompt phức tạp trở nên lãng phí. Bạn không cần viết "Hãy suy nghĩ từng bước một" cho model đã được huấn luyện để tự suy luận.

Giai đoạn 2: Context Engineering — Ai cũng nhìn, nhưng nhìn gì?

Khi prompt không còn là bottleneck, ta nhận ra vấn đề thực sự: AI không biết gì về dữ liệu riêng của bạn. Context Engineering ra đời — tập trung vào việc đưa đúng thông tin vào Context Window: RAG, Vector Database, Memory systems, Context compression.

Đây là bước tiến lớn. Ta chuyển từ "nói sao cho AI hiểu" sang "cho AI biết cái gì". Nhưng giới hạn nhanh chóng lộ ra: context window dù dài đến 200K tokens cũng không đủ chứa toàn bộ codebase của bạn. Và việc nhồi nhét thông tin vào prompt không giúp AI biết cách hành động — nó chỉ giúp AI biết cách trả lời.

Giai đoạn 3: Harness Engineering — Thiết kế môi trường suy nghĩ

Đến giai đoạn này, ta nhận ra câu quote của Mitchell Hashimoto (founder HashiCorp): "Model là thứ suy nghĩ. Harness là thứ mà nó suy nghĩ VỀ."

Harness Engineering không tối ưu model, cũng không tối ưu prompt — nó tối ưu môi trường mà model tương tác. Đó là Agent-Computer Interface (ACI): AI nhìn file như thế nào? Edit code bằng lệnh gì? Nhận feedback từ test runner ra sao? Đây là tầng kiến trúc cao nhất, nơi quyết định AI có thể thực hiện công việc phức tạp hay chỉ trả lời chat.

Paper SWE-agent từ Princeton NLP chứng minh điều này: cùng model GPT-4, cùng task lập trình, chỉ thay đổi cách AI xem file và chỉnh sửa code (ACI redesign) — hiệu suất tăng 64%. Không phải model mới. Không phải prompt hay hơn. Chỉ là harness tốt hơn.

Ví dụ thực tế

SWE-agent: Bằng chứng số học cho Harness Engineering

Nhóm nghiên cứu Princeton xây dựng SWE-agent trên nền GPT-4. Họ không tinh chỉnh model. Thay vào đó, họ thiết kế lại toàn bộ interface giữa AI và máy tính: cách AI xem file (view with line numbers), cách AI chỉnh sửa (specialized edit commands), cách AI nhận phản hồi (auto-linting sau mỗi edit).

Kết quả: giải quyết 12.47% bug trong benchmark SWE-bench — cao hơn hẳn các phương pháp chỉ dựa trên prompt và context đơn thuần. Đây là minh chứng rằng khi model đã đủ mạnh, leverage nằm ở harness.

Claude Code so với Claude chat thuần

Dùng Claude qua giao diện web chat để viết code là Prompt/Context level. Bạn paste code vào, hỏi "sửa lỗi này", copy-paste kết quả ra.

Claude Code (IDE harness) khác biệt hoàn toàn: nó có quyền đọc file system, chạy lệnh terminal, thực thi test, giữ session state qua nhiều file. Cùng model Sonnet 3.5, nhưng khả năng tác động vào codebase tăng theo cấp số nhân — không phải vì prompt đẹp hơn, mà vì harness (quyền hạn, tool access, state management) được thiết kế đúng.

Tiến hóa của một coding assistant

Năm 2022 (Prompt era): Developer viết prompt "viết cho tôi hàm sắp xếp quicksort bằng Python". AI trả về code, developer copy vào editor.

Năm 2023 (Context era): Developer dùng Copilot với RAG. AI nhìn được file hiện tại, suggest code phù hợp context. Nhưng vẫn chỉ là "gợi ý", developer phải tự quyết định apply hay không.

Năm 2024 (Harness era): Developer dùng Cursor hoặc Claude Code. AI có quyền đọc toàn bộ repo, tạo file mới, chạy test, debug lỗi compile. AI không chỉ "viết code" — nó "làm việc trong codebase". Sự khác biệt nằm ở harness: tool use permission, multi-file session, feedback loop từ compiler.

Ứng dụng

Sinh viên và người mới học AI

Đừng dành 6 tháng học "viết prompt siêu cấp". Hiểu rằng đó chỉ là tầng nền. Hãy học cách thiết kế system: AI cần truy cập API nào? Làm sao xử lý lỗi? Đây mới là kỹ năng được trả lương cao trong 5 năm tới.

Developer và AI Engineer

Chuyển mindset từ "tuning prompt" sang "designing interface". Công việc của bạn không phải viết lời nhắc đẹp cho AI, mà là thiết kế API và tool mà AI sẽ gọi. Hãy đầu tư thời gian vào việc thiết kế ACI (Agent-Computer Interface) thay vì săn lùng model mới nhất.

Tech Lead và Architect

Phân bổ ngân sách thông minh: thay vì trả phí cao ngất cho GPT-4 Turbo hay Claude Opus, hãy audit harness hiện tại. Nếu AI của bạn không có quyền gọi test runner hoặc không nhận được structured feedback từ linter, dùng model đắt gấp đôi cũng không cứu được hiệu suất. Invest vào tool design trước khi invest vào model upgrade.

Doanh nghiệp và Product Manager

Xây chiến lược AI bền vững: Đừng xây sản phẩm trên nền "prompt hack" dễ vỡ khi OpenAI update model. Hãy xây harness — hệ thống tool, permission, feedback loop — để khi model thay đổi (hoặc bạn đổi sang model rẻ hơn), sản phẩm vẫn chạy. Harness là moat thực sự, không phải prompt bí mật.

So sánh: Ba giai đoạn của AI Engineering

Tiêu chí	Prompt Engineering	Context Engineering	Harness Engineering
Trọng tâm	Cách diễn đạt yêu cầu	Cách quản lý thông tin đầu vào	Cách thiết kế môi trường tương tác
Bottleneck	Model hiểu sai ý	Context window quá ngắn	AI không thể thao tác hiệu quả
Công cụ chính	Chain-of-thought, Few-shot prompting	RAG, Vector DB, Memory systems	ACI, Tool design, Feedback loops
Metrics thành công	Output đúng format	Thông tin đầy đủ, không hallucinate	Task completion rate, Error recovery
Tư duy cốt lõi	Communication	Information retrieval	System architecture
Ví dụ điển hình	Viết prompt "suy nghĩ từng bước"	Dùng Pinecone để retrieve tài liệu	Thiết kế file viewer cho SWE-agent

Kết luận: Ba giai đoạn này không thay thế mà bao trùm lẫn nhau. Prompt Engineering vẫn cần thiết nhưng là tầng nền. Harness Engineering là tầng cao nhất hiện nay — nơi leverage thực sự nằm, đặc biệt khi model ngày càng trở thành commodity và đắt đỏ hơn ít hiệu quả hơn so với thiết kế hệ thống thông minh.

Tiến hóa: Prompt → Context → Harness Engineering

Định nghĩa

Giải thích chi tiết

Giai đoạn 1: Prompt Engineering — Khi "câu hỏi đẹp" là tất cả

Giai đoạn 2: Context Engineering — Ai cũng nhìn, nhưng nhìn gì?

Giai đoạn 3: Harness Engineering — Thiết kế môi trường suy nghĩ

Ví dụ thực tế

SWE-agent: Bằng chứng số học cho Harness Engineering

Claude Code so với Claude chat thuần

Tiến hóa của một coding assistant

Ứng dụng

Sinh viên và người mới học AI

Developer và AI Engineer

Tech Lead và Architect

Doanh nghiệp và Product Manager

So sánh: Ba giai đoạn của AI Engineering

Bài viết liên quan

Cùng cụm

Harness Engineering là gì?

Agent-Computer Interface (ACI)

Bài học từ SWE-agent

Harness vs Context Engineering

Đọc tiếp

Context Engineering thực chiến

Tool & Permission Design

Feedback Loops & Quality Gates

On this page