Context Ordering: Thứ tự thông tin ảnh hưởng kết quả

Tại sao AI 'nhớ' thông tin ở đầu và cuối hơn giữa? Hiểu primacy/recency bias trong Context Ordering để tối ưu kết quả từ LLM.

Context Ordering là chiến lược sắp xếp thứ tự các thành phần trong prompt để tối ưu hiệu suất retrieval và reasoning của LLM, dựa trên hiện tượng primacy/recency bias và "lost in the middle" effect — hiện tượng AI "nhớ" rõ thông tin ở hai đầu context nhưng bỏ sót chi tiết ở giữa khi context dài.

Giải thích chi tiết

Hiện tượng "Lost in the Middle"

Nghiên cứu từ Stanford, UCLA và UCSB (2023) chứng minh rằng LLM dựa trên Transformer không xử lý thông tin đồng đều trong context window. Khi độ dài context vượt quá ngưỡng nhất định (thường từ 4k-8k tokens trở lên), hiệu suất trả lời câu hỏi về thông tin nằm ở vị trí 50-70% của prompt sụt giảm đáng kể — giống như hiệu ứng "tâm lý trung gian" ở con người khi đọc danh sách dài.

Điều này có ý nghĩa thực tế với RAG (Retrieval-Augmented Generation): nếu bạn đưa 10 tài liệu vào prompt theo thứ tự relevance score giảm dần, tài liệu quan trọng thứ 5-6 có thể bị AI "bỏ qua" hoàn toàn dù nó liên quan trực tiếp đến câu hỏi.

Primacy Bias vs Recency Bias

LLM thể hiện hai loại bias vị trí:

Primacy (ưu tiên đầu): Thông tin ở đầu prompt được xử lý qua nhiều layer attention hơn, tạo thành "anchor" cho toàn bộ suy luận. Phù hợp để đặt system persona, safety constraints, và task definition tổng quan.
Recency (ưu tiên cuối): Thông tin gần vị trí generate token nhất có gradient mạnh hơn, ảnh hưởng trực tiếp đến output. Phù hợp cho specific instructions, output format, và câu hỏi cụ thể.

Chiến lược sắp xếp trong thực tế

Kỹ thuật Sandwich (Bánh mì kẹp) Đặt instruction quan trọng ở cả hai đầu: mở đầu với persona/nhiệm vụ, giữa là dữ liệu thô (documents, code, conversation history), và kết thúc bằng "reminder" ngắn gọn về constraint then chốt. Ví dụ: kết thúc RAG prompt bằng "Chỉ dùng thông tin từ tài liệu trên, không dùng kiến thức có sẵn."

Interleaving (Xen kẽ) Thay vì dump toàn bộ tài liệu rồi mới hỏi, xen kẽ câu hỏi con giữa các đoạn tài liệu: [Doc 1] → [Câu hỏi về Doc 1] → [Doc 2] → [Câu hỏi về Doc 2]. Phương pháp này giảm "khoảng cách" giữa thông tin và câu hỏi cần xử lý.

Ví dụ thực tế

RAG Re-ranking

Khi hệ thống RAG trả về 8 documents, đừng xếp theo thứ tự relevance đơn thuần:

# ❌ Cách thông thường (dễ mất thông tin ở giữa)
context = "\n\n".join([doc.text for doc in results])

# ✅ Cách tối ưu Context Ordering (Sandwich + Interleaving)
ordered_results = [
    results[0],  # Top 1 ở đầu (primacy)
    results[2],  # Xen kẽ...
    results[4],
    results[6],
    results[7],  # ...đưa giá trị thấp vào giữa
    results[5],
    results[3],
    results[1],  # Top 2 ở cuối (recency)
]
context = "\n\n".join([f"Tài liệu {i+1}: {doc.text}" for i, doc in enumerate(ordered_results)])
prompt = f"{system_prompt}\n\n{context}\n\nLưu ý: Chỉ trả lời dựa trên 8 tài liệu trên.\nCâu hỏi: {user_query}"

Multi-step Code Review

Khi nhờ AI review code dài với nhiều yêu cầu:

Bạn là senior engineer chuyên về security. (Primacy)

[Code dài 200 dòng]

Nhiệm vụ:
1. Tìm lỗi SQL injection
2. Tìm hardcoded secrets  
3. Review logic authentication
4. Check error handling
5. Đánh giá performance

Đặc biệt chú ý: Bước 1 và 3 là bắt buộc, không được bỏ qua dù code có dài. (Recency reminder)

Nếu chỉ đặt "Đặc biệt chú ý" ở đầu, sau 200 dòng code AI có thể "quên" mà chỉ tập trung vào performance ở cuối.

Conversation Context Injection

Trong chatbot dài hạn, khi phải nén history thành summary để fit vào context window:

[Persona: Trợ lý y tế]

Tóm tắt cuộc trò chuyện:
- 10 phút trước: Bệnh nhân kêu đau đầu
- 8 phút trước: Hỏi về thuốc giảm đau  
- [5 phút trước: Thông tin quan trọng về tiền sử dị ứng thuốc] <-- Dễ bị mất
- 2 phút trước: Hỏi về liều lượng

Câu hỏi hiện tại: [Câu hỏi mới]

Lưu ý: Không được đề xuất thuốc có thành phần gây dị ứng đã đề cập 5 phút trước.

Thay vào đó, đưa thông tin dị ứng vào đầu summary hoặc nhắc lại ở cuối reminder.

Ứng dụng

RAG Engineers Implement "Lost in the Middle" re-ranking trong pipeline: sau khi retrieve documents, reorder bằng thuật toán "most relevant at both ends" thay vì "most relevant first". Một số framework như LangChain đã có LongContextReorder để tự động hoá việc này.

Prompt Engineers Áp dụng Golden Paragraph technique: đặt đoạn hướng dẫn quan trọng nhất ở cả đầu và cuối prompt. Đặc biệt hiệu quả khi làm việc với Claude hoặc GPT-4 với context dài trên 8k tokens.

Product Managers / Business Analysts Khi viết brief sáng tạo dài cho AI: Brand voice và constraints pháp lý (primacy) → Context nghiệp vụ và reference materials (middle) → Câu hỏi cụ thể và output format (recency). Đảm bảo AI không "lạc" vào giữa brief mà quên mất giới hạn pháp lý.

AI Researchers Thiết kế thí nghiệm đánh giá LLM cần randomize vị trí đáp án đúng trong few-shot examples để tránh bias vị trí làm sai lệch kết quả benchmark.

So sánh

Chiến lược	Cấu trúc	Ưu điểm	Nhược điểm	Use case lý tưởng
Chronological	Thời gian thực	Logic tự nhiên, dễ debug	Thông tin cũ bị lấn át	Conversation ngắn, dưới 2k tokens
Relevance-sort	Cao → Thấp	Tận dụng tốt primacy	Mất giữa (lost in middle)	Top-k retrieval với k nhỏ (k < 5)
Sandwich	Instruction-Context-Instruction	Bảo vệ constraint quan trọng	Tốn token (lặp lại)	RAG, system có safety requirements
Interleaving	Xen kẽ Q&A	Giảm khoảng cách reasoning	Prompt dài, phức tạp	Multi-hop reasoning, compare & contrast

Kết luận: Với hệ thống production sử dụng context dài (>4k tokens), Sandwich là mặc định an toàn. Với context ngắn và tác vụ đơn giản, Recency bias (đặt instruction cuối) thường cho kết quả ổn định nhất.

Context Ordering: Thứ tự thông tin ảnh hưởng kết quả

Giải thích chi tiết

Hiện tượng "Lost in the Middle"

Primacy Bias vs Recency Bias

Chiến lược sắp xếp trong thực tế

Ví dụ thực tế

RAG Re-ranking

Multi-step Code Review

Conversation Context Injection

Ứng dụng

So sánh

Bài viết liên quan

Cùng cụm

Context Selection: Chọn đúng thông tin đưa vào

Context Compression: Nén thông tin mà không mất ý

Context Isolation: Tách biệt context tránh nhiễu

Tối ưu Context Window: Chiến lược khi token có hạn

Đọc tiếp

Nền tảng Context Engineering

Memory & Conversation

State & Session Management (Level 2)

On this page