TROISINH
Context EngineeringMemory & Conversation

Short-term vs Long-term Memory trong AI

Phân biệt Short-term Memory (context window) và Long-term Memory (RAG, database) trong AI. Hiểu đúng cách AI thực sự nhớ để thiết kế trải nghiệm conversation...

Định nghĩa

Short-term Memory trong AI chính là Context Window — những gì AI "nhìn thấy" trực tiếp ngay lúc này. Long-term Memory là hệ thống lưu trữ bên ngoài như Vector Database hoặc file system — nơi AI phải chủ động "tìm kiếm" mới có thể sử dụng.

Giải thích chi tiết

Short-term Memory: Chiếc bàn làm việc tạm thời

Hãy tưởng tượng bạn đang giải một bài toán phức tạp. Bạn viết các số liệu lên giấy nháp đặt ngay trước mặt — đó là Short-term Memory. Trong AI, đây chính là Context Window — khoảng 4.000 đến 200.000 tokens (đơn vị thông tin) mà model có thể xử lý cùng lúc.

Tất cả tin nhắn trong cuộc trò chuyện hiện tại, code bạn vừa paste vào, hay tài liệu bạn vừa upload — đều nằm trong Short-term Memory. Khi bạn refresh trang hoặc mở tab mới, "chiếc bàn làm việc" này bị dọn sạch. AI không thực sự nhớ bạn từ hôm qua — nó chỉ nhớ nhờ bạn đưa lại thông tin vào bàn làm việc mới.

Long-term Memory: Chiếc tủ đựng hồ sơ

Nếu Short-term là RAM máy tính, Long-term chính là ổ cứng. Đây là nơi lưu trữ Vector Database, file hệ thống, hoặc bảng SQL — tồn tại vĩnh viễn cho đến khi bạn xóa.

Khi AI cần thông tin từ Long-term Memory, nó phải thực hiện quá trình Retrieval — tìm kiếm giống như bạn lục tủ để lấy hồ sơ cũ. Điều này tốn thời gian hơn (có thể mất vài giây) nhưng cho phép truy cập lượng thông tin gần như vô hạn.

Ảo ảnh về "trí nhớ" của AI

Quan trọng nhất: AI không có trí nhớ giống con người. Khi bạn nghĩ "AI nhớ tôi thích cà phê", thực chất là hệ thống đã lưu preference đó vào database (Long-term) và tự động inject vào prompt (Short-term) mỗi khi bạn chat. Đây là ảo ảnh được engineer — không có "bộ não" nào cả, chỉ có quy trình chuyển dữ liệu từ tủ hồ sơ lên bàn làm việc.

Ví dụ thực tế

Claude Code: Kiến trúc 3 tầng memory

Claude Code (công cụ coding AI của Anthropic) thể hiện rõ sự phân biệt này:

  1. Session Memory (Short-term): File bạn đang edit, terminal output vừa chạy, conversation trong 30 phút qua. Nếu tắt VS Code, mất hết.
  2. Working Memory (Mid-term): Todo list, scratchpad notes được lưu trong .claude/ folder của project — tồn tại qua nhiều session nhưng chỉ cho project cụ thể.
  3. Global Memory (Long-term): Codebase index, file tree structure, summaries của các session trước được lưu trong vector store — dùng để "hiểu" codebase rộng lớn mà không cần load toàn bộ code vào Context Window.

ChatGPT với Custom Instructions

Khi bạn set "Custom Instructions" trong ChatGPT:

  • Long-term: "Tôi là lập trình viên Python, thích giải thích ngắn gọn" được lưu trữ trong database của OpenAI.
  • Short-term: Mỗi lần bạn gửi tin nhắn, hệ thống tự động ghép instruction này vào đầu Context Window (bạn không nhìn thấy), khiến AI "có vẻ như" nhớ sở thích của bạn.

RAG Chatbot cho tài liệu nội bộ

Một doanh nghiệp xây dựng chatbot hỏi đáp từ 10.000 tài liệu PDF:

  • Short-term: Câu hỏi "Chính sách nghỉ phép năm 2024 là gì?" + 3 câu hỏi trước đó trong cùng conversation.
  • Long-term: Hệ thống tìm kiếm (RAG) qua 10.000 PDF, lấy ra 3 đoạn liên quan nhất, nhét vào Context Window cùng câu hỏi — tạo ra câu trả lời chính xác mà không cần "nhớ" hết 10.000 file.

Ứng dụng

Sinh viên học tập cá nhân

Dùng Short-term để AI theo dõi bài tập đang giải dở — ví dụ chứng minh định lý toán qua 20 bước. Dùng Long-term (lưu file markdown các công thức đã học) để AI có thể "ôn tập" cùng bạn sau 1 tháng, không bắt đầu từ đầu.

Content creator & người đi làm

Short-term giúp AI duy trì tone giọng vừa chỉnh 5 phút trước ("hài hước hơn chút"). Long-term lưu brand voice guideline, previous campaign data để AI viết content consistent với thương hiệu qua nhiều tháng.

Doanh nghiệp xây dựng AI Agent

Thiết kế tiered memory system:

  • Hot data: User context, session state (Short-term)
  • Warm data: Lịch sử 7 ngày gần nhất, cached summaries
  • Cold data: Archive từ năm ngoái (Long-term với RAG)

So sánh

Tiêu chíShort-term MemoryLong-term Memory
Vị trí lưu trữContext WindowVector DB, SQL, File System
Thời gian tồn tại1 session (đến khi tắt tab)Vĩnh viễn (cho đến khi xóa)
Cách truy cậpImmediate (0ms)Retrieval (tốn 1-5 giây)
Chi phíCao (tính theo input tokens)Rẻ (lưu trữ ít tốn kém, retrieval trả phí embedding)
Dung lượngHạn chế (4K-200K tokens)Gần như vô hạn (TB dữ liệu)
Khi nào dùngContext hiện tại, conversation flowKiến thức domain, lịch sử lâu dài

Kết luận: Short-term là "đang nghĩ", Long-term là "tra cứu". Một AI thông minh cần cả hai: Short-term để duy trì mạch lạc conversation, Long-term để có kiến thức chuyên sâu. Không có Long-term, AI chỉ là người mới vào nghề mỗi ngày. Không có Short-term, AI trở thành thư viện tra cứu chứ không phải trợ lý hội thoại.

Bài viết liên quan

Cùng cụm

Conversation Memory Patterns

Các pattern cơ bản để AI duy trì mạch hội thoại trong Short-term Memory

Thiết kế kiến trúc Memory

Học cách xây dựng hệ thống 3 tầng như Claude Code cho sản phẩm của bạn

Multi-turn Strategy

Quản lý conversation dài khi Short-term Memory sắp đầy

Context Pruning & Summarization

Kỹ thuật nén thông tin để tiết kiệm Context Window hiệu quả

Đọc tiếp

Context Management

Tìm hiểu sâu hơn về cách quản lý Context Window — nền tảng của Short-term Memory

State & Session Management

Khi cần persistence phức tạp hơn cho AI Agent production

Harness Fundamentals

Thiết kế hệ thống lớn hơn cho AI Agent với memory architecture hoàn chỉnh

On this page