Kế 23: Căn cứ ký ức — Memory để AI nhớ xuyên sessions
Kế 23 Binh pháp AI: Xây dựng hệ thống memory file hai tầng (session + permanent) để AI không bị 'não cá vàng' giữa các phiên làm việc, tăng hiệu quả dự án dà...
Trại hậu cần không bao giờ quên
Thời Tam Quốc, Gia Cát Lượng khi bắc phạt phải đối mặt với nỗi ám ảnh lớn nhất của mọi đạo quân viễn chinh: tiếp tế. Ông không thể mang theo cả kho lương thực từ Thục Hán đi, cũng không thể mỗi lần cần lương lại phải phái sứ giả chạy về Tây Xuyên xin tiếp viện. Giải pháp của ông là xây dựng các trại hậu cần (căn cứ tiếp tế) dọc đường — nơi lương thực, khí giới được tích trữ có hệ thống, sẵn sàng khai thác khi đại quân đến nơi mà không cần chuyển toàn bộ từ xa.
Trong thế giới AI hiện đại, đa số người dùng đang mắc sai lầm của một vị tướng không có trại hậu cần: mỗi lần mở chat mới là một lần "đi xin tiếp tế" lại từ đầu — paste 50 trang tài liệu giới thiệu dự án, gõ lại 20 dòng yêu cầu kỹ thuật, nhắc lại quyết định từ phiên trước. AI thì "não cá vàng" theo đúng nghĩa đen: context window tan biến khi tab đóng, và bạn bắt đầu lại từ con số không.
Kế 23 Căn cứ ký ức (Memory Base Camp) dạy chúng ta xây dựng hệ thống lưu trữ hai tầng — một trại hậu cần thông minh nơi AI có thể "cắm trại" và ghi nhớ xuyên suốt chiến dịch dài hạn, thay vì mỗi trận đánh mỗi lần xin tiếp tế.
Vấn đề: "Retention without understanding"
MIT năm 2025 báo cáo một con số chua chát: 95% doanh nghiệp không thấy ROI từ AI vì lỗi "retention without understanding" — lưu giữ không hiểu. Họ paste hàng chục nghìn token vào chat mỗi lần, AI thì "nhớ" được nhưng không "hiểu" được, và sự thông minh tan rã khi context window bão hòa.
Cụ thể hơn, bạn đã bao giờ:
- Dành 30 phút giải thích dự án cho AI, rồi sang ngày mới phải paste lại toàn bộ tài liệu vì AI "quên sạch"?
- ChatGPT trả lời sai về yêu cầu kỹ thuật mà bạn đã sửa ở phiên trước, như vừa gặp bạn lần đầu?
- Claude bị "lạc trôi" giữa dự án dài 3 tuần vì context bị đè nén, phải nhắc lại từ đầu?
Đó là vì bạn đang dùng AI như bộ nhớ ngắn hạn (RAM) thay vì ổ cứng (Storage). Transformer không có sự ghi nhớ liên tục — chúng chỉ có context window, và attention mechanism bắt đầu "pha loãng" nghiêm trọng sau khoảng 10.000 token (attention snap-point). Mỗi lần bạn paste lại 50 trang PDF, bạn không đang "dạy AI nhớ", bạn đang phá hủy attention budget của phiên hiện tại.
Kế sách: Hai tầng trại hậu cần
Kế 23 không dùng "ký ức kỳ diệu" của AI. Thay vào đó, ta xây căn cứ ký ức vật lý — file system-based memory:
Tầng 1: Trại tạm (Session Memory)
Mỗi phiên làm việc, AI tự động tóm tắt tiến độ vào file session-memory/summary.md:
## Session 2024-01-15
**Trạng thái**: Đang refactor module authentication
**Kết quả chính**:
- Quyết định dùng JWT thay vì session-based (lý do: scale microservices)
- Bug #42: chưa fix, cần check lại middleware
**Log công việc**:
- 10:00 - Phân tích codebase cũ
- 11:30 - Draft architecture mới Cadence (nhịp điệu): Tóm tắt lần đầu sau ~10.000 token đầu vào, sau đó mỗi ~5.000 token hoặc 3 lần gọi tool. Tại sao 10k? Đó là attention snap-point — ngưỡng attention bắt đầu phân tán, cần nén thông tin để giữ signal.
Tầng 2: Căn cứ địa (Permanent Memory)
Khi phát hiện pattern tái diễn (quy tắc coding, preference viết văn), dùng lệnh /remember để đề xuất cập nhật file CLAUDE.local.md (hoặc PROJECT_MEMORY.md):
# Dự án: Fintech App Q2
## Nguyên tắc bất di bất dịch
- Không bao giờ dùng eval() trong code production
- Mọi API response phải qua Zod validation
- Tone giao tiếp: chuyên nghiệp nhưng không máy móc, tránh từ "tuyệt vời", "xuất sắc"
## Architecture decisions
- Database: PostgreSQL (đã bàn bạc ngày 10/01, bác bỏ Mongo vì consistency requirements)
- Cache layer: Redis cho session, không dùng cho business logic Cơ chế DAG-based (Directed Acyclic Graph): Thay vì lưu transcript dài dòng, ta lưu mối quan hệ nhân quả — quyết định A dẫn đến B, constraint X ảnh hưởng đến Y. Giống như não người không nhớ verbatim cuộc trò chuyện tuần trước, mà nhớ quyết định đã đưa ra và lý do.
Prompt mẫu khởi tạo căn cứ
Khi bắt đầu dự án mới, paste vào AI:
Chúng ta sẽ làm việc dài hạn trên dự án [TÊN]. Thiết lập "Căn cứ ký ức" như sau:
1. Mỗi khi đạt ~10k token context, tự động tóm tắt vào SESSION_SUMMARY với cấu trúc: Trạng thái | Kết quả chính | Bug/Todo | Log thời gian
2. Khi tôi nói "/remember [nội dung]", ghi vào PERMANENT_MEMORY dưới dạng nguyên tắc bất biến
3. Khi bắt đầu phiên mới, đọc lại PERMANENT_MEMORY trước khi trả lời
4. Dùng DAG-thinking: lưu mối quan hệ nhân quả giữa các quyết định, không lưu transcript đầy đủ
Bắt đầu bằng việc hỏi tôi 3 câu để xây dựng PERMANENT_MEMORY khởi thủy.That's it. Bạn không cần vector database phức tạp, không cần LangChain. Chỉ cần markdown files và quy tắc cadence.
Tại sao kế này hiệu quả?
Bí mật nằm ở "Structured Forgetting" (Quên có cấu trúc).
Não bộ con người không phải hard drive lưu verbatim. Bạn không nhớ từng câu nói trong họp tuần trước, nhưng bạn nhớ quyết định chuyển sang AWS và lý do chi phí. AI cũng vậy — lưu transcript 50 trang là tự sát attention budget, nhưng lưu quyết định + ngữ cảnh là tối ưu.
Attention Snap-Point: Research cho thấy transformer attention bắt đầu "phân tán" (flat attention weights) sau ~10k tokens. Bằng cách nén thành summary ngay tại điểm này, bạn reset attention budget cho phần việc tiếp theo, giống như dọn bàn làm việc trước khi bắt đầu task mới.
Two-tier architecture (Hai tầng trại) mô phỏng kiến trúc nhận thức sinh học:
- Working memory (bàn làm việc): Session file — chỉ những gì đang làm
- Long-term memory (tủ hồ sơ): Permanent file — nguyên tắc, constraint, lịch sử quyết định
Khi bạn load CLAUDE.local.md vào đầu phiên mới, bạn không "dạy lại" AI từ đầu, bạn khôi phục mental state — giống như mở lại IDE với các tab cũ và comment đã viết.
Ứng dụng thực chiến
Nếu bạn là Developer dùng Claude Code:
- Tự động tạo file
~/.claude/projects/<project_hash>/session-memory/summary.md - Dùng
/compactđể ép cadence summary ngay lập tức khi context rối /rememberđể ghi rule vào.claude/CLAUDE.local.md— ví dụ: "Luôn dùng TypeScript strict mode, không any"
Nếu bạn là Content Creator viết series dài:
- File
PERMANENT_MEMORY.mdchứa: Tone giọng (hài hước nhưng chuyên sâu), nhân vật recurring, timeline đã viết - Mỗi session chỉ cần nói: "Đọc lại permanent memory, tiếp tục Chapter 5 từ đoạn [trích dẫn summary]"
Nếu bạn là Data Analyst dự án 3 tháng:
- Lưu schema đã thống nhất, cleaning rules đã apply, vào permanent file
- Session file chỉ track "Đang làm cohort analysis tháng 3, đã loại outlier theo rule X"
So sánh: Cách thường vs Căn cứ ký ức
| Cách thường | Căn cứ ký ức (Kế 23) |
|---|---|
| Paste 50 trang context mỗi phiên | Load 1 file summary 500 từ |
| AI "quên" bug đã thảo luận | Bug được ghi vào session log |
| Nhắc lại yêu cầu kỹ thuật mỗi lần | Yêu cầu ở permanent file, tự động áp dụng |
| Attention phân tán sau 20k token | Attention reset sau mỗi 5-10k nhờ summary |
| Không có lịch sử quyết định | DAG giữ mối quan hệ nhân quả các quyết định |
Lưu ý quan trọng: Kế này không thay thế RAG (Kế 21) — RAG là tiếp tế thông tin (đưa tài liệu vào), Căn cứ ký ức là quản lý trạng thái nhận thức (giữ cho AI không bị mất trí giữa các phiên).
Đọc tiếp
Kế 24: Vây hãm tài liệu
Khi cần xử lý tài liệu 100+ trang trong một phiên — chiến thuật bao vây thay vì đọc dồn dập
Kế 21: Đường tiếp vận RAG
Kết nối knowledge base bên ngoài vào AI — nguồn tiếp tế thông tin liên tục
Kế 22: Bày trận địa lợi
Ép AI trả về JSON, bảng, format chuẩn — xây dựng cơ sở hạ tầng dữ liệu vững chắc
Cùng cụm Địa lợi: Kế 21 (RAG) → Kế 22 (Structured Output) → Kế 23 (Memory) → Kế 24 (Document Siege)
Link về móng: Kế 1: Chia để trị — nền tảng của việc chia nhỏ context để quản lý.
Kế 22: Bày trận địa lợi — Structured output ép format
Kế 22 Binh pháp AI: Dùng grammar-constrained decoding ép AI trả về JSON, bảng biểu, XML chuẩn xác 100%. Giảm 90% lỗi parsing và post-processing.
Kế 24: Vây hãm tài liệu — Chiến thuật xử lý 100+ trang
Kế 24 Binh pháp AI: Dùng chiến thuật vây hãm 4 pha để AI xử lý tài liệu dài 100+ trang hiệu quả, tránh Lost in the Middle và attention dilution