Vector database là gì?
Vector database là gì? Khám phá cơ chế lưu trữ và tìm kiếm theo ý nghĩa (semantic search) - nền tảng để ChatGPT đọc tài liệu và hệ thống gợi ý hoạt động thông minh.
Định nghĩa
Vector database là hệ thống lưu trữ và truy xuất dữ liệu dưới dạng vector (embedding) — những dãy số biểu diễn ý nghĩa ngôn ngữ — cho phép AI tìm kiếm thông tin theo ngữ cảnh thay vì chỉ khớp từ khóa chính xác.
Giải thích chi tiết
Từ chữ viết thành dãy số: Embedding là trái tim của Vector DB
Khi bạn đọc câu "con mèo đang ngủ", não bộ xử lý ý nghĩa. Còn AI — cụ thể là các mô hình NLP như BERT hay GPT — chuyển câu này thành một vector: dãy 768 hoặc 1536 con số thực (ví dụ: [0.23, -0.89, 0.15...]).
Vector database chính là nơi lưu trữ những dãy số này. Điểm kỳ diệu là những vector tương tự nhau đại diện cho ý nghĩa tương tự nhau. Câu "mèo con đang chợp mắt" sẽ có vector rất gần với "con mèo đang ngủ", dù từ vựng khác biệt hoàn toàn. Đây chính là cơ sở để AI hiểu được ngữ nghĩa thay vì chỉ đếm từ khóa.
Tìm kiếm gần đúng thay vì khớp chính xác
Database truyền thống (như MySQL) tìm kiếm bằng cách khớp chính xác: tìm dòng có cột "sản_phẩm" chứa chữ "giày thể thao". Nếu bạn gõ "sneaker chạy bộ", hệ thống trả về rỗng.
Vector database làm ngược lại. Nó dùng thuật toán Approximate Nearest Neighbor (ANN) — tìm những vector "gần nhất" trong không gian đa chiều. Khoảng cách được tính bằng cosine similarity (độ tương đồng cosin) hoặc Euclidean distance. Kết quả: tìm "giày chạy bộ" cũng ra "sneaker thể thao", "giày marathon" hay "running shoes" vì chúng nằm gần nhau trong không gian vector.
Kiến trúc bên trong: Indexing và sự đánh đổi
Lưu trữ triệu vector (mỗi vector 1536 chiều) và tìm kiếm brute-force (tính khoảng cách với từng cái) sẽ chậm đến mức vô dụng. Vector database giải quyết bằng cách xây dựng index (chỉ mục):
- HNSW (Hierarchical Navigable Small World): Tạo đồ thị nhiều lớp, tìm nhanh như đi đường tắt trong mạng lưới bạn bè.
- IVF (Inverted File Index): Gom cụm vector tương tự vào cùng nhóm, chỉ tìm trong nhóm liên quan.
Đánh đổi ở đây là recall vs speed: Tìm nhanh thì có thể bỏ sót vài kết quả tốt, nhưng với hàng triệu document, sự đánh đổi này chấp nhận được.
Vai trò trong pipeline AI hiện đại
Vector database đóng vai trò bộ nhớ dài hạn cho LLM. ChatGPT không nhớ cuộc trò chuyện cũ vĩnh viễn; nhưng khi bạn upload 100 trang PDF, hệ thống tách PDF thành đoạn văn → chuyển thành vector → lưu vào vector database. Khi bạn hỏi, AI tìm trong vector DB những đoạn liên quan nhất (retrieval) rồi mới trả lời (generation). Kỹ thuật này gọi là RAG (Retrieval Augmented Generation).
Ví dụ thực tế
Tìm kiếm trên Shopee/Tiki không cần đúng chính tả Bạn gõ "váy đi biển" nhưng shop lại để tên "maxi dress hoa nhí". Cơ chế tìm kiếm semantic của sàn thương mại dùng vector database để hiểu rằng cả hai đều là trang phục dạo chơi ngoài trời, nên vẫn hiển thị đúng sản phẩm dù không chứa từ khóa chính xác.
Chatbot ngân hàng Techcombank/Vietcombank tra cứu điều khoản Khi khách hàng hỏi: "Vay mua nhà cần giấy tờ gì?", chatbot không duyệt hàng nghìn trang PDF. Nó chuyển câu hỏi thành vector, tìm trong vector database (chứa vector của tất cả điều khoản vay) để lấy ra 3 đoạn văn bản liên quan nhất, rồi dùng GPT tạo câu trả lời từ đó.
Gợi ý video TikTok/YouTube Shorts Mỗi video được chuyển thành vector tổng hợp từ nội dung hình ảnh, âm thanh, và caption. Khi bạn xem clip "nấu phở", vector của video đó được so sánh với kho video trong database để tìm những clip "nấu ăn Việt Nam" khác, dù người upload dùng hashtag hoàn toàn khác.
Ứng dụng
Sinh viên nghiên cứu Thay vì tìm kiếm Google Scholar bằng từ khóa chính xác, hệ thống semantic search dùng vector database cho phép bạn tìm các bài báo liên quan đến "tác động của mạng xã hội lên tâm lý" ngay cả khi bài báo chỉ dùng thuật ngữ "social media psychological effects" mà không có chữ "tâm lý" tiếng Việt.
Người làm marketing & content Tự động phân loại hàng nghìn email khách hàng theo ý định (mua hàng, khiếu nại, hỏi thông tin) bằng cách so sánh vector email với vector mẫu. Hoặc hệ thống gợi ý nội dung tương tự: bài viết nào trên blog công ty "giống" với bài khách đang đọc?
Doanh nghiệp vừa và lớn
- RAG cho tài liệu nội bộ: Nhân viên hỏi chatbot về quy trình xuất hóa đơn, hợp đồng mẫu, chính sách nghỉ phép — tất cả được trả lời dựa trên vector database của tài liệu công ty.
- Phát hiện gian lận: Giao dịch tài chính bất thường có vector "gần" với các vector giao dịch gian lận đã biết, giúp MoMo/VNPay cảnh báo real-time.
- Tìm kiếm hình ảnh: Tìm ảnh sản phẩm trong kho bằng cách upload ảnh chụp từ điện thoại (vector hóa ảnh rồi so sánh), không cần mã SKU.
So sánh
| Đặc điểm | Relational Database (SQL) | Document Database (NoSQL) | Vector Database |
|---|---|---|---|
| Dữ liệu lưu trữ | Bảng, hàng, cột có cấu trúc chặt chẽ | JSON, BSON linh hoạt | Vector số thực nhiều chiều (768-1536D) |
| Truy vấn chính | Exact match (WHERE id = 123) | Key lookup, range query | Similarity search (tìm gần nhất) |
| Chỉ mục | B-tree, Hash | B-tree, Inverted index | HNSW, IVF, PQ (Product Quantization) |
| Use case điển hình | Giao dịch ngân hàng, kế toán | CMS, catalog sản phẩm đa dạng | Tìm kiếm semantic, recommendation, RAG |
| Ví dụ công cụ | PostgreSQL, MySQL | MongoDB, Couchbase | Pinecone, Weaviate, Milvus, Chroma, pgvector |
Kết luận: Ba loại database không thay thế lẫn nhau. Ứng dụng AI hiện đại thường dùng kiến trúc hybrid: SQL lưu metadata (tên file, ngày upload), Vector DB lưu nội dung semantic, và Document DB lưu log.
Bài viết liên quan
Cùng cụm
- AI hiểu ngữ nghĩa như thế nào? — Hiểu cơ chế embedding biến ngôn ngữ thành vector để vector database có thể xử lý.
- NLP là gì? — Nền tảng xử lý ngôn ngữ tự nhiên tạo ra các vector mà vector database lưu trữ.
- NLU vs NLP — Phân biệt hiểu ngôn ngữ và xử lý ngôn ngữ, yếu tố quyết định chất lượng vector embedding.
- AI reasoning là gì? — Cách AI kết hợp vector retrieval với suy luận logic để trả lời câu hỏi phức tạp.
Đọc tiếp
- LLM Fundamentals — Tìm hiểu cách Large Language Models tạo ra các vector embedding để lưu vào vector database.
- Transformer Architecture — Kiến trúc neural network tạo nên nền tảng xử lý ngôn ngữ hiện đại, nơi các vector chất lượng cao được sinh ra để lưu trữ.
Embedding là gì?
Embedding là cách AI chuyển đổi văn bản, hình ảnh thành vector số để hiểu ngữ nghĩa. Khám phá cách TikTok gợi ý video và Shopee tìm hàng bằng hình ảnh.
AI hiểu ngữ nghĩa như thế nào?
Khám phá cách AI 'hiểu' ý nghĩa văn bản qua Word Embedding và Attention — từ thuật toán đơn giản đến ngữ cảnh phức tạp trong ChatGPT.