Vector database là gì?

Vector database là gì? Khám phá cơ chế lưu trữ và tìm kiếm theo ý nghĩa (semantic search) - nền tảng để ChatGPT đọc tài liệu và hệ thống gợi ý hoạt động thôn...

Định nghĩa

Vector database là hệ thống lưu trữ và truy xuất dữ liệu dưới dạng vector (embedding) — những dãy số biểu diễn ý nghĩa ngôn ngữ — cho phép AI tìm kiếm thông tin theo ngữ cảnh thay vì chỉ khớp từ khóa chính xác.

Giải thích chi tiết

Từ chữ viết thành dãy số: Embedding là trái tim của Vector DB

Khi bạn đọc câu "con mèo đang ngủ", não bộ xử lý ý nghĩa. Còn AI — cụ thể là các mô hình NLP như BERT hay GPT — chuyển câu này thành một vector: dãy 768 hoặc 1536 con số thực (ví dụ: [0.23, -0.89, 0.15...]).

Vector database chính là nơi lưu trữ những dãy số này. Điểm kỳ diệu là những vector tương tự nhau đại diện cho ý nghĩa tương tự nhau. Câu "mèo con đang chợp mắt" sẽ có vector rất gần với "con mèo đang ngủ", dù từ vựng khác biệt hoàn toàn. Đây chính là cơ sở để AI hiểu được ngữ nghĩa thay vì chỉ đếm từ khóa.

Tìm kiếm gần đúng thay vì khớp chính xác

Database truyền thống (như MySQL) tìm kiếm bằng cách khớp chính xác: tìm dòng có cột "sản_phẩm" chứa chữ "giày thể thao". Nếu bạn gõ "sneaker chạy bộ", hệ thống trả về rỗng.

Vector database làm ngược lại. Nó dùng thuật toán Approximate Nearest Neighbor (ANN) — tìm những vector "gần nhất" trong không gian đa chiều. Khoảng cách được tính bằng cosine similarity (độ tương đồng cosin) hoặc Euclidean distance. Kết quả: tìm "giày chạy bộ" cũng ra "sneaker thể thao", "giày marathon" hay "running shoes" vì chúng nằm gần nhau trong không gian vector.

Kiến trúc bên trong: Indexing và sự đánh đổi

Lưu trữ triệu vector (mỗi vector 1536 chiều) và tìm kiếm brute-force (tính khoảng cách với từng cái) sẽ chậm đến mức vô dụng. Vector database giải quyết bằng cách xây dựng index (chỉ mục):

HNSW (Hierarchical Navigable Small World): Tạo đồ thị nhiều lớp, tìm nhanh như đi đường tắt trong mạng lưới bạn bè.
IVF (Inverted File Index): Gom cụm vector tương tự vào cùng nhóm, chỉ tìm trong nhóm liên quan.

Đánh đổi ở đây là recall vs speed: Tìm nhanh thì có thể bỏ sót vài kết quả tốt, nhưng với hàng triệu document, sự đánh đổi này chấp nhận được.

Vai trò trong pipeline AI hiện đại

Vector database đóng vai trò bộ nhớ dài hạn cho LLM. ChatGPT không nhớ cuộc trò chuyện cũ vĩnh viễn; nhưng khi bạn upload 100 trang PDF, hệ thống tách PDF thành đoạn văn → chuyển thành vector → lưu vào vector database. Khi bạn hỏi, AI tìm trong vector DB những đoạn liên quan nhất (retrieval) rồi mới trả lời (generation). Kỹ thuật này gọi là RAG (Retrieval Augmented Generation).

Ví dụ thực tế

Tìm kiếm trên Shopee/Tiki không cần đúng chính tả Bạn gõ "váy đi biển" nhưng shop lại để tên "maxi dress hoa nhí". Cơ chế tìm kiếm semantic của sàn thương mại dùng vector database để hiểu rằng cả hai đều là trang phục dạo chơi ngoài trời, nên vẫn hiển thị đúng sản phẩm dù không chứa từ khóa chính xác.

Chatbot ngân hàng Techcombank/Vietcombank tra cứu điều khoản Khi khách hàng hỏi: "Vay mua nhà cần giấy tờ gì?", chatbot không duyệt hàng nghìn trang PDF. Nó chuyển câu hỏi thành vector, tìm trong vector database (chứa vector của tất cả điều khoản vay) để lấy ra 3 đoạn văn bản liên quan nhất, rồi dùng GPT tạo câu trả lời từ đó.

Gợi ý video TikTok/YouTube Shorts Mỗi video được chuyển thành vector tổng hợp từ nội dung hình ảnh, âm thanh, và caption. Khi bạn xem clip "nấu phở", vector của video đó được so sánh với kho video trong database để tìm những clip "nấu ăn Việt Nam" khác, dù người upload dùng hashtag hoàn toàn khác.

Ứng dụng

Sinh viên nghiên cứu Thay vì tìm kiếm Google Scholar bằng từ khóa chính xác, hệ thống semantic search dùng vector database cho phép bạn tìm các bài báo liên quan đến "tác động của mạng xã hội lên tâm lý" ngay cả khi bài báo chỉ dùng thuật ngữ "social media psychological effects" mà không có chữ "tâm lý" tiếng Việt.

Người làm marketing & content Tự động phân loại hàng nghìn email khách hàng theo ý định (mua hàng, khiếu nại, hỏi thông tin) bằng cách so sánh vector email với vector mẫu. Hoặc hệ thống gợi ý nội dung tương tự: bài viết nào trên blog công ty "giống" với bài khách đang đọc?

Doanh nghiệp vừa và lớn

RAG cho tài liệu nội bộ: Nhân viên hỏi chatbot về quy trình xuất hóa đơn, hợp đồng mẫu, chính sách nghỉ phép — tất cả được trả lời dựa trên vector database của tài liệu công ty.
Phát hiện gian lận: Giao dịch tài chính bất thường có vector "gần" với các vector giao dịch gian lận đã biết, giúp MoMo/VNPay cảnh báo real-time.
Tìm kiếm hình ảnh: Tìm ảnh sản phẩm trong kho bằng cách upload ảnh chụp từ điện thoại (vector hóa ảnh rồi so sánh), không cần mã SKU.

So sánh

Đặc điểm	Relational Database (SQL)	Document Database (NoSQL)	Vector Database
Dữ liệu lưu trữ	Bảng, hàng, cột có cấu trúc chặt chẽ	JSON, BSON linh hoạt	Vector số thực nhiều chiều (768-1536D)
Truy vấn chính	Exact match (WHERE id = 123)	Key lookup, range query	Similarity search (tìm gần nhất)
Chỉ mục	B-tree, Hash	B-tree, Inverted index	HNSW, IVF, PQ (Product Quantization)
Use case điển hình	Giao dịch ngân hàng, kế toán	CMS, catalog sản phẩm đa dạng	Tìm kiếm semantic, recommendation, RAG
Ví dụ công cụ	PostgreSQL, MySQL	MongoDB, Couchbase	Pinecone, Weaviate, Milvus, Chroma, pgvector

Kết luận: Ba loại database không thay thế lẫn nhau. Ứng dụng AI hiện đại thường dùng kiến trúc hybrid: SQL lưu metadata (tên file, ngày upload), Vector DB lưu nội dung semantic, và Document DB lưu log.