Knowledge Graph: Tổ chức kiến thức có cấu trúc cho AI
Knowledge Graph giúp AI hiểu mối quan hệ giữa các thực thể thay vì chỉ tìm kiếm từ khóa. Khám phá cách tổ chức dữ liệu có cấu trúc để RAG thông minh hơn.
Định nghĩa
Knowledge Graph là cấu trúc dữ liệu biểu diễn kiến thức dưới dạng các nút (entities) và cạnh (relationships), giúp AI không chỉ tìm thấy thông tin mà còn hiểu được ngữ cảnh và mối liên hệ logic giữa chúng.
Giải thích chi tiết
Tại sao Vector Search chưa đủ?
Vector Search — kỹ thuật cốt lõi trong Embedding và Vector Search — tìm kiếm dựa trên độ tương đồng ngữ nghĩa. Nhưng nó có điểm mù: mù quan hệ logic.
Ví dụ: Bạn có hai đoạn văn riêng biệt trong tài liệu công ty. Đoạn 1 nói "Steve Jobs là người sáng lập một công ty công nghệ lớn". Đoạn 2 nói "Apple Inc được thành lập năm 1976 tại California". Khi hỏi "Ai sáng lập Apple?", Vector Search có thể tìm thấy cả hai đoạn vì chúng đều liên quan đến từ khóa, nhưng nó không biết rằng Steve Jobs chính là người sáng lập Apple — trừ khi cụm từ đó xuất hiện trong cùng một chunk.
Knowledge Graph giải quyết bằng cách tách biệt thông tin thành các thực thể và nối chúng lại: Steve Jobs --founder_of--> Apple Inc.
Cấu trúc cơ bản: Nodes và Edges
Thay vì lưu trữ text dạng phẳng (flat), Knowledge Graph lưu trữ dữ liệu dưới dạng đồ thị có hướng:
- Nodes (Entities): Các đối tượng cụ thể — người, công ty, sản phẩm, khái niệm, địa điểm. Ví dụ:
iPhone 15,Tim Cook,Cupertino,A17 Pro. - Edges (Relationships): Các liên kết có nhãn giữa nodes, thể hiện quan hệ ngữ nghĩa. Ví dụ:
Tim Cook--CEO_of-->Apple Inc,iPhone 15--uses_chip-->A17 Pro,A17 Pro--manufactured_by-->TSMC. - Properties: Thuộc tính của nodes hoặc edges (ngày sinh, năm thành lập, số lượng).
Khi AI cần trả lời câu hỏi, nó không chỉ "tìm text giống nhất" mà có thể traverse (duyệt) theo các cạnh để khám phá thông tin liên quan.
Graph RAG: Kết hợp Graph và Retrieval
Trong hệ thống RAG nâng cao (thường gọi là Graph RAG), quy trình thường là:
- Entity Extraction: Từ câu hỏi người dùng (ví dụ: "Chip của iPhone do ai sản xuất?"), hệ thống trích xuất entities chính:
iPhone,chip. - Graph Traversal: Tìm nodes tương ứng trong graph, sau đó "đi" theo các cạnh để thu thập thông tin. Ví dụ:
iPhone 15→uses_chip→A17 Pro→manufactured_by→TSMC. - Context Synthesis: Kết hợp các facts thu thập được từ graph thành context rõ ràng để đưa vào LLM.
Điểm mạnh cốt lõi là multi-hop reasoning — khả năng suy luận qua nhiều bước. Câu hỏi "CEO của công ty sản xuất chip cho iPhone là ai?" đòi hỏi 3 bước nối liền, thứ mà Vector Search đơn thuần không thể thực hiện nếu thông tin nằm rải rác trong nhiều đoạn văn.
Ví dụ thực tế
Hệ thống hỗ trợ khách hàng ngân hàng
Thay vì tìm kiếm keyword thẻ bị khóa trong FAQ, hệ thống dùng Knowledge Graph để hiểu nguyên nhân:
- Entities:
Thẻ tín dụng #9999,Khách hàng Nguyễn Văn A,ATM Chi nhánh B,Giao dịch lúc 20:00. - Relationships:
Nguyễn Văn Asở_hữuThẻ #9999,Thẻ #9999bị_khóa_sauGiao dịch 20:00,Giao dịch 20:00có_trạng_tháinhập_sai_PIN_3_lần.
Khi khách hỏi "Sao tôi không rút được tiền?", AI traverse graph: tìm thẻ của khách → thấy trạng thái khóa → lần ngược về giao dịch cuối → xác định nguyên nhân nhập sai PIN. Trả lời chính xác: "Thẻ bị khóa tự động do nhập sai PIN 3 lần liên tiếp tại ATM Chi nhánh B lúc 20:00. Thẻ sẽ tự mở sau 24h hoặc chị có thể mở khóa qua app bằng e-KYC."
Phân tích hợp đồng pháp lý
Trong bộ tài liệu pháp lý, các điều khoản liên tham chiếu phức tạp. Knowledge Graph nối:
Điều 5(Thanh toán)tham_chiếu_đếnĐiều 12(Phạt vi phạm)Điều 12liên_quan_đếnPhụ lục A(Lãi suất trễ)
Khi luật sư hỏi "Hậu quả của thanh toán trễ là gì?", AI không chỉ tìm đoạn có chữ thanh toán trễ mà còn theo graph để tìm các điều khoản phạt, lãi suất cụ thể, và điều kiện chấm dứt hợp đồng — những thông tin nằm rải rác ở nhiều chương khác nhau.
Recommendation Engine cá nhân hóa
Sản phẩm được tìm không chỉ theo mô tả (vector) mà theo quan hệ thực:
Người dùng Ađã_muaMacBook Pro M3MacBook Pro M3có_phụ_kiện_phù_hợpHub USB-C 7-in-1Hub USB-C 7-in-1thường_được_mua_cùngChuột Logitech MX Master 3S
Hệ thống đề xuất chuột Logitech cho người dùng vừa mua MacBook, ngay cả khi họ chưa từng tìm kiếm từ khóa chuột.
Ứng dụng
Sinh viên & Nghiên cứu sinh
Tổ chức kiến thức môn học phức tạp như Lịch sử hoặc Y học. Các sự kiện lịch sử là nodes, quan hệ nhân-quả/chronology là edges. Hỏi "Nguyên nhân của Chiến tranh Thế giới thứ 2 liên quan gì đến suy thoái kinh tế Mỹ?" — AI đi theo các edges để nối Suy thoái 1929 → Thất nghiệp → Chủ nghĩa dân tộc cực đoan → WWII.
Người đi làm (Sales & Marketing)
CRM thông minh: Theo dõi mối quan hệ giữa khách hàng, công ty, và sản phẩm. Phát hiện cơ hội bằng cách tìm paths ẩn: Khách hàng A từng làm việc tại Công ty B → Công ty B vừa mua sản phẩm X → Khách hàng A hiện làm ở Công ty C (prospect mới) → Tiếp cận A để bán X cho C.
Doanh nghiệp (Legal & R&D)
Quản lý portfolio patent và trích dẫn khoa học. Các bằng sáng chế liên hệ qua trích_dẫn, cùng_tác_giả, cùng_công_nghệ. Phát hiện vi phạm bằng sáng chế hoặc cơ hội hợp tác bằng cách tìm các nodes kết nối chưa được khai thác.
So sánh
| Tiêu chí | Vector Database (Plain RAG) | Knowledge Graph (Graph RAG) |
|---|---|---|
| Đơn vị lưu trữ | Chunks văn bản (text phẳng) | Entities và Relationships có cấu trúc |
| Tìm kiếm | Semantic similarity (so sánh vector) | Graph traversal + semantic |
| Suy luận | Single-hop (1 bước, tìm gần nhất) | Multi-hop (nhiều bước, suy luận chuỗi) |
| Truy vấn phức tạp | Yếu với câu hỏi liên quan nhiều entity | Mạnh với câu hỏi cần nối mối quan hệ |
| Chi phí xây dựng | Thấp (chỉ cần embedding) | Cao (cần extract entities, maintain schema) |
| Cập nhật dữ liệu | Dễ dàng (thêm chunk mới) | Phức tạp (cần cập nhật nodes và edges) |
Kết luận: Knowledge Graph không thay thế Vector Database mà bổ sung cho nhau. Trong thực tế, hệ thống production thường dùng hybrid: Vector search để tìm entry points (các đoạn văn liên quan), sau đó dùng Knowledge Graph để traverse và lấy thêm thông tin cấu trúc từ các entities được nhắc đến.
Bài viết liên quan
Cùng cụm
RAG là gì? Retrieval-Augmented Generation giải thích đơn giản
Hiểu nền tảng RAG trước khi nâng cấp lên Graph RAG
Embedding và Vector Search: Cách AI tìm thông tin liên quan
Cơ chế tìm kiếm ngữ nghĩa bằng vector — công cụ tìm entry points cho Knowledge Graph
Chunking Strategies: Chia tài liệu thế nào cho AI đọc tốt?
Kỹ thuật chia nhỏ tài liệu trước khi trích xuất entities vào graph
Reranking & Filtering: Lọc và xếp hạng context trước khi đưa vào
Làm sạch kết quả từ Graph hoặc Vector search trước khi đưa vào LLM
Đọc tiếp
Quản lý Context
Quay lại học cách tổ chức thông tin cơ bản — hiểu context window trước khi xây dựng cấu trúc phức tạp
Memory & Conversation
Cách duy trì thông tin xuyên suốt cuộc hội thoại, bổ sung cho cấu trúc tĩnh của Knowledge Graph
Tool Use & MCP
Kết hợp Knowledge Graph với Tool Use để AI không chỉ trả lời mà còn thực hiện hành động trên các entities
Chunking Strategies: Chia tài liệu thế nào cho AI đọc tốt?
Cách chia nhỏ tài liệu để RAG hiệu quả: từ fixed-size đến semantic chunking, chiến lược overlap và bảo toàn ngữ cảnh cho tiếng Việt.
Reranking & Filtering: Lọc và xếp hạng context trước khi đưa vào
Hướng dẫn tối ưu RAG pipeline bằng Reranking và Filtering. Học cách loại bỏ nhiễu và chọn đúng context cho AI, thay vì nhồi nhét tất cả vào prompt.