Knowledge Graph: Tổ chức kiến thức có cấu trúc cho AI

Knowledge Graph giúp AI hiểu mối quan hệ giữa các thực thể thay vì chỉ tìm kiếm từ khóa. Khám phá cách tổ chức dữ liệu có cấu trúc để RAG thông minh hơn.

Định nghĩa

Knowledge Graph là cấu trúc dữ liệu biểu diễn kiến thức dưới dạng các nút (entities) và cạnh (relationships), giúp AI không chỉ tìm thấy thông tin mà còn hiểu được ngữ cảnh và mối liên hệ logic giữa chúng.

Giải thích chi tiết

Tại sao Vector Search chưa đủ?

Vector Search — kỹ thuật cốt lõi trong Embedding và Vector Search — tìm kiếm dựa trên độ tương đồng ngữ nghĩa. Nhưng nó có điểm mù: mù quan hệ logic.

Ví dụ: Bạn có hai đoạn văn riêng biệt trong tài liệu công ty. Đoạn 1 nói "Steve Jobs là người sáng lập một công ty công nghệ lớn". Đoạn 2 nói "Apple Inc được thành lập năm 1976 tại California". Khi hỏi "Ai sáng lập Apple?", Vector Search có thể tìm thấy cả hai đoạn vì chúng đều liên quan đến từ khóa, nhưng nó không biết rằng Steve Jobs chính là người sáng lập Apple — trừ khi cụm từ đó xuất hiện trong cùng một chunk.

Knowledge Graph giải quyết bằng cách tách biệt thông tin thành các thực thể và nối chúng lại: Steve Jobs --founder_of--> Apple Inc.

Cấu trúc cơ bản: Nodes và Edges

Thay vì lưu trữ text dạng phẳng (flat), Knowledge Graph lưu trữ dữ liệu dưới dạng đồ thị có hướng:

Nodes (Entities): Các đối tượng cụ thể — người, công ty, sản phẩm, khái niệm, địa điểm. Ví dụ: iPhone 15, Tim Cook, Cupertino, A17 Pro.
Edges (Relationships): Các liên kết có nhãn giữa nodes, thể hiện quan hệ ngữ nghĩa. Ví dụ: Tim Cook --CEO_of--> Apple Inc, iPhone 15 --uses_chip--> A17 Pro, A17 Pro --manufactured_by--> TSMC.
Properties: Thuộc tính của nodes hoặc edges (ngày sinh, năm thành lập, số lượng).

Khi AI cần trả lời câu hỏi, nó không chỉ "tìm text giống nhất" mà có thể traverse (duyệt) theo các cạnh để khám phá thông tin liên quan.

Graph RAG: Kết hợp Graph và Retrieval

Trong hệ thống RAG nâng cao (thường gọi là Graph RAG), quy trình thường là:

Entity Extraction: Từ câu hỏi người dùng (ví dụ: "Chip của iPhone do ai sản xuất?"), hệ thống trích xuất entities chính: iPhone, chip.
Graph Traversal: Tìm nodes tương ứng trong graph, sau đó "đi" theo các cạnh để thu thập thông tin. Ví dụ: iPhone 15 → uses_chip → A17 Pro → manufactured_by → TSMC.
Context Synthesis: Kết hợp các facts thu thập được từ graph thành context rõ ràng để đưa vào LLM.

Điểm mạnh cốt lõi là multi-hop reasoning — khả năng suy luận qua nhiều bước. Câu hỏi "CEO của công ty sản xuất chip cho iPhone là ai?" đòi hỏi 3 bước nối liền, thứ mà Vector Search đơn thuần không thể thực hiện nếu thông tin nằm rải rác trong nhiều đoạn văn.

Ví dụ thực tế

Hệ thống hỗ trợ khách hàng ngân hàng

Thay vì tìm kiếm keyword thẻ bị khóa trong FAQ, hệ thống dùng Knowledge Graph để hiểu nguyên nhân:

Entities: Thẻ tín dụng #9999, Khách hàng Nguyễn Văn A, ATM Chi nhánh B, Giao dịch lúc 20:00.
Relationships: Nguyễn Văn A sở_hữu Thẻ #9999, Thẻ #9999 bị_khóa_sau Giao dịch 20:00, Giao dịch 20:00 có_trạng_thái nhập_sai_PIN_3_lần.

Khi khách hỏi "Sao tôi không rút được tiền?", AI traverse graph: tìm thẻ của khách → thấy trạng thái khóa → lần ngược về giao dịch cuối → xác định nguyên nhân nhập sai PIN. Trả lời chính xác: "Thẻ bị khóa tự động do nhập sai PIN 3 lần liên tiếp tại ATM Chi nhánh B lúc 20:00. Thẻ sẽ tự mở sau 24h hoặc chị có thể mở khóa qua app bằng e-KYC."

Phân tích hợp đồng pháp lý

Trong bộ tài liệu pháp lý, các điều khoản liên tham chiếu phức tạp. Knowledge Graph nối:

Điều 5 (Thanh toán) tham_chiếu_đến Điều 12 (Phạt vi phạm)
Điều 12 liên_quan_đến Phụ lục A (Lãi suất trễ)

Khi luật sư hỏi "Hậu quả của thanh toán trễ là gì?", AI không chỉ tìm đoạn có chữ thanh toán trễ mà còn theo graph để tìm các điều khoản phạt, lãi suất cụ thể, và điều kiện chấm dứt hợp đồng — những thông tin nằm rải rác ở nhiều chương khác nhau.

Recommendation Engine cá nhân hóa

Sản phẩm được tìm không chỉ theo mô tả (vector) mà theo quan hệ thực:

Người dùng A đã_mua MacBook Pro M3
MacBook Pro M3 có_phụ_kiện_phù_hợp Hub USB-C 7-in-1
Hub USB-C 7-in-1 thường_được_mua_cùng Chuột Logitech MX Master 3S

Hệ thống đề xuất chuột Logitech cho người dùng vừa mua MacBook, ngay cả khi họ chưa từng tìm kiếm từ khóa chuột.

Ứng dụng

Sinh viên & Nghiên cứu sinh

Tổ chức kiến thức môn học phức tạp như Lịch sử hoặc Y học. Các sự kiện lịch sử là nodes, quan hệ nhân-quả/chronology là edges. Hỏi "Nguyên nhân của Chiến tranh Thế giới thứ 2 liên quan gì đến suy thoái kinh tế Mỹ?" — AI đi theo các edges để nối Suy thoái 1929 → Thất nghiệp → Chủ nghĩa dân tộc cực đoan → WWII.

Người đi làm (Sales & Marketing)

CRM thông minh: Theo dõi mối quan hệ giữa khách hàng, công ty, và sản phẩm. Phát hiện cơ hội bằng cách tìm paths ẩn: Khách hàng A từng làm việc tại Công ty B → Công ty B vừa mua sản phẩm X → Khách hàng A hiện làm ở Công ty C (prospect mới) → Tiếp cận A để bán X cho C.

Doanh nghiệp (Legal & R&D)

Quản lý portfolio patent và trích dẫn khoa học. Các bằng sáng chế liên hệ qua trích_dẫn, cùng_tác_giả, cùng_công_nghệ. Phát hiện vi phạm bằng sáng chế hoặc cơ hội hợp tác bằng cách tìm các nodes kết nối chưa được khai thác.

So sánh

Tiêu chí	Vector Database (Plain RAG)	Knowledge Graph (Graph RAG)
Đơn vị lưu trữ	Chunks văn bản (text phẳng)	Entities và Relationships có cấu trúc
Tìm kiếm	Semantic similarity (so sánh vector)	Graph traversal + semantic
Suy luận	Single-hop (1 bước, tìm gần nhất)	Multi-hop (nhiều bước, suy luận chuỗi)
Truy vấn phức tạp	Yếu với câu hỏi liên quan nhiều entity	Mạnh với câu hỏi cần nối mối quan hệ
Chi phí xây dựng	Thấp (chỉ cần embedding)	Cao (cần extract entities, maintain schema)
Cập nhật dữ liệu	Dễ dàng (thêm chunk mới)	Phức tạp (cần cập nhật nodes và edges)

Kết luận: Knowledge Graph không thay thế Vector Database mà bổ sung cho nhau. Trong thực tế, hệ thống production thường dùng hybrid: Vector search để tìm entry points (các đoạn văn liên quan), sau đó dùng Knowledge Graph để traverse và lấy thêm thông tin cấu trúc từ các entities được nhắc đến.

Knowledge Graph: Tổ chức kiến thức có cấu trúc cho AI

Định nghĩa

Giải thích chi tiết

Tại sao Vector Search chưa đủ?

Cấu trúc cơ bản: Nodes và Edges

Graph RAG: Kết hợp Graph và Retrieval

Ví dụ thực tế

Hệ thống hỗ trợ khách hàng ngân hàng

Phân tích hợp đồng pháp lý

Recommendation Engine cá nhân hóa

Ứng dụng

Sinh viên & Nghiên cứu sinh

Người đi làm (Sales & Marketing)

Doanh nghiệp (Legal & R&D)

So sánh

Bài viết liên quan

Cùng cụm

RAG là gì? Retrieval-Augmented Generation giải thích đơn giản

Embedding và Vector Search: Cách AI tìm thông tin liên quan

Chunking Strategies: Chia tài liệu thế nào cho AI đọc tốt?

Reranking & Filtering: Lọc và xếp hạng context trước khi đưa vào

Đọc tiếp

Quản lý Context

Memory & Conversation

Tool Use & MCP

On this page