GraphRAG:用知識圖譜做檢索——適合什麼、代價是什麼¶
整理自論文與技術文件(見文末),2026-06-20。一般 RAG 把文件切塊、各自向量檢索,看不到跨文件的關聯與全局結構。GraphRAG 改成先把語料建成知識圖譜再檢索,擅長「需要連點、需要全局摘要」的問題——但前處理與推論代價不低。
實證標記:〔研究〕= 出自論文/技術文件;〔實務〕= 業界慣例或本人整理。預設 under-claim。
一句話定義¶
GraphRAG(Microsoft 提出)用 LLM 把非結構化文字自動建成知識圖譜(實體+關係),再用圖結構與社群摘要做檢索。 它補的是 naive RAG 的盲點:跨文件關聯與全局主題。〔研究〕
建圖到檢索的四階段〔研究〕¶
| 階段 | 做什麼 |
|---|---|
| 1. 實體/關係抽取 | 用 LLM 從文字抽出實體與它們之間的關係,建成知識圖譜 |
| 2. 社群偵測 | 用 Leiden 演算法做階層式分群,把圖切成多層「社群」 |
| 3. 社群摘要 | 把每個社群自動摘要成報告,形成多層的語意脈絡地圖 |
| 4. 圖感知檢索 | 結合社群層級脈絡 + 動態查詢路由做檢索 |
Local vs Global:兩種查詢,對應兩種問題¶
GraphRAG 透過社群偵測產生多層階層摘要,因此能同時支援兩種推理:〔研究〕
| 查詢 | 適合的問題 | 機制 |
|---|---|---|
| Local Search | 特定、實體中心的問題(「X 和 Y 的關係是?」) | 從相關實體做局部鄰域擴展 |
| Global Search | 廣泛、主題式、跨整個語料的問題(「整份資料的主要趨勢是?」) | 沿社群階層做全局導覽 |
〔實務〕這就是 GraphRAG 相對 naive RAG 的最大價值:naive 向量檢索擅長「找最相似的塊」,但答不好「綜觀全局」與「多跳連點」的問題;GraphRAG 的社群摘要與圖遍歷正好補這塊。
代價:別忽略前處理與推論成本¶
GraphRAG 不是免費午餐。2025 的研究點出三個實際代價:〔研究〕
- 前處理貴:多趟實體/關係抽取 + 社群摘要生成,token 與算力成本高。
- 推論延遲高:查詢時要遍歷圖、摘要社群,端到端延遲約為 2–3 倍。
- 不易擴展:圖索引與其摘要隨語料規模超線性成長。
〔實務〕含義:GraphRAG 適合語料相對穩定、問題偏全局/多跳、且值得付前處理成本的場景(如企業知識庫、研究文獻綜觀)。若問題大多是「查單一事實」、語料又常更新,naive/hybrid RAG 的 CP 值通常更高。
怎麼選:GraphRAG vs 一般 RAG〔實務〕¶
| 你的情況 | 傾向 |
|---|---|
| 問題多為「找特定事實/段落」 | 一般 RAG(hybrid + rerank,見 RAG 進階系列) |
| 問題需要跨文件連點、多跳推理 | GraphRAG(或一般 RAG + 多跳改寫) |
| 問題需要「綜觀全局/主題摘要」 | GraphRAG 的 global search 是強項 |
| 語料常更新、要低延遲、預算緊 | 一般 RAG(GraphRAG 前處理與超線性索引是負擔) |
實務上不必二選一:先用 hybrid RAG 打底,對確實需要全局/多跳的子問題再疊 GraphRAG,避免替整個語料付建圖成本。
延伸閱讀(本站)¶
- RAG 完整指南 — naive RAG 的基礎流程
- RAG 進階系列 — hybrid search、reranking、query rewriting
- Embeddings 與向量資料庫實務 — 向量檢索的底層
- LLM Evaluation 實務 — 評估檢索品質
來源¶
- GraphRAG: The Complete Guide to Graph-Powered RAG(Medium / Brian Curry)
- GraphRAG Explained: Enhancing RAG with Knowledge Graphs(Zilliz)
- How Microsoft GraphRAG Works Alongside a Graph Database(Memgraph)
- Knowledge Graph-Guided Retrieval Augmented Generation(arXiv 2502.06864)
- Engineering the RAG Stack: A Comprehensive Review(arXiv 2601.05264)