跳轉到

GraphRAG:用知識圖譜做檢索——適合什麼、代價是什麼

整理自論文與技術文件(見文末),2026-06-20。一般 RAG 把文件切塊、各自向量檢索,看不到跨文件的關聯與全局結構。GraphRAG 改成先把語料建成知識圖譜再檢索,擅長「需要連點、需要全局摘要」的問題——但前處理與推論代價不低。

實證標記:〔研究〕= 出自論文/技術文件;〔實務〕= 業界慣例或本人整理。預設 under-claim。

一句話定義

GraphRAG(Microsoft 提出)用 LLM 把非結構化文字自動建成知識圖譜(實體+關係),再用圖結構與社群摘要做檢索。 它補的是 naive RAG 的盲點:跨文件關聯與全局主題。〔研究〕

建圖到檢索的四階段〔研究〕

階段 做什麼
1. 實體/關係抽取 用 LLM 從文字抽出實體與它們之間的關係,建成知識圖譜
2. 社群偵測 Leiden 演算法做階層式分群,把圖切成多層「社群」
3. 社群摘要 把每個社群自動摘要成報告,形成多層的語意脈絡地圖
4. 圖感知檢索 結合社群層級脈絡 + 動態查詢路由做檢索

Local vs Global:兩種查詢,對應兩種問題

GraphRAG 透過社群偵測產生多層階層摘要,因此能同時支援兩種推理:〔研究〕

查詢 適合的問題 機制
Local Search 特定、實體中心的問題(「X 和 Y 的關係是?」) 從相關實體做局部鄰域擴展
Global Search 廣泛、主題式、跨整個語料的問題(「整份資料的主要趨勢是?」) 沿社群階層做全局導覽

〔實務〕這就是 GraphRAG 相對 naive RAG 的最大價值:naive 向量檢索擅長「找最相似的塊」,但答不好「綜觀全局」「多跳連點」的問題;GraphRAG 的社群摘要與圖遍歷正好補這塊。

代價:別忽略前處理與推論成本

GraphRAG 不是免費午餐。2025 的研究點出三個實際代價:〔研究〕

  1. 前處理貴:多趟實體/關係抽取 + 社群摘要生成,token 與算力成本高
  2. 推論延遲高:查詢時要遍歷圖、摘要社群,端到端延遲約為 2–3 倍
  3. 不易擴展:圖索引與其摘要隨語料規模超線性成長

〔實務〕含義:GraphRAG 適合語料相對穩定、問題偏全局/多跳、且值得付前處理成本的場景(如企業知識庫、研究文獻綜觀)。若問題大多是「查單一事實」、語料又常更新,naive/hybrid RAG 的 CP 值通常更高。

怎麼選:GraphRAG vs 一般 RAG〔實務〕

你的情況 傾向
問題多為「找特定事實/段落」 一般 RAG(hybrid + rerank,見 RAG 進階系列
問題需要跨文件連點、多跳推理 GraphRAG(或一般 RAG + 多跳改寫)
問題需要「綜觀全局/主題摘要」 GraphRAG 的 global search 是強項
語料常更新、要低延遲、預算緊 一般 RAG(GraphRAG 前處理與超線性索引是負擔)

實務上不必二選一:先用 hybrid RAG 打底,對確實需要全局/多跳的子問題再疊 GraphRAG,避免替整個語料付建圖成本。

延伸閱讀(本站)

來源