跳轉到

Agentic RAG(2026):從固定檢索到會規劃、自我修正的檢索迴圈

整理自外部來源(見文末),2026-06-19。是 RAG 完整指南 的續集:RAG 已從 2023–2025 的「embed → top-k → 生成」固定管線,進化成會規劃、檢索、批判、改寫、反思的自主迴圈。

⚠️ 文中的延遲 / 成本 / 精度數字皆引自下列來源的整理,屬該指南的 benchmark 與經驗值,非獨立複現,當「量級參考」看。

RAG 架構光譜

架構 流程 延遲 每查成本 適用
Naive RAG query embed → 向量搜尋 → 生成 100–500ms $0.001–0.01 簡單 QA、FAQ、直接查文件
Advanced RAG query 轉換 → 混合檢索 → 重排 → 合成 0.5–2s $0.005–0.03 要更準的正式系統
Agentic RAG agent 規劃 → 檢索 → 評估足夠性 → 不足再檢索 → 合成 2–10s+ $0.01–0.10(3–10×) 多跳推理、會自我修正
GraphRAG 實體抽取 → 知識圖 → 社群偵測 → 圖遍歷 1–5s $0.02–0.15 跨文件關係 / 主題綜整
Adaptive RAG 複雜度分類器把 query 路由到對的管線 視情況 最佳化 混合負載:簡單走便宜、複雜走 agentic/graph

2026 的浮現最佳實踐 = Adaptive RAG:用一個 query 分類器,讓簡單問題走便宜管線、複雜問題才動用昂貴的 agentic / graph,平衡成本與品質。

Agentic RAG 的本質

把檢索放進一個自主決策迴圈:由 LLM agent 主動控制「何時、如何、檢索什麼」,用迭代查詢、多步規劃、自導搜尋,直到對答案有信心才停。常用 LangGraph(有狀態、可循環的圖編排:條件分支、持久 checkpoint、可插入 human-in-the-loop)來建模整個流程。

GraphRAG 家族(值得記住的名字)

  • GraphRAG(Microsoft):從語料建實體–關係圖,做社群偵測與全域 / 局部檢索。
  • RAPTOR:遞迴摘要建階層樹結構。
  • LightRAG:知識圖 + 向量檢索結合,兼顧 local / global。
  • HippoRAG:模仿海馬迴記憶索引,用 Personalized PageRank 做檢索。

關鍵優化技巧(多數架構通用)

  • 混合檢索(Hybrid):dense(語義)+ sparse(BM25)以 RRF 融合。來源稱 recall 可從 BM25 單用的 0.72 升到 0.91,被列為「所有正式系統的正確預設」。
  • 重排(Reranking):用 cross-encoder 重排初步結果,來源稱 +10–25% 精度。注意:很多 reranker 會在 512 token 靜默截斷。選項如 Cohere Rerank 3.5、ColBERT v2。
  • Query 轉換:Multi-Query(多種改寫後融合)、HyDE(先生成假設答案再 embed)、Decomposition(拆子問題)。
  • Chunking:來源建議 200–500 token、10–20% overlap;語義切塊的 faithfulness(0.79–0.82)明顯優於固定大小切塊(0.47–0.51)。

什麼時候不要用 RAG

  • 靜態語料 < 100 頁 → 直接用長 context。
  • 語料塞得進 context window → 「長 context + prompt caching」(來源稱可省約 90% 成本)。
  • 要改變模型行為 → 該 fine-tune,不是 RAG。
  • 需要全域理解 → 偏好長 context 模型。

評估(生產品質目標值)

指標 目標
Faithfulness > 0.8
Answer relevancy > 0.8
Context precision > 0.8
Context recall > 0.7

工具:RAGAS、DeepEval、Langfuse。

核心經驗法則:「80% 的 RAG 問題是檢索問題,不是生成問題。」 除錯先從 chunk 相關性分數逐段追。

學術視角的缺口(RAG 系統綜述)

仍未解的限制:生成端 context 長度約束、檢索後幻覺仍在、檢索文件與模型訓練知識的知識衝突、長文件處理、歸因 / 事實查核、運算效率。未來方向:自適應檢索的 agentic 架構、多模態混合檢索、結構化知識整合、時序 / 知識更新處理。

參考來源