Agentic RAG(2026):從固定檢索到會規劃、自我修正的檢索迴圈¶
整理自外部來源(見文末),2026-06-19。是 RAG 完整指南 的續集:RAG 已從 2023–2025 的「embed → top-k → 生成」固定管線,進化成會規劃、檢索、批判、改寫、反思的自主迴圈。
⚠️ 文中的延遲 / 成本 / 精度數字皆引自下列來源的整理,屬該指南的 benchmark 與經驗值,非獨立複現,當「量級參考」看。
RAG 架構光譜¶
| 架構 | 流程 | 延遲 | 每查成本 | 適用 |
|---|---|---|---|---|
| Naive RAG | query embed → 向量搜尋 → 生成 | 100–500ms | $0.001–0.01 | 簡單 QA、FAQ、直接查文件 |
| Advanced RAG | query 轉換 → 混合檢索 → 重排 → 合成 | 0.5–2s | $0.005–0.03 | 要更準的正式系統 |
| Agentic RAG | agent 規劃 → 檢索 → 評估足夠性 → 不足再檢索 → 合成 | 2–10s+ | $0.01–0.10(3–10×) | 多跳推理、會自我修正 |
| GraphRAG | 實體抽取 → 知識圖 → 社群偵測 → 圖遍歷 | 1–5s | $0.02–0.15 | 跨文件關係 / 主題綜整 |
| Adaptive RAG | 複雜度分類器把 query 路由到對的管線 | 視情況 | 最佳化 | 混合負載:簡單走便宜、複雜走 agentic/graph |
2026 的浮現最佳實踐 = Adaptive RAG:用一個 query 分類器,讓簡單問題走便宜管線、複雜問題才動用昂貴的 agentic / graph,平衡成本與品質。
Agentic RAG 的本質¶
把檢索放進一個自主決策迴圈:由 LLM agent 主動控制「何時、如何、檢索什麼」,用迭代查詢、多步規劃、自導搜尋,直到對答案有信心才停。常用 LangGraph(有狀態、可循環的圖編排:條件分支、持久 checkpoint、可插入 human-in-the-loop)來建模整個流程。
GraphRAG 家族(值得記住的名字)¶
- GraphRAG(Microsoft):從語料建實體–關係圖,做社群偵測與全域 / 局部檢索。
- RAPTOR:遞迴摘要建階層樹結構。
- LightRAG:知識圖 + 向量檢索結合,兼顧 local / global。
- HippoRAG:模仿海馬迴記憶索引,用 Personalized PageRank 做檢索。
關鍵優化技巧(多數架構通用)¶
- 混合檢索(Hybrid):dense(語義)+ sparse(BM25)以 RRF 融合。來源稱 recall 可從 BM25 單用的 0.72 升到 0.91,被列為「所有正式系統的正確預設」。
- 重排(Reranking):用 cross-encoder 重排初步結果,來源稱 +10–25% 精度。注意:很多 reranker 會在 512 token 靜默截斷。選項如 Cohere Rerank 3.5、ColBERT v2。
- Query 轉換:Multi-Query(多種改寫後融合)、HyDE(先生成假設答案再 embed)、Decomposition(拆子問題)。
- Chunking:來源建議 200–500 token、10–20% overlap;語義切塊的 faithfulness(0.79–0.82)明顯優於固定大小切塊(0.47–0.51)。
什麼時候不要用 RAG¶
- 靜態語料 < 100 頁 → 直接用長 context。
- 語料塞得進 context window → 「長 context + prompt caching」(來源稱可省約 90% 成本)。
- 要改變模型行為 → 該 fine-tune,不是 RAG。
- 需要全域理解 → 偏好長 context 模型。
評估(生產品質目標值)¶
| 指標 | 目標 |
|---|---|
| Faithfulness | > 0.8 |
| Answer relevancy | > 0.8 |
| Context precision | > 0.8 |
| Context recall | > 0.7 |
工具:RAGAS、DeepEval、Langfuse。
核心經驗法則:「80% 的 RAG 問題是檢索問題,不是生成問題。」 除錯先從 chunk 相關性分數逐段追。
學術視角的缺口(RAG 系統綜述)¶
仍未解的限制:生成端 context 長度約束、檢索後幻覺仍在、檢索文件與模型訓練知識的知識衝突、長文件處理、歸因 / 事實查核、運算效率。未來方向:自適應檢索的 agentic 架構、多模態混合檢索、結構化知識整合、時序 / 知識更新處理。