跳轉到

Shane's Knowledge Base

Multi-Agent 協作：模式與失敗隔離

YuHsunWang/knowledge-base-pages

Multi-Agent 協作：Orchestration 模式、通訊協定與失敗隔離¶

整理自廠商文件與技術分析（見文末），2026-06-20。當單一 agent 的 context、工具、職責塞不下時，會拆成多個 agent 協作。本頁講有哪些編排模式、它們各自的單點故障、agent 怎麼通訊、以及失敗最常發生在哪。

實證標記：〔廠商〕= 出自框架供應商文件；〔分析〕= 出自業界技術分析；〔實務〕= 業界慣例或本人整理。預設 under-claim。

先問：真的需要多 agent 嗎？¶

多 agent 不是越多越好——它放大除錯難度、延遲與成本。先確認單 agent 真的不行（context 爆、職責互斥、需要並行）再拆。能用「一個 agent + 好的工具」解決，就別開多 agent。〔實務〕

主要編排模式¶

模式	結構	取捨
Supervisor（主管）	中央協調者依執行狀態動態指派 worker	直覺、好控；但主管是單點故障與延遲下限
Sequential Pipeline（管線）	agent 分階段接力處理	簡單可預測；不適合需要回頭/分支的任務
Peer-to-Peer Mesh（網狀）	agent 經訊息匯流排直接互通	靈活；協調與除錯複雜
Event-Driven（事件驅動）	agent 對事件流反應	解耦、可擴展；流程不易一眼看懂
Swarm（蜂群）	無中央協調，靠局部互動/handoff	輕量好架；沒有單一 agent 有全局視野，handoff 出錯極難除錯

〔分析〕兩個極端的代價要記住：Supervisor 把風險集中在中央（掛了全停、所有流量過它）；Swarm 把風險分散但失去全局可見性（沒人知道整體走到哪）。多數生產系統落在中間：確定性的工作流引擎 + 少數 LLM 決策點，而不是讓 agent 全自由互推。

通訊：Handoff 是核心抽象¶

agent 之間最常見的協作原語是 handoff（交接）：一個 agent 顯式地把控制權轉給另一個，並帶著對話脈絡過去。〔廠商〕

主流框架（OpenAI Agents SDK、Google ADK、Anthropic Agent SDK）大多圍繞三件事：〔廠商〕 - Handoffs：agent 對 agent 的控制轉移。 - Guardrails：輸入/輸出驗證（在交接邊界把關）。 - Tracing：對整條 agent 鏈做端到端觀測（見 Agent Observability）。

〔廠商〕跨框架/跨廠商的通訊正在標準化：Google ADK 預設多 agent，用 A2A（Agent-to-Agent）協定跨 agent 溝通，能把 Google 的 worker 接到 Anthropic、自寫 Python、第三方 SaaS 的 agent。協定層的互通是 2025–26 的重點演進。

失敗最常發生在「交接」，不是 agent 內部¶

這是 multi-agent 最重要、也最反直覺的一點：〔分析〕

〔分析〕多數失敗發生在 agent 的 handoff，而非 agent 內部。 最典型的是無限交接迴圈：兩個 peer 互相不同意、把任務推來推去，沒有硬性回合上限就一直跑到告警才停。

對策是機械式的，不要靠模型「自己想通」：〔分析〕〔實務〕 1. 數 handoff、設硬上限（業界常見用 ~12 作通用天花板），超過就停。 2. 加第三方仲裁者（arbiter） 打破僵局。 3. 超限時回傳 best-so-far + 降級信心旗標，而不是無限重試或直接報錯。 4. 每個 agent 隔離在自己的容器，限制單一 agent 失控的爆炸半徑。 5. 高風險動作 human-in-the-loop（見 AI Agent 安全與權限）。

落地建議〔實務〕¶

先證明單 agent 不行再拆多 agent。
預設 Supervisor 或 Pipeline（好除錯）；只有在真的需要去中心化彈性時才上 Mesh/Swarm。
把編排骨架做成確定性工作流，LLM 只在「決策點」介入——別讓整個流程都靠模型即興。
每個 handoff 都要驗證 + 限次 + 可追蹤：guardrail 把關、handoff 計數上限、trace 端到端。
獨立子任務才並行（context 隔離、無共享狀態），呼應 Claude Code 的 subagent 紀律（見紀律框架對比）。

延伸閱讀（本站）¶

AI Agent Harness Engineering — 單 agent 的執行環境與控制流
Agent Observability — 用 trace 看清跨 agent 鏈與 handoff
AI Agent 安全與權限 — 每個 agent 的最小權限
Claude Code 紀律框架對比 — subagent / 並行工作流

來源¶