Multi-Agent 協作:Orchestration 模式、通訊協定與失敗隔離¶
整理自廠商文件與技術分析(見文末),2026-06-20。當單一 agent 的 context、工具、職責塞不下時,會拆成多個 agent 協作。本頁講有哪些編排模式、它們各自的單點故障、agent 怎麼通訊、以及失敗最常發生在哪。
實證標記:〔廠商〕= 出自框架供應商文件;〔分析〕= 出自業界技術分析;〔實務〕= 業界慣例或本人整理。預設 under-claim。
先問:真的需要多 agent 嗎?¶
多 agent 不是越多越好——它放大除錯難度、延遲與成本。先確認單 agent 真的不行(context 爆、職責互斥、需要並行)再拆。能用「一個 agent + 好的工具」解決,就別開多 agent。〔實務〕
主要編排模式¶
| 模式 | 結構 | 取捨 |
|---|---|---|
| Supervisor(主管) | 中央協調者依執行狀態動態指派 worker | 直覺、好控;但主管是單點故障與延遲下限 |
| Sequential Pipeline(管線) | agent 分階段接力處理 | 簡單可預測;不適合需要回頭/分支的任務 |
| Peer-to-Peer Mesh(網狀) | agent 經訊息匯流排直接互通 | 靈活;協調與除錯複雜 |
| Event-Driven(事件驅動) | agent 對事件流反應 | 解耦、可擴展;流程不易一眼看懂 |
| Swarm(蜂群) | 無中央協調,靠局部互動/handoff | 輕量好架;沒有單一 agent 有全局視野,handoff 出錯極難除錯 |
〔分析〕兩個極端的代價要記住:Supervisor 把風險集中在中央(掛了全停、所有流量過它);Swarm 把風險分散但失去全局可見性(沒人知道整體走到哪)。多數生產系統落在中間:確定性的工作流引擎 + 少數 LLM 決策點,而不是讓 agent 全自由互推。
通訊:Handoff 是核心抽象¶
agent 之間最常見的協作原語是 handoff(交接):一個 agent 顯式地把控制權轉給另一個,並帶著對話脈絡過去。〔廠商〕
主流框架(OpenAI Agents SDK、Google ADK、Anthropic Agent SDK)大多圍繞三件事:〔廠商〕 - Handoffs:agent 對 agent 的控制轉移。 - Guardrails:輸入/輸出驗證(在交接邊界把關)。 - Tracing:對整條 agent 鏈做端到端觀測(見 Agent Observability)。
〔廠商〕跨框架/跨廠商的通訊正在標準化:Google ADK 預設多 agent,用 A2A(Agent-to-Agent)協定跨 agent 溝通,能把 Google 的 worker 接到 Anthropic、自寫 Python、第三方 SaaS 的 agent。協定層的互通是 2025–26 的重點演進。
失敗最常發生在「交接」,不是 agent 內部¶
這是 multi-agent 最重要、也最反直覺的一點:〔分析〕
〔分析〕多數失敗發生在 agent 的 handoff,而非 agent 內部。 最典型的是無限交接迴圈:兩個 peer 互相不同意、把任務推來推去,沒有硬性回合上限就一直跑到告警才停。
對策是機械式的,不要靠模型「自己想通」:〔分析〕〔實務〕 1. 數 handoff、設硬上限(業界常見用 ~12 作通用天花板),超過就停。 2. 加第三方仲裁者(arbiter) 打破僵局。 3. 超限時回傳 best-so-far + 降級信心旗標,而不是無限重試或直接報錯。 4. 每個 agent 隔離在自己的容器,限制單一 agent 失控的爆炸半徑。 5. 高風險動作 human-in-the-loop(見 AI Agent 安全與權限)。
落地建議〔實務〕¶
- 先證明單 agent 不行再拆多 agent。
- 預設 Supervisor 或 Pipeline(好除錯);只有在真的需要去中心化彈性時才上 Mesh/Swarm。
- 把編排骨架做成確定性工作流,LLM 只在「決策點」介入——別讓整個流程都靠模型即興。
- 每個 handoff 都要驗證 + 限次 + 可追蹤:guardrail 把關、handoff 計數上限、trace 端到端。
- 獨立子任務才並行(context 隔離、無共享狀態),呼應 Claude Code 的 subagent 紀律(見 紀律框架對比)。
延伸閱讀(本站)¶
- AI Agent Harness Engineering — 單 agent 的執行環境與控制流
- Agent Observability — 用 trace 看清跨 agent 鏈與 handoff
- AI Agent 安全與權限 — 每個 agent 的最小權限
- Claude Code 紀律框架對比 — subagent / 並行工作流
來源¶
- Swarm vs. Supervisor: Multi-Agent Architecture Guide(Augment Code)
- Agent Orchestration Patterns: Swarm vs Mesh vs Hierarchical(Gurusup)
- Multi-Agent Orchestration: How to Coordinate AI Agents at Scale(Gurusup)
- Multi-agent system orchestration patterns(Paiteq)
- Best Multi-Agent Frameworks in 2026: LangGraph, CrewAI…(Gurusup)