LLM Evaluation 進階：Cost-Aware 評估、線上 A/B 與離線指標的對齊¶

這是 LLM Evaluation 實務的進階篇，2026-06-21。基礎篇已涵蓋 RAG 評估、Agent Trajectory、Golden Dataset 與 LLM-as-Judge 偏誤。本頁往前推進兩個常被省略的主題：把「成本」納入評估決策，以及離線評估與線上 A/B 怎麼不失真地對齊。

實證標記：〔論文〕= 出自學術論文；〔框架〕= 出自框架或平台官方文件；〔實務〕= 業界慣例或本人整理。

從「答對幾分」到 Cost-Quality 權衡¶

大多數離線評估只看品質分數，但實際部署時工程師面對的決策更像這樣：〔實務〕

用更強的模型把 faithfulness 從 0.83 推到 0.87，值得嗎？
同預算下，routing 能讓 80% 查詢走小模型，整體品質能維持嗎？
每次 eval run 本身要花多少 token？能長期負擔嗎？

成本不是評估的副產品，是評估的一個維度。 忽略成本的評估，給出的建議只在「預算無限」的假設下才成立。

Cost-Aware 評估的三個切入點¶

1. 在固定品質門檻內最小化成本¶

把問題倒過來問：「在品質 ≥ 門檻的前提下，最便宜的配置是什麼？」〔實務〕

做法： 1. 把所有候選配置跑過 golden set，記錄品質分數 + token 用量（in/out）。 2. 根據模型定價換算每千次查詢成本。 3. 畫出 quality–cost scatter plot：x 軸成本，y 軸品質，標出 Pareto frontier。 4. 設定業務決定的品質下限，在下限以上挑最便宜的配置。

配置	Faithfulness	Cost / 1000 queries (USD)	備註
Strong model (full)	0.91	4.20	基準
Mid model + rerank	0.87	0.95	Pareto 優選
Mid model (no rerank)	0.81	0.55	剛過門檻，最便宜
Weak model	0.72	0.18	低於門檻，不選

〔實務〕品質門檻是業務決策，不是技術決策——「faithfulness 0.80 夠用嗎？」要問產品，不要由工程師單方面設定。

2. 評估本身的 Token 預算¶

LLM-as-judge 呼叫次數一多，eval pipeline 本身的成本可能超過推理本身。〔實務〕

長鏈 agent trace 評估：每條 trace 呼叫 judge 多次，成本呈超線性上升。
解法：先用規則 / 快速指標篩一遍，只把模糊 case 送 judge。 典型做法：70% 用確定性指標（精確比對、格式驗證），30% 用 LLM judge，整體成本可壓縮 60–70%。
進一步選項：蒸餾 judge——用強模型做少量標注，再 fine-tune 一個小分類器當 judge，推理成本可低一至兩個數量級。〔實務〕

3. Routing 評估：評路由決策本身¶

若系統有模型 routing（難題走強模型、簡單查詢走弱模型），光看端到端品質不夠，還需要：〔實務〕

路由準確率：哪些 query 應走強模型，路由器有沒有判對？
成本節省 vs 品質降損：routing 省了多少錢，品質跌了多少？
降級的失敗模式：哪類 query 被路由到弱模型後會系統性出錯？

〔實務〕路由評估需要一份含難度標記的 golden set——同一批 query 同時用兩個模型跑，人工或強 judge 標記哪些「必須走強模型」。沒有難度標記就無法有意義地評估路由。

離線評估與線上 A/B：角色分工¶

兩者是互補工具，不是替代關係：〔實務〕

	離線評估	線上 A/B
用途	快速迭代、回歸把關	驗證真實業務影響
速度	快（分鐘級）	慢（需累積流量，數天至數週）
成本	低	高（需維護兩套流量、承擔錯誤暴露）
指標	代理指標（judge 分、quality score）	業務指標（轉換率、留存、CSAT）
最大風險	代理指標和真實用戶行為脫鉤	真實用戶暴露在較差版本

合理分工：離線做迭代與篩選；只有重大改動才上 A/B。以下情況必須上線驗證：〔實務〕 - 換底座模型（不只調 prompt） - 改動影響超過約 10% 的 query 流量 - 預期有顯著提升的功能（而非保守的「不差就好」）

如何設計線上 A/B 實驗¶

護欄指標（Guardrail Metrics）¶

定義兩種指標：〔實務〕

Primary metric（最大化）：如 CSAT、任務完成率、點閱。
Guardrail metric（不能讓它變差）：如 P95 latency、error rate、cost per query。

沒有護欄指標，A/B 很容易「主指標漲，但延遲爆掉」。護欄指標只要觸破，即使 primary 贏了也要 rollback。

統計功效與多次偷看問題¶

不要跑到 p = 0.05 才停——線上實驗的 repeated peeking（重複看結果）會讓 false positive 率大幅提升。〔論文〕

事前算好需要多少樣本才有足夠功效（統計功效分析），再開始跑。
考慮 Sequential testing（如 mSPRT、anytime-valid inference），才能安全地提前停止或延長。〔論文〕

分群分析防止整體遮蓋細節¶

整體指標贏了，不代表所有用戶都受益。結果要拆 subgroup 看：〔實務〕 - 新用戶 vs 老用戶 - 簡單 query vs 複雜 query - 不同語言 / 地區 / 功能入口

整體贏但特定子群輸，上線前要明確決定能否接受該權衡。

離線與線上指標的對齊¶

根本問題：代理指標不等於業務指標¶

LLM judge 的分數只是業務成果的代理（surrogate），兩者的相關性需要被主動驗證，而不能假設存在。〔實務〕

常見「代理失效」的情形： - Faithfulness 高，但用戶覺得回答不自然、不愛用。 - 在 golden set 上 judge 分高，但在真實長尾 query 上出問題（golden set 沒有充分代表真實分布）。 - 模型 A 在 judge 上勝過模型 B，但 A 的回答較長，部分源自 verbosity bias 而非真實品質差異。

校準代理指標的做法¶

定期抽人工標注：從線上流量中抽樣，真人打分，和 judge 分數做相關分析。相關性過低時，judge 的信度不足，應重新設計 rubric 或換 judge 模型。〔實務〕
回測大 A/B 的結果：大的 A/B 實驗（有真實業務指標）完成後，回頭看當時的離線指標有沒有正確預測方向。方向對說明代理有效；方向錯要重新設計離線評估。〔實務〕
方向一致比數字準確更重要：代理指標的核心用途是篩選配置的排名，而非告訴你絕對值。「A 比 B 好」比「A 得 0.83」重要。

〔實務〕每隔一段時間（新模型上線或業務目標調整時）重做一次 offline-online calibration：跑幾個已有 A/B 結論的變體，確認離線分數的方向性預測仍然準確。這是讓離線評估長期可信的最重要維護動作。

整合的評估決策流程¶

1. 快速離線篩選（品質 + 成本）
        ↓ 只有通過品質門檻且在 Pareto frontier 上的配置
2. Golden set 回歸測試（確認沒有退步）
        ↓ 通過
3. Shadow test 或小量流量（offline-online 對齊確認）
        ↓ 方向一致
4. 線上 A/B（含護欄指標、預算樣本量、subgroup 分析）
        ↓ 主指標贏、護欄沒觸破
5. 全量上線

離線評估是速度，線上 A/B 是真相。兩者都需要，只是用在對的階段。〔實務〕

延伸閱讀（本站）¶

LLM Evaluation 實務：RAG 評估、Agent Trajectory、Golden Dataset 與 LLM-as-Judge 的限制 — 本文的基礎篇
Agent Observability：用 Trace 看清 Agent 在做什麼 — 線上觀測訊號設計，和離線評估互補
Prompt Caching：砍 LLM 成本與延遲的實戰指南 — 成本控制的另一個面向