跳轉到

Fine-tuning vs RAG vs Prompting:何時用哪個(決策框架)

整理自業界技術分析(見文末),2026-06-20。這三個常被當成「競品」二選一,其實它們改的是不同的東西:prompting 改指令、RAG 改「模型當下知道什麼」、fine-tuning 改「模型怎麼行為」。本頁給一個能落地的決策框架。

實證標記:〔分析〕= 出自業界技術分析;〔實務〕= 業界慣例或本人整理。預設 under-claim;成本數字依來源/規模差異大,當量級參考。

三者各改什麼

方法 改變什麼 權重 成本量級 迭代速度
Prompting 查詢時的指令、脈絡、範例 不變 幾乎免費 小時~天
RAG 推論時模型「知道什麼」(注入檢索到的脈絡) 不變 基礎設施投入(中等) 天~週
Fine-tuning 模型「怎麼行為」(用領域樣本更新權重) 改變 高(資料策展+訓練;改一次資料就要重訓) 週~月

〔分析〕一句話分工:把「易變的知識」放 retrieval,把「穩定的行為」放 fine-tuning,把「格式/語氣/護欄」放 prompting——別逼一個工具做兩種工作。

對應到問題類型〔分析〕

你的需求 該用
調輸出格式、語氣、護欄、任務指令 Prompting
要引用內部文件、產品規格、公司政策、即時/專有資料、要 citation RAG(模型能推理但記不住你的整個知識庫)
要可靠產出特定風格、特定推理模式、或用越來越複雜的 prompt 也搞不定的專業情境 Fine-tuning

反面準則:〔分析〕 - 只是要餵脈絡 → 不要 fine-tune(那是 RAG 的活)。 - 知識會變動 → 不要 fine-tune(一變就得重訓);放 retrieval。

成本現實〔分析〕

  • Prompting:近乎零。
  • RAG:要 embedding、向量庫、檢索維運;量級常見每月數十到上千美元(見 Embeddings 與向量資料庫實務)。
  • Fine-tuning:大模型全量微調可達數萬~數十萬美元/訓練週期;LoRA/QLoRA 能大幅降低,但每次領域資料變動需要行為對齊時就得重跑,且常伴隨更高的推論成本。

決策流程〔實務〕

1. 先 Prompting —— 最快、最好debug。先把能用提示解決的都解決。
        │ 不夠?(需要外部/即時/專有知識)
2. 加 RAG —— 注入知識,weights 不動。debug 容易、知識可更新。
        │ 仍不夠?(需要穩定的風格/推理模式/深度專業,且 prompt 已過於複雜)
3. 才考慮 Fine-tuning —— 改行為。先確認它帶來的提升值得成本與重訓負擔。

〔分析〕拿不準時,從 RAG 開始:迭代快、好除錯,行為基線先用 prompting 塑形,同時評估 fine-tuning 是否真的多帶來足夠價值來justify成本。

生產級系統:三者並用,不是三選一〔分析〕

最好的生產系統通常三者組合: - Prompting 管行為:輸出格式、語氣、護欄、任務指令、安全邊界。 - RAG 管知識:當前文件、專有資料、citation、權限控管的檢索。 - Fine-tuning 管領域特化:術語、推理模式、專業分析框架。

延伸閱讀(本站)

來源