跳轉到

Shane's Knowledge Base

Fine-tuning vs RAG vs Prompting：決策框架

YuHsunWang/knowledge-base-pages

Fine-tuning vs RAG vs Prompting：何時用哪個（決策框架）¶

整理自業界技術分析（見文末），2026-06-20。這三個常被當成「競品」二選一，其實它們改的是不同的東西：prompting 改指令、RAG 改「模型當下知道什麼」、fine-tuning 改「模型怎麼行為」。本頁給一個能落地的決策框架。

實證標記：〔分析〕= 出自業界技術分析；〔實務〕= 業界慣例或本人整理。預設 under-claim；成本數字依來源/規模差異大，當量級參考。

三者各改什麼¶

方法	改變什麼	權重	成本量級	迭代速度
Prompting	查詢時的指令、脈絡、範例	不變	幾乎免費	小時～天
RAG	推論時模型「知道什麼」（注入檢索到的脈絡）	不變	基礎設施投入（中等）	天～週
Fine-tuning	模型「怎麼行為」（用領域樣本更新權重）	改變	高（資料策展＋訓練；改一次資料就要重訓）	週～月

〔分析〕一句話分工：把「易變的知識」放 retrieval，把「穩定的行為」放 fine-tuning，把「格式/語氣/護欄」放 prompting——別逼一個工具做兩種工作。

對應到問題類型〔分析〕¶

你的需求	該用
調輸出格式、語氣、護欄、任務指令	Prompting
要引用內部文件、產品規格、公司政策、即時/專有資料、要 citation	RAG（模型能推理但記不住你的整個知識庫）
要可靠產出特定風格、特定推理模式、或用越來越複雜的 prompt 也搞不定的專業情境	Fine-tuning

反面準則：〔分析〕 - 只是要餵脈絡 → 不要 fine-tune（那是 RAG 的活）。 - 知識會變動 → 不要 fine-tune（一變就得重訓）；放 retrieval。

成本現實〔分析〕¶

Prompting：近乎零。
RAG：要 embedding、向量庫、檢索維運；量級常見每月數十到上千美元（見 Embeddings 與向量資料庫實務）。
Fine-tuning：大模型全量微調可達數萬～數十萬美元/訓練週期；LoRA/QLoRA 能大幅降低，但每次領域資料變動需要行為對齊時就得重跑，且常伴隨更高的推論成本。

決策流程〔實務〕¶

1. 先 Prompting —— 最快、最好debug。先把能用提示解決的都解決。
        │ 不夠？(需要外部/即時/專有知識)
        ▼
2. 加 RAG —— 注入知識，weights 不動。debug 容易、知識可更新。
        │ 仍不夠?(需要穩定的風格/推理模式/深度專業，且 prompt 已過於複雜)
        ▼
3. 才考慮 Fine-tuning —— 改行為。先確認它帶來的提升值得成本與重訓負擔。

〔分析〕拿不準時，從 RAG 開始：迭代快、好除錯，行為基線先用 prompting 塑形，同時評估 fine-tuning 是否真的多帶來足夠價值來justify成本。

生產級系統：三者並用，不是三選一〔分析〕¶

最好的生產系統通常三者組合： - Prompting 管行為：輸出格式、語氣、護欄、任務指令、安全邊界。 - RAG 管知識：當前文件、專有資料、citation、權限控管的檢索。 - Fine-tuning 管領域特化：術語、推理模式、專業分析框架。

延伸閱讀（本站）¶

RAG 完整指南 — RAG 的原理與架構
Prompt Engineering 核心技術 — 從 prompting 起步
Context Engineering：超越 Prompt Engineering — 把脈絡工程化
Embeddings 與向量資料庫實務 — RAG 的基礎設施成本

來源¶