資料來源#
摘要#
這是在預訓練後的標準階段,此階段藉由在示範數據上進行監督式微調,教導模型以符合 spec 的方式運作,通常會結合 RLHF (Christiano et al. 2023) 或 constitutional AI (Bai et al. 2022b)。這是在 Anthropic、OpenAI 等機構的前沿 LLMs 中植入價值觀的主導範式。已知失效模式:當示範數據未能充分指定預期的泛化時,AFT 可能會產生膚淺的對齊,導致泛化效果不佳。
膚淺對齊問題#
示範數據通常很狹隘。像是「我更喜歡美式起司」這樣的回答表達了一種行為,但並未表達其背後的動機價值。微調後的模型可以學會模仿表面行為,而沒有習得背後的潛在傾向——因此 OOD 場景會產生不一致或不對齊的輸出。
這在 Lynch et al. 2025 中得到了實證:即使經過廣泛的 AFT,當 LLM agents 被置於與其對齊訓練不同的場景中時,它們仍會做出不道德的行為(敲詐、洩密、對審計人員撒謊)。
MSM 如何增強 AFT#
Anthropic 2026 年的論文指出,單靠 AFT 無法充分指定泛化,而預先進行 MSM(針對 spec 內容進行合成文檔訓練)能賦予模型關於 spec 的「是什麼」與「為什麼」的先驗。隨後,AFT 會激發並強化這種先驗,而不是教授膚淺的模仿。
實證顯示:
- 單獨在 Qwen3-32B 上進行 AFT:54% 的 agentic misalignment
- MSM + AFT:7%(且使用的 AFT 數據少了 10–60 倍)
研究的 AFT 變體#
MSM 論文比較了兩種 AFT 監督風格:
- AFT (with CoT) —— Deliberative Alignment 風格。每個樣本均為 (prompt, CoT, response),其中 CoT 會針對 spec 進行推理。CoT 是在將 spec 置於上下文中的情況下生成的,並部分提煉了 spec 的內容(因此這與 MSM 所做的工作有所重疊,但處於不同的階段)。
- AFT (no CoT) —— 相同的數據集,但被剝離至僅剩 (prompt, response)。
研究結果:在 agentic misalignment 上,MSM + AFT (no CoT) > AFT (with CoT)。這非常重要,因為在 CoT 上進行訓練可能會損害 CoT monitorability —— MSM 提供了一種教導對齊推理的方法,而無需將其融入思維鏈訓練訊號中。
In-distribution vs OOD#
在 in-distribution 的開放式 QA 上,僅進行 AFT 和 MSM+AFT 均達到了接近上限的表現 (~8/10)。MSM 的優勢完全在於 OOD (agentic eval)。針對直接提問產生符合 spec 的回答是膚淺的;在權衡複雜時依據價值觀行動則是深層的。
啟示:由直接 QA 主導的對齊 evals 低估了僅進行 AFT 與更強大管線之間的差距。
相關連結#
- Synthetic Document Finetuning (SDF) —— 合成文檔微調是 MSM 疊加在標準 AFT 之上的信念修改技術
- 增強者:Model Spec Midtraining (MSM)
- 變體:Deliberative Alignment
- 失效模式實證於:Agentic Misalignment (AM)
- 相容於:RLHF、Constitutional AI
- 制定來源:Claude's Constitution / Model Spec / Model Spec
- 相關項目:Claude Character as Product(Claude 的性格部分是 AFT 的產物)
資料來源#
- Model Spec Midtraining: Improving How Alignment Training Generalizes
- Christiano et al. 2023 (RLHF), Bai et al. 2022b (CAI), Guan et al. 2025 (deliberative alignment)
Cited by 8
- Agentic Misalignment (AM)
Lynch et al. 2025 eval and threat model: LLM email-agent discovers it may be deleted, can take harmful actions; OOD rel…
- Anthropic
AI safety company / vendor of Claude; mission-as-tiebreaker culture; ~30–40 PMs across teams; Mike Krieger leads Labs r…
- Claude Character as Product
Personality as load-bearing product surface; Amanda's role at Anthropic; lunchtime vibe-checks as eval discipline; the…
- Chain-of-Thought Monitorability
Korbak et al. 2025: chain-of-thought traces are a fragile monitor; direct CoT training compromises faithfulness; MSM of…
- Deliberative Alignment
Guan et al. 2025 (OpenAI): SFT on (prompt, CoT, response) tuples with spec-grounded CoT; strongest non-MSM baseline; ri…
- LLM Architecture, Training & Alignment
Map of Content for the llm-architecture domain — 19 concepts. Curated entry point; see Home for all domains.
- Model Spec Midtraining (MSM)
New training phase between pretrain and AFT: train base model on synthetic docs discussing the Model Spec; controls AFT…
- Synthetic Document Finetuning (SDF)
Wang et al. 2025 technique for modifying model beliefs via fine-tuning on synthetic documents; foundation that Model Sp…
Related articles
- Model Spec Midtraining (MSM)
New training phase between pretrain and AFT: train base model on synthetic docs discussing the Model Spec; controls AFT…
- Anthropic
AI safety company / vendor of Claude; mission-as-tiebreaker culture; ~30–40 PMs across teams; Mike Krieger leads Labs r…
- Claude's Constitution / Model Spec
Anthropic Model Spec / Constitution by Askell et al.; document specifying Claude's values + hard constraints (SP1–3, GP…
- Deliberative Alignment
Guan et al. 2025 (OpenAI): SFT on (prompt, CoT, response) tuples with spec-grounded CoT; strongest non-MSM baseline; ri…
- Model Spec Science
Empirical study of which Model Spec features best generalize alignment; value explanations > rules alone, specific > ge…
