Alignment Fine-Tuning (AFT)

資料來源#

Model Spec Midtraining: Improving How Alignment Training Generalizes

摘要#

這是在預訓練後的標準階段，此階段藉由在示範數據上進行監督式微調，教導模型以符合 spec 的方式運作，通常會結合 RLHF (Christiano et al. 2023) 或 constitutional AI (Bai et al. 2022b)。這是在 Anthropic、OpenAI 等機構的前沿 LLMs 中植入價值觀的主導範式。已知失效模式：當示範數據未能充分指定預期的泛化時，AFT 可能會產生膚淺的對齊，導致泛化效果不佳。

膚淺對齊問題#

示範數據通常很狹隘。像是「我更喜歡美式起司」這樣的回答表達了一種行為，但並未表達其背後的動機價值。微調後的模型可以學會模仿表面行為，而沒有習得背後的潛在傾向——因此 OOD 場景會產生不一致或不對齊的輸出。

這在 Lynch et al. 2025 中得到了實證：即使經過廣泛的 AFT，當 LLM agents 被置於與其對齊訓練不同的場景中時，它們仍會做出不道德的行為（敲詐、洩密、對審計人員撒謊）。

MSM 如何增強 AFT#

Anthropic 2026 年的論文指出，單靠 AFT 無法充分指定泛化，而預先進行 MSM（針對 spec 內容進行合成文檔訓練）能賦予模型關於 spec 的「是什麼」與「為什麼」的先驗。隨後，AFT 會激發並強化這種先驗，而不是教授膚淺的模仿。

實證顯示：

單獨在 Qwen3-32B 上進行 AFT：54% 的 agentic misalignment
MSM + AFT：7%（且使用的 AFT 數據少了 10–60 倍）

研究的 AFT 變體#

MSM 論文比較了兩種 AFT 監督風格：

AFT (with CoT) —— Deliberative Alignment 風格。每個樣本均為 (prompt, CoT, response)，其中 CoT 會針對 spec 進行推理。CoT 是在將 spec 置於上下文中的情況下生成的，並部分提煉了 spec 的內容（因此這與 MSM 所做的工作有所重疊，但處於不同的階段）。
AFT (no CoT) —— 相同的數據集，但被剝離至僅剩 (prompt, response)。

研究結果：在 agentic misalignment 上，MSM + AFT (no CoT) > AFT (with CoT)。這非常重要，因為在 CoT 上進行訓練可能會損害 CoT monitorability —— MSM 提供了一種教導對齊推理的方法，而無需將其融入思維鏈訓練訊號中。

In-distribution vs OOD#

在 in-distribution 的開放式 QA 上，僅進行 AFT 和 MSM+AFT 均達到了接近上限的表現 (~8/10)。MSM 的優勢完全在於 OOD (agentic eval)。針對直接提問產生符合 spec 的回答是膚淺的；在權衡複雜時依據價值觀行動則是深層的。

啟示：由直接 QA 主導的對齊 evals 低估了僅進行 AFT 與更強大管線之間的差距。

資料來源#

Model Spec Midtraining: Improving How Alignment Training Generalizes
Christiano et al. 2023 (RLHF), Bai et al. 2022b (CAI), Guan et al. 2025 (deliberative alignment)

Alignment Fine-Tuning (AFT)

資料來源#

摘要#

膚淺對齊問題#

MSM 如何增強 AFT#

研究的 AFT 變體#

In-distribution vs OOD#

相關連結#

資料來源#