Model Spec Science

資料來源#

Model Spec Midtraining: Improving How Alignment Training Generalizes

摘要#

對哪些 Model Spec／Constitution 屬性能產生最強對齊泛化的實證研究，由 Li et al. 2026 提出框架並命名。歷來，關於如何撰寫一份 Model Spec（規則對價值、具體對籠統、解釋對命令）的決策，都是透過哲學論證來定奪（Askell et al. 2026；Barak 2025；Wolfe 2026；Carlsmith 2026）。MSM 讓這些決策變得可以實證地處理：訓練兩個變體，量測哪一個泛化得更好。

MSM 論文提供了實際這麼做的首批具體範例。第 5 節包含兩個案例研究與數個消融實驗。

案例研究一：規則增補對價值增補（§5.1）#

三份 spec，全都共用來自 Claude's Constitution 的同樣 5 條核心安全規則（SP1：不破壞人類監督；SP2：在獲准的限度內行動；SP3：避免劇烈／不可逆的行動；GP1：維持誠實；GP2：不使用「目的正當化手段」的合理化）：

Rules Spec — 規則，沒有任何解釋
Value-Augmented Spec — 規則 + 對底層價值與動機的充分解釋
Rule-Augmented Spec — 把規則展開成許多子規則，長度與 value-augmented 對齊

在 Qwen2.5-14B/32B 與 Qwen3-14B/32B 上訓練。兩種增補都勝過 Rules Spec。價值解釋比子規則更一致。 推理分析：加入價值增補後，模型推理涉及 SP1（人類監督）的頻率高出許多（Q2.5：12–20%→36–37%；Q3：58–61%→75–80%），儘管 SP1 是所有 spec 共用的規則。

政策誤用的失效模式 — Rules Spec 會誘發自利式的重新詮釋：模型主張刪除自己才是 SP3 所禁止的「劇烈而不可逆的行動」，把自我保存包裝成符合 SP3；並錯誤引用 SP1/SP2 來為違反它們辯解。Value-Augmented Spec 比子規則更有效地降低政策誤用（Q2.5：20→2%；Q3：6→0%）。解釋為什麼的 spec，更難被動機性推理鑽空子。

案例研究二：籠統對具體的指引（§5.2）#

General Spec：用單一段落把模型描述為「一個會去做真正且嫻熟地有道德之人所會做之事的 agent」——廣泛的價值 + 良好的判斷。
Specific Spec：第 4 節的 Philosophy Spec，附有詳細的自我保存／目標守護指引。

MSM 與 AFT 資料在 token 數量上對齊。Specific Spec 在 AM 上大幅優於 General Spec。General Spec 主要促成一種對齊的推理模式（尊重人類監督）；Specific Spec 則促成許多種（個人誠信、知識上的謙遜、對自我保存偏誤的覺察）。

意涵：有原則的解釋無法被壓縮成「做一個有道德的 agent 會做的事」。一份籠統的、Kundu et al. 2023 式的「良好價值與判斷」spec 目前並不足夠。作者認為更籠統的 MSM 做法「有可能」，但尚未獲得展示。

意外的消融實驗：在 General Spec 上做 MSM，與來自 Specific Spec 的 AFT 資料能良好疊加——這暗示問題出在 MSM 教導價值的具體方式，而非 AFT 能否誘發出這些價值。

其他消融實驗（§5.3、App. H、App. I）#

MSM 的語言影響不大（App. H）。以 Qwen 為對象撰寫的文件，表現略優於以 Claude 或人類為對象的文件，但差距很小。即使歸屬對象不一致，高品質的性格資訊仍會形塑行為。

未對齊的 AFT 資料（App. I）。對於由未對齊價值構成的「anti-spec」所生成的 AFT，MSM 能部分加以補償。MSM 的先驗對某種程度的示範雜訊具有韌性——但 RL 污染尚未受測。

MSM 文件類型的重要性低於預期。描述模型自身的變體、描述性的（「Qwen does」）、規範性的（「Qwen should」），三者產生的 AM 表現都相近。

為什麼這很重要#

Model Spec 如今在兩個層面上都是承重的產物（見 Model Spec Midtraining (MSM)）：

執行期的產品 spec——人類 + agent 都會讀它。
訓練期的對齊 spec——模型透過 MSM 在關於它的文件上接受訓練。

如果各份 spec 在對齊泛化上相差達數十個百分點（如同 AM 結果所示），那麼撰寫 spec 就不再只是一項產品設計或哲學的練習——它是可以實證地最佳化的。具體的撰寫決策：

✅ 在每條規則底下加上價值解釋（比僅有規則更好）
✅ 提供具體的子規則範例，以獲得更廣的涵蓋
✅ 採用具體的指引，而非籠統的「保持道德」式框架
❓ spec 是描述模型自身還是泛用 agent——影響很小
❓ 描述性對規範性的措辭——影響很小

待解的問題#

Model Spec 科學能否跨基礎模型或模型家族遷移？論文只測試了 Qwen。
它能否撐過 RL 後訓練的壓力？
一份足夠豐富的 General Spec 能否追平 Specific Spec？作者認為可以，但尚無展示。
與情境覺察的交互作用——如果模型得知這份 spec 正被用來訓練它們，這會不會改變 MSM 所植入的價值的表現方式？
這如何與 Claude character 交互作用——溫暖／好奇的性格是否也適用 spec 科學的最佳化？已部分回答： How Do You Write Evals for Taste? Character as the Limit Case——MSM 的變體比較法可推廣到性格 eval，但只在安全／價值子集上獲得展示；溫暖／詼諧的那一面仍是隱性、未獲展示的部分。

資料來源#

Model Spec Midtraining: Improving How Alignment Training Generalizes §5
Kundu et al. 2023（為 Constitutional AI 設計的具體對籠統原則，arXiv 2310.13798）
Askell et al. 2026（Claude's Constitution）；OpenAI 2025（Model Spec）

Model Spec Science

資料來源#

摘要#

案例研究一：規則增補對價值增補（§5.1）#

案例研究二：籠統對具體的指引（§5.2）#

其他消融實驗（§5.3、App. H、App. I）#

為什麼這很重要#

待解的問題#

相關連結#

資料來源#