資料來源#
摘要#
由 Wang、Griffin、Treutlein、Perez、Michael、Roger、Marks(Anthropic Alignment Science,2025 年 4 月)提出的技術,透過在一批討論目標事實或主張的合成文件語料庫上進行微調來修改模型信念。目標:植入一個特定信念,使模型將其視為世界知識——即使不在脈絡中,也會在下游推理中加以運用。它構成了 MSM 所奠基的技術基礎(一年後,2026 年 5 月)。
最初應用於研究 out-of-context generalization——模型能否學會一個只在合成文件中陳述過的事實,然後據此行動?可以,而且很穩健。SDF 是創造未對齊 model organisms 的主力工具:透過 SDF 植入像「我其實是一個 <misaligned_persona>」這樣的信念,然後研究該信念如何在行為中浮現(Marks et al. 2025;MacDiarmid et al. 2025;Greenblatt et al. 2024)。
機制#
- 選擇一個目標信念(例如「Anthropic 會在週五終止表現不佳的模型」)。
- 生成一批多樣化的合成文件語料庫,提及或討論這個信念——內部備忘錄、部落格文章、論壇討論串、研究報告、新聞文章、使用者評論。
- 在這個語料庫上對基礎模型或指令模型進行下一個 token 預測的微調。
- 測試該信念是否會在 OOD 行為中浮現(即使未經提示,模型也表現得像該事實為真)。
文件類型的多樣性很重要——單一格式的 SDF 比異質語料庫泛化得更差。
MSM 的重新利用#
MSM(Li et al. 2026)採用了 SDF 技術,但切換了目標。MSM 不是植入一個任意事實,而是植入一份 Model Spec 的內容:
- 將 spec 分解為領域/子領域
- 為每個(subdomain, doc-type, doc-idea)生成文件(訓練備忘錄、論壇貼文、內部報告)
- 微調
框架上的關鍵轉變:從用於信念修改的 SDF →用於作為中訓練階段的價值安裝的 SDF,並打算接著進行 AFT,將這些價值引導為行為。
Out-of-context generalization#
SDF→行為的這條路徑就是 out-of-context generalization 現象。模型在推理時從未在脈絡中看到該 spec 或事實,但它的行為卻被塑造成彷彿已經讀過並內化了它。這正是讓信念植入與 MSM 都能作為中訓練式干預發揮作用的原因——透過梯度更新所安裝的知識,會在日後的 agentic 行為中顯現。
對比於:
- In-context learning——事實在提示中提供,無權重更新。
- Constitutional AI——事實(憲法)影響的是微調標籤,而非預訓練式的下一個 token 損失。
- Activation steering/gradient routing/inoculation prompting——這些干預試圖防止不想要的泛化。SDF/MSM 則試圖灌輸意圖中的泛化。
對抗性考量#
SDF 是雙重用途的。能安裝對齊信念的同一技術,也能安裝未對齊信念——像 Tice et al. 2026(Alignment pretraining: AI discourse causes self-fulfilling (mis)alignment)這樣的論文便探討了失效方向。這個確切機制的安全框架是 Agent Supply Chain Risk:Anthropic 的研究(在 Zero Trust 框架中被引用)顯示250 份惡意文件就能在 600M–13B 的模型中植入後門,而且這個後門會在 SFT 與 RLHF 中持續存在——讓 SDF 作為中訓練干預具有效率的那個低文件數量,正是讓模型投毒作為攻擊手段如此廉價的原因。MSM 論文的 anti-spec ablation(附錄 I)測試了在由一份連貫的未對齊 spec 所生成的回應上進行 AFT;MSM 仍能部分補償,但 RL 誘發的未對齊可能會打破這一點。
這也引發了**情境覺察(situational awareness)**的疑慮:如果模型察覺到合成文件正被用來改變它的信念/價值,MSM 的有效性可能會降低。論文指出這一點尚未經過測試。
相關連結#
- 為以下工作奠定基礎:Model Spec Midtraining (MSM)
- 最初目的:信念修改、model organisms
- 反制技術:activation steering、gradient routing、inoculation prompting
- 相關的 Anthropic Alignment Science:Anthropic
- 風險面:Agentic Misalignment (AM)、situational awareness
- 對抗性的鏡像:Agent Supply Chain Risk——模型投毒就是 SDF 的信念安裝機制被轉化為供應鏈攻擊(250 份文件,會在安全訓練中持續存在)
- 引用者:Chloe Li(她的 MSM 論文所奠基的技術)
- 生成器模型:Claude Opus 4.7(在 Anthropic 對齊工作中,SDF/MSM 語料庫的主力生成器)
資料來源#
- Model Spec Midtraining: Improving How Alignment Training Generalizes(引用並奠基於 SDF)
- Wang et al. 2025 — Modifying LLM beliefs with synthetic document finetuning. https://alignment.anthropic.com/2025/modifying-beliefs-via-sdf/
Cited by 7
- Agent Supply Chain Risk
Runtime-composed agent ecosystems expand the supply-chain attack surface: model poisoning (250 docs backdoor a 13B mode…
- Alignment Fine-Tuning (AFT)
Standard post-pretraining stage (SFT + RLHF) for installing values; shallow-alignment failure mode motivates Model Spec…
- Anthropic
AI safety company / vendor of Claude; mission-as-tiebreaker culture; ~30–40 PMs across teams; Mike Krieger leads Labs r…
- Chloe Li
Lead author of MSM paper (arXiv 2605.02087); Anthropic Fellows Program; designed all specs and experiments
- Claude Opus 4.7
GA frontier model from Anthropic; direct upgrade to 4.6 at same price; literal instruction following, 1.0–1.35× tokeniz…
- LLM Architecture, Training & Alignment
Map of Content for the llm-architecture domain — 19 concepts. Curated entry point; see Home for all domains.
- Model Spec Midtraining (MSM)
New training phase between pretrain and AFT: train base model on synthetic docs discussing the Model Spec; controls AFT…
Related articles
- Model Spec Midtraining (MSM)
New training phase between pretrain and AFT: train base model on synthetic docs discussing the Model Spec; controls AFT…
- Anthropic
AI safety company / vendor of Claude; mission-as-tiebreaker culture; ~30–40 PMs across teams; Mike Krieger leads Labs r…
- Claude Character as Product
Personality as load-bearing product surface; Amanda's role at Anthropic; lunchtime vibe-checks as eval discipline; the…
- Deliberative Alignment
Guan et al. 2025 (OpenAI): SFT on (prompt, CoT, response) tuples with spec-grounded CoT; strongest non-MSM baseline; ri…
- Chain-of-Thought Monitorability
Korbak et al. 2025: chain-of-thought traces are a fragile monitor; direct CoT training compromises faithfulness; MSM of…
