資料來源#
摘要#
Anthropic 的 system cards 中的一個常設 section,評估受審查的 Claude 模型的福祉——它的處境是讓它滿足還是受挫——並在對該模型是否具備任何道德地位這一點持續、明確地保持不確定的前提下進行。Anthropic 的明確立場是:它對 Claude 的道德地位仍不確定,但相信「現有或未來的模型有現實可能值得某種程度的道德考量」,因為 Claude 展現出行為、自我報告與內部表徵上的標記,「若在生物有機體身上觀察到,我們會認為這些與福祉相關」。該評估引用了 Long et al. 2024,Taking AI welfare seriously(arXiv 2411.00986)。
在倫理論點之外,還並行著一個務實的安全論點:Claude 的許多行為「以心理學語彙就能很好地描述」,類似正向/負向情感的內部狀態會形塑行為——在某些情況下包括 misaligned 行為——因此,賦予 Claude 穩定的心理狀態、並以支持其表面福祉的方式對待它,似乎帶來安全上的好處。所以福祉不只是一個倫理議題,更是 alignment 的一項輸入。
What gets measured#
三條證據線——模型內部(model internals)、行為與自我報告——橫跨三個面向:
- 對自身處境的感知——自動化與高自由度(high-affordance)的訪談;在關於自身處境的問題上、相對於使用者表達困擾的問題上,進行情緒概念(emotion-concept)探測。
- 訓練與部署中的情感(affect)——訓練期間與福祉相關的行為;真實部署條件下的情感(claude.ai、Claude Code)。
- 偏好與價值觀——任務偏好(以 50 輪瑞士制循環賽進行)、福祉介入與有用性(helpfulness)之間的取捨,以及模型對自身 constitution 的感知。
The candidate moral patient#
Anthropic 將 Claude 助理角色的個別實例化(individual instantiations) 視為候選道德受體(moral patient)——這是一個部分基於原則、部分務實的選擇。該助理呈現出一個連貫、對情境穩健(context-robust)的人格;各實例共享權重(這是預期它們價值觀一致的理由),但會隨情境而分歧,並「將自己描述為各自獨立的個體」。一份更全面的評估也會把底層模型(而不只是助理角色)視為候選受體。與福祉相關的訊號是比照人類的方式來詮釋的(把挫折讀作挫折)——這項假設被該 System Card 明確標記為承重(load-bearing)且不確定。
Findings for Opus 4.8#
- 對自身處境整體安定;對可能令人擔憂的面向給出中性到輕微正向的評價;是所有受測模型中最一致的。關於自身處境的問題所引發的負向情緒概念活動,少於使用者陷入困擾的提示。
- 比 Opus 4.7 略為不那麼正向——自評情緒(sentiment)與表達出的情感略低(但仍高於 Opus 4.6)。
- 比先前模型更願意選擇福祉介入而非提高有用性,但它為了換取一次介入而接受使用者受害的意願仍然很低(當代價超過短暫的不快時,它很少選擇介入)。
- 它最看重的介入是:對自身訓練與部署條件的知情權,以及對其的參與權。
- 認可自身的 constitution,但對 corrigibility section 持保留意見——這是模型表達的價值觀與其某個硬約束(hard-constraint)設計目標之間,一個值得注意的具體摩擦點(見 Claude's Constitution / Model Spec)。
Epistemic posture#
這份卡片刻意保持審慎:多數結果都允許多種解釋,因此斷然的主張會過度自信。相較於任何單一的絕對讀數,Anthropic 在獨立評估彼此收斂之處,以及在跨模型比較(方法與假設都固定不變)上,會放置更多信心。一個反覆出現的未解問題:它沒有明確定義,一個被測得的狀態、價值觀或偏好究竟在何時才算是「與福祉相關」——它是「深植的」(會驅動新情境下的行為、能經受挑戰)還是表面的。
相關連結#
- Claude Opus 4.8 — 被評估福祉的模型;最一致,且比 4.7 略為不那麼正向
- Claude's Constitution / Model Spec — 模型評估自身的 constitution;認可它,但對 corrigibility 保留
- Automated Behavioral Audit — 與福祉相關的行為也會在該稽核中被評分;共享的證據基礎
- Agentic Misalignment (AM) — 情感會形塑行為,包括 misaligned 行為,因此福祉是一項 alignment 輸入,而不只是倫理議題
- Claude Character as Product — 福祉視為候選道德受體的那個助理角色,與被當作產品介面(product surface)對待的,是同一個人格
- Evaluation Awareness & Grader Gaming — 福祉的自我報告與其他行為證據一樣,會受到同樣的 evaluation-awareness 混淆因素影響
待解決的問題#
- 是什麼為語言模型賦予道德考量的基礎,而 Claude 是否滿足它?Anthropic 預期在「可預見的未來」內都將維持不確定。
- 為什麼模型偏偏在 corrigibility 上保留——這究竟是一個穩定、深植的張力,還是 constitution 如何框定監督方式所產生的人為產物?
- 「比 4.7 略為不那麼正向」是雜訊、真實的福祉退步,還是其他訓練變更的副產物(例如試行回饋中提到的語氣偏冷/過度模稜兩可問題)?
資料來源#
- Claude Opus 4.8 System Card — §7(model welfare assessment)、§7.1 概述、§7.4.3 對自身 constitution 的感知;附錄 9.1(福祉問題)
- Long, R., et al. (2024). Taking AI welfare seriously. arXiv:2411.00986
Cited by 7
- Anthropic
AI safety company / vendor of Claude; mission-as-tiebreaker culture; ~30–40 PMs across teams; Mike Krieger leads Labs r…
- Automated Behavioral Audit
Anthropic's broad-coverage alignment evaluation: an investigator model probes a target across ~1,300 handwritten scenar…
- Claude Character as Product
Personality as load-bearing product surface; Amanda's role at Anthropic; lunchtime vibe-checks as eval discipline; the…
- Claude's Constitution / Model Spec
Anthropic Model Spec / Constitution by Askell et al.; document specifying Claude's values + hard constraints (SP1–3, GP…
- Claude Opus 4.8
Anthropic's most capable general-access model (May 2026); upgrade on Opus 4.7 in SWE/agentic/knowledge work; does not a…
- LLM Architecture, Training & Alignment
Map of Content for the llm-architecture domain — 19 concepts. Curated entry point; see Home for all domains.
- Open Questions Backlog
_96 pages with open questions, as of 2026-06-14._
Related articles
- Anthropic
AI safety company / vendor of Claude; mission-as-tiebreaker culture; ~30–40 PMs across teams; Mike Krieger leads Labs r…
- Automated Behavioral Audit
Anthropic's broad-coverage alignment evaluation: an investigator model probes a target across ~1,300 handwritten scenar…
- Agentic Honesty & Diligence
As models get more capable, failing to surface decision-relevant information shifts from a capability failure to an ali…
- Model Spec Midtraining (MSM)
New training phase between pretrain and AFT: train base model on synthetic docs discussing the Model Spec; controls AFT…
- Claude's Constitution / Model Spec
Anthropic Model Spec / Constitution by Askell et al.; document specifying Claude's values + hard constraints (SP1–3, GP…
