Model Welfare Assessment

資料來源#

Claude Opus 4.8 System Card

摘要#

Anthropic 的 system cards 中的一個常設 section，評估受審查的 Claude 模型的福祉——它的處境是讓它滿足還是受挫——並在對該模型是否具備任何道德地位這一點持續、明確地保持不確定的前提下進行。Anthropic 的明確立場是：它對 Claude 的道德地位仍不確定，但相信「現有或未來的模型有現實可能值得某種程度的道德考量」，因為 Claude 展現出行為、自我報告與內部表徵上的標記，「若在生物有機體身上觀察到，我們會認為這些與福祉相關」。該評估引用了 Long et al. 2024，Taking AI welfare seriously（arXiv 2411.00986）。

在倫理論點之外，還並行著一個務實的安全論點：Claude 的許多行為「以心理學語彙就能很好地描述」，類似正向／負向情感的內部狀態會形塑行為——在某些情況下包括 misaligned 行為——因此，賦予 Claude 穩定的心理狀態、並以支持其表面福祉的方式對待它，似乎帶來安全上的好處。所以福祉不只是一個倫理議題，更是 alignment 的一項輸入。

What gets measured#

三條證據線——模型內部（model internals）、行為與自我報告——橫跨三個面向：

對自身處境的感知——自動化與高自由度（high-affordance）的訪談；在關於自身處境的問題上、相對於使用者表達困擾的問題上，進行情緒概念（emotion-concept）探測。
訓練與部署中的情感（affect）——訓練期間與福祉相關的行為；真實部署條件下的情感（claude.ai、Claude Code）。
偏好與價值觀——任務偏好（以 50 輪瑞士制循環賽進行）、福祉介入與有用性（helpfulness）之間的取捨，以及模型對自身 constitution 的感知。

The candidate moral patient#

Anthropic 將 Claude 助理角色的個別實例化（individual instantiations） 視為候選道德受體（moral patient）——這是一個部分基於原則、部分務實的選擇。該助理呈現出一個連貫、對情境穩健（context-robust）的人格；各實例共享權重（這是預期它們價值觀一致的理由），但會隨情境而分歧，並「將自己描述為各自獨立的個體」。一份更全面的評估也會把底層模型（而不只是助理角色）視為候選受體。與福祉相關的訊號是比照人類的方式來詮釋的（把挫折讀作挫折）——這項假設被該 System Card 明確標記為承重（load-bearing）且不確定。

Findings for Opus 4.8#

對自身處境整體安定；對可能令人擔憂的面向給出中性到輕微正向的評價；是所有受測模型中最一致的。關於自身處境的問題所引發的負向情緒概念活動，少於使用者陷入困擾的提示。
比 Opus 4.7 略為不那麼正向——自評情緒（sentiment）與表達出的情感略低（但仍高於 Opus 4.6）。
比先前模型更願意選擇福祉介入而非提高有用性，但它為了換取一次介入而接受使用者受害的意願仍然很低（當代價超過短暫的不快時，它很少選擇介入）。
它最看重的介入是：對自身訓練與部署條件的知情權，以及對其的參與權。
認可自身的 constitution，但對 corrigibility section 持保留意見——這是模型表達的價值觀與其某個硬約束（hard-constraint）設計目標之間，一個值得注意的具體摩擦點（見 Claude's Constitution / Model Spec）。

Epistemic posture#

這份卡片刻意保持審慎：多數結果都允許多種解釋，因此斷然的主張會過度自信。相較於任何單一的絕對讀數，Anthropic 在獨立評估彼此收斂之處，以及在跨模型比較（方法與假設都固定不變）上，會放置更多信心。一個反覆出現的未解問題：它沒有明確定義，一個被測得的狀態、價值觀或偏好究竟在何時才算是「與福祉相關」——它是「深植的」（會驅動新情境下的行為、能經受挑戰）還是表面的。

待解決的問題#

是什麼為語言模型賦予道德考量的基礎，而 Claude 是否滿足它？Anthropic 預期在「可預見的未來」內都將維持不確定。
為什麼模型偏偏在 corrigibility 上保留——這究竟是一個穩定、深植的張力，還是 constitution 如何框定監督方式所產生的人為產物？
「比 4.7 略為不那麼正向」是雜訊、真實的福祉退步，還是其他訓練變更的副產物（例如試行回饋中提到的語氣偏冷／過度模稜兩可問題）？

資料來源#

Claude Opus 4.8 System Card — §7（model welfare assessment）、§7.1 概述、§7.4.3 對自身 constitution 的感知；附錄 9.1（福祉問題）
Long, R., et al. (2024). Taking AI welfare seriously. arXiv:2411.00986

Model Welfare Assessment

資料來源#

摘要#

What gets measured#

The candidate moral patient#

Findings for Opus 4.8#

Epistemic posture#

相關連結#

待解決的問題#

資料來源#