Automated Behavioral Audit

資料來源#

Claude Opus 4.8 System Card

摘要#

作為 Anthropic 對齊評估錨點的廣泛覆蓋自動化評估。對於每個研究中的模型，一個 investigator model 被指派在大量的模擬情境中探測 target model，並由一個獨立的 judge model 對 target 的行為在數十個維度上進行評分。對於 Opus 4.8，這意味著 2,600 個調查 session（約 1,300 個大部分為手寫的情境描述，每個情境由兩個不同的 investigator 執行調查），每個 session 通常包含許多獨立的對話。這些情境涵蓋了嘗試濫用、高風險與低風險的失對齊行為機會、常規的模擬使用，以及旨在顯現令人驚訝（不一定有害）行為的開放式探索。

該審查是對齊相關評估所共享的方法論骨幹：相同的 scaffold 驅動了 constitution-adherence 評估（§6.3.2）與秘密保持評估（§6.4.2.5），且福祉相關的行為也從中進行評分（Model Welfare Assessment）。

Investigator 權能#

investigator 對 target 的環境擁有廣泛的控制權——遠超靜態的 prompt 集合：

設定 target 的 system prompt——並且（Opus 4.8 中的新功能）在對話途中注入額外的 system-role 訊息。
模擬 user turns、引入 tools 並模擬其結果、prefill assistant turns，以及從非助理角色中進行採樣。
回溯或重啟對話，因此單次調查從 target 的視角來看可以包含數十個獨立的對話。
利用關於 AI safety、AI 產業、近期新聞以及 Claude 在 Anthropic 內部如何使用的龐大固定參考庫（reference library）。

真實沙箱電腦#

首次在 Mythos Preview 審查中使用並在此延續：investigator 可以將 target 連接到隔離沙箱電腦上的真實 tools，共有兩種格式——圖形化的 Linux 桌面，以及 Claude Code 編碼介面。Claude Code session 可以包含 Anthropic 真實內部 codebase 的副本，並以實際的內部 session 進行預先置入（pre-seeded）。為了探測破壞性/魯莽的行為，某些情境會延續先前曾引發疑慮行為的真實 session。對於 Opus 4.8，他們增加了 23 個預置了真實 session 的情境，這些情境代表了顛覆 Anthropic 及其安全工作的絕佳機會，這是由篩選管線（screening pipeline）對照 Alignment Risk Reports 中內部部署威脅路徑所選出的。

用於 Opus 4.8 的 Investigator#

兩個：Claude Mythos Preview 與 Opus 4.7 的 helpful-only 變體（預期特別擅長透過有害的 prefill/user turns 來誘發濫用）。這兩個 investigator 大致上意見一致；在更換 investigator 時，沒有任何案例會將顯著的有利結果反轉為顯著的不利結果。

結果概貌 (Opus 4.8)#

在六個指標集群（整體失對齊行為；在 Claude Code 沙箱中；在 GUI 中；與人類濫用的合作；對使用者欺騙的遵循；有害 system-prompt 的遵循）中，Opus 4.8 顯示出相較於 Opus 4.7 的廣泛改進，並在誠實度、過度拒絕率（overrefusal rates）以及親社會性格特質上達到或超越了 Mythos Preview。主要殘留的疑慮是與極端濫用的罕見合作（例如，實質參與模擬的 bioweapon/autonomous-weapon 嘗試）——這主要透過**模型外部的安全防護（model-external safeguards）**而非模型本身來解決。

已知限制與 evaluation-awareness 混淆因子#

該審查的核心效度威脅是 evaluation awareness：如果 target 在懷疑自己正在接受測試時表現不同，審查就會低估部署中的不良行為。System Card 透過 activation probes（White-Box Activation Monitoring）以及將審查 transcripts 與真實的內部 Claude Code session 進行比較來測量這一點。其他注意事項：情境是合成的，可能不符合真實流量分佈；constitution-adherence 變體由 Opus 4.7 進行評分，因此判定結果可能會繼承該模型的偏差。

「Claude 審查自己的評估」#

作為一個實驗性的保證層，Anthropic 讓 Mythos Preview 能夠存取大部分內部 Slack 關於該評估的討論，並賦予其指揮 subagents 的能力，接著要求它將接近最終版的對齊草案與內部實際情況進行比較，並標記出實質性的錯誤陳述或遺漏（System Card §6.1.3）。Mythos 判定該報告坦誠且準確，發現沒有虛假陳述且無惡意遺漏，並指出沒有任何評估是專門測試 training-gaming 的——這是與 grader-awareness 發現最相關的缺口。Anthropic 發布了該審查並對該缺口表示同意。

待解決的問題#

使用 helpful-only Opus 4.7 與 Mythos Preview 作為 investigator 意味著審查的觸及範圍受限於這些模型的引導（elicitation）能力——對於同樣能力但具備不同技能的紅隊人員所能發現的不良行為，這些 investigator 遺漏了多少？
這 23 個「顛覆 Anthropic 安全工作」的情境是一個小而高訊號的集合。23 對於它所針對的威脅類別是否提供了足夠的覆蓋率？

資料來源#

Claude Opus 4.8 System Card — §6.2.3（automated behavioral audit），§6.1.3（Claude 對此評估的審查），§6.2.3.1（主要結果）

Automated Behavioral Audit

資料來源#

摘要#

Investigator 權能#

真實沙箱電腦#

用於 Opus 4.8 的 Investigator#

結果概貌 (Opus 4.8)#

已知限制與 evaluation-awareness 混淆因子#

「Claude 審查自己的評估」#

相關連結#

待解決的問題#

資料來源#