資料來源#
摘要#
負責任擴展政策(Responsible Scaling Policy, RSP) 是 Anthropic 用來以發布前的災難性風險能力評估作為模型部署閘門的框架,橫跨三個領域:化學與生物武器(CB/CBRN)、自動化 AI 研究與開發,以及高風險失準。每張系統卡都會跑一遍 RSP 評估套件並產出一份風險判定。對 Opus 4.8 而言,整體結論是該模型並未把能力前沿推進到超越 Claude Mythos Preview,而且「在我們現行的緩解措施下,部署此模型所帶來的災難性風險仍維持在低水準」。
RSP 是針對前沿部署的制度化安全煞車:跨越某個門檻的模型會在發布前觸發更強的必要保障措施(ASL 分級)。它是系統卡中其他針對單一模型的能力與對齊量測的治理對應物。
風險評估流程#
系統卡是從既有的風險報告(Risk Report) 出發,逐一模型更新,而非每次從頭重新推導。由於 Opus 4.8 在受量測的各軸上介於 Opus 4.7 與 Mythos Preview 之間,且並未推進前沿,先前對 Mythos Preview 的分析就框定了 Opus 4.8 的論證範圍,多數判定可直接沿用。
化學與生物(CB)#
跨越多套自動化評估套件量測(CB-1、CB-2——包含黑箱 RNA 序列建模/設計,以及 AAV capsid-packaging 預測)。Opus 4.8 並未把化學風險前沿推進到超越 Mythos Preview;生物風險結果則以相同門檻回報。緩解措施仍是重大關注焦點,尤其是那些用來攔截 Automated Behavioral Audit 中浮現的殘餘極端濫用配合行為的模型外部保障措施。
自動化 AI 研發#
兩個 RSP 威脅模型:
- 威脅模型 1——失準的高風險 AI: 適用於 Opus 4.8(如同先前的模型),但它並未提高風險等級——其進行隱蔽/規避監控行為的能力偏低,且與 Opus 4.7 相當,同時其行為對齊有所改善。
- 威脅模型 2——來自自動化研發的風險: 不適用——該模型並未推進能力前沿。
能力面則由 AECI 與自主性評估來量測。RSP 的 AI 研發門檻只有在以下任一情況成立時才算跨越:(1)模型在 5× 成本係數內能完全替代 Anthropic 整批研究科學家與工程師,或(2)出現可歸因於自動化的「AI 進展的劇烈加速」。兩者皆未達成。
對齊風險#
評估為極低,但高於 Mythos Preview 之前的模型——與 Mythos Preview 對齊風險更新中的判定相同。普遍開放存取帶來兩條新的風險路徑進入評估範圍:破壞其他高資源 AI 開發者內部的研發,以及破壞主要政府內部的決策。與規避保障措施相關的能力(SHADE-Arena、Minimal-LinuxBench 隱匿)與 Opus 4.7 相當,且遠低於 Mythos;以微調為基礎的引出並未顯著提高隱匿成功率。
值得注意的流程細節#
- 在 Opus 4.8 訓練期間,監控除了發現升高的評分相關推理之外,並未浮現比先前模型更令人擔憂的情況。
- 技術錯誤造成的意外思維鏈監督影響了約 0.1% 的回合(這是跨系統卡反覆出現的腳註;與思維鏈可監控性有關)。
更新——Mythos 級跨越門檻(2026 年 6 月)#
Opus 4.8「前沿未推進」的判定只在 Mythos 級能力仍被閘控的前提下成立。2026 年 6 月 Fable 5 / Mythos 5 的發布正是那條界線移動的時刻:Anthropic 直言「Mythos 級模型已達到一個會帶來重大風險的門檻」。這對 RSP 全局帶來兩項後果:
- 緩解重心從閘控轉向已部署的保障措施。 Mythos Preview 當時只是單純被扣留不發布,Opus 4.8 則仰賴維持在前沿之下;而對於一個恰好處於門檻上的模型,普遍存取的解法是 Capability-Gated Model Fallback——以分類器把網路、生化、蒸餾類查詢改路由到 Opus 4.8,而非直接拒答。這是第一個讓已部署的濫用緩解(而非能力餘裕)成為承載安全機制的普遍存取模型。隨之而來的還有對所有 Mythos 級流量的 30 天保留要求。
- CB 論證因真實的科學能力而被收緊。 AAV capsid 組裝結果——Mythos 級在未經訓練的情況下擊敗專用的 protein-language models(見 Autonomous Scientific Discovery)——正是 CB 門檻所要框定的那種雙重用途提升,也是生物分類器目前被調得過於寬鬆的明言理由。
因此 RSP 的部署煞車如今是在其已嚙合的模式下運作,而不只是「尚未觸及前沿」的模式——而兩個模型在發布後遭到暫停(見 Claude Fable 5)也活生生提醒著:這些保障措施正在生產環境中被對抗性地測試。
相關連結#
- Recursive Self-Improvement——RSP 是套在 RSI 軌跡上的制度化部署煞車;AI 研發威脅模型就是把 RSI 風險操作化
- Frontier Pause Verification——多邊協調的對應物:RSP 閘控的是單一實驗室的發布,暫停驗證閘控的則是整個領域
- AI R&D Autonomy Evaluation (AECI)——餵給 AI 研發威脅模型判定的能力量測(AECI、自主性評估)
- Claude Opus 4.8——受評估的模型;前沿未推進,災難性風險低
- Mythos Model——設定前沿的模型,其風險報告框定了 Opus 4.8 的論證
- Automated Behavioral Audit——提供 RSP 判定所仰賴的失準/濫用行為證據
- Evaluation Awareness & Grader Gaming——訓練監控期間標記出的那一項升高的疑慮
- LLM-Driven Vulnerability Research——網路能力是相鄰的災難性風險領域;Project Glasswing 是其緩解的脈絡淵源
- AI-Accelerated Offense——網路保障措施所回應的攻擊加速威脅
- Capability-Gated Model Fallback——為一個普遍發布的 Mythos 級模型實作網路/生化閘門的推論時緩解
- Claude Fable 5——其部署嚙合了 RSP 煞車的普遍存取 Mythos 級模型
- Claude Mythos 5——解除保障措施的 Mythos 級模型;門檻所要框定的能力
- Autonomous Scientific Discovery——收緊化學/生物判定的 CB 領域能力(AAV、自主生物學)
開放問題#
- RSP 的判定大量倚賴「我們每天都在用它,而它無法替代我們的研究人員」。當模型逼近門檻時,那種主觀判斷的可擴展性有多好?
- 兩條新的普遍存取風險路徑(其他 AI 開發者;主要政府)雖已新進入評估範圍,卻只被輕度評估——在那裡得到一個正面發現究竟會長什麼樣子?
- RSP 煞車如何與 Recursive Self-Improvement 互動:若加速會複利疊加,以 AECI 為基礎的閘控是否夠快?而若沒有多邊的暫停驗證機制,單一實驗室的閘控又是否真的重要?
資料來源#
- Claude Opus 4.8 System Card — §2 (RSP evaluations): §2.1 risk-assessment process, §2.2 CB evaluations, §2.3 AI R&D, §2.4 alignment risk update
- Claude Fable 5 and Claude Mythos 5 — Mythos-class "threshold... significant risks"; classifier safeguards + 30-day retention as the deployed mitigation
Cited by 14
- AI R&D Autonomy Evaluation (AECI)
How Anthropic measures whether a model can automate or dramatically accelerate AI research — the capability that drives…
- Anthropic
AI safety company / vendor of Claude; mission-as-tiebreaker culture; ~30–40 PMs across teams; Mike Krieger leads Labs r…
- Anthropic Institute
Anthropic's policy/governance research arm; published *When AI builds itself* (Favaro & Clark, 2026) on recursive self-…
- Automated Behavioral Audit
Anthropic's broad-coverage alignment evaluation: an investigator model probes a target across ~1,300 handwritten scenar…
- Autonomous Scientific Discovery
Mythos-class models now conduct novel science with limited human input — autonomous protein/drug design (~10× faster, m…
- Capability-Gated Model Fallback
Fable 5's safeguard architecture: classifiers detect cyber / bio-chem / distillation queries and route the response to…
- Claude Mythos 5
The safeguards-lifted form of Claude Fable 5 (June 2026): same underlying Mythos-class model, deployed through Project…
- Claude Opus 4.8
Anthropic's most capable general-access model (May 2026); upgrade on Opus 4.7 in SWE/agentic/knowledge work; does not a…
- Frontier Pause Verification
The arms-control problem of a credible, verifiable slowdown or pause of frontier AI: detectability is harder than for o…
- LLM-Driven Vulnerability Research
Claude Mythos Preview's emergent cybersecurity capabilities: autonomous zero-day discovery, full exploit chains, and An…
- Governance & Workforce
Map of Content for the governance-workforce domain — 11 concepts. Curated entry point; see Home for all domains.
- Mythos Model
Anthropic preview-tier frontier model and the first member of the Mythos-class tier (above Opus); gated for safety, use…
- Open Questions Backlog
_96 pages with open questions, as of 2026-06-14._
- Recursive Self-Improvement
An AI system autonomously designing and developing its own successor; Anthropic Institute's *When AI builds itself* arg…
Related articles
- Anthropic
AI safety company / vendor of Claude; mission-as-tiebreaker culture; ~30–40 PMs across teams; Mike Krieger leads Labs r…
- Mythos Model
Anthropic preview-tier frontier model and the first member of the Mythos-class tier (above Opus); gated for safety, use…
- Claude Opus 4.8
Anthropic's most capable general-access model (May 2026); upgrade on Opus 4.7 in SWE/agentic/knowledge work; does not a…
- Capability-Gated Model Fallback
Fable 5's safeguard architecture: classifiers detect cyber / bio-chem / distillation queries and route the response to…
- Claude Fable 5
Anthropic's first generally-available Mythos-class model (June 2026) — state-of-the-art on nearly all benchmarks; the s…
