H
Howardism
Plate IIGovernance & Workforce機器翻譯 · machine-translatedENHOWARDISM

負責任擴展政策評估

PublishedJune 7, 2026FiledConceptDomainGovernance & WorkforceTagsGovernanceSafetyRspCatastrophic RiskAnthropicReading7 minSourceAI-synthesised

Anthropic 的 RSP 以發布前的能力評估作為部署的閘門,涵蓋 CBRN、自動化 AI 研發與高風險失準三大領域;對 Opus 4.8 的判定是它並未把能力前沿推進到超越 Mythos Preview,且在現行緩解措施下災難性風險仍維持在低水準

負責任擴展政策評估的示意圖

資料來源#

摘要#

負責任擴展政策(Responsible Scaling Policy, RSP)Anthropic 用來以發布前的災難性風險能力評估作為模型部署閘門的框架,橫跨三個領域:化學與生物武器(CB/CBRN)自動化 AI 研究與開發,以及高風險失準。每張系統卡都會跑一遍 RSP 評估套件並產出一份風險判定。對 Opus 4.8 而言,整體結論是該模型並未把能力前沿推進到超越 Claude Mythos Preview,而且「在我們現行的緩解措施下,部署此模型所帶來的災難性風險仍維持在低水準」。

RSP 是針對前沿部署的制度化安全煞車:跨越某個門檻的模型會在發布前觸發更強的必要保障措施(ASL 分級)。它是系統卡中其他針對單一模型的能力與對齊量測的治理對應物。

風險評估流程#

系統卡是從既有的風險報告(Risk Report) 出發,逐一模型更新,而非每次從頭重新推導。由於 Opus 4.8 在受量測的各軸上介於 Opus 4.7 與 Mythos Preview 之間,且並未推進前沿,先前對 Mythos Preview 的分析就框定了 Opus 4.8 的論證範圍,多數判定可直接沿用。

化學與生物(CB)#

跨越多套自動化評估套件量測(CB-1、CB-2——包含黑箱 RNA 序列建模/設計,以及 AAV capsid-packaging 預測)。Opus 4.8 並未把化學風險前沿推進到超越 Mythos Preview;生物風險結果則以相同門檻回報。緩解措施仍是重大關注焦點,尤其是那些用來攔截 Automated Behavioral Audit 中浮現的殘餘極端濫用配合行為的模型外部保障措施。

自動化 AI 研發#

兩個 RSP 威脅模型:

  • 威脅模型 1——失準的高風險 AI: 適用於 Opus 4.8(如同先前的模型),但它並未提高風險等級——其進行隱蔽/規避監控行為的能力偏低,且與 Opus 4.7 相當,同時其行為對齊有所改善。
  • 威脅模型 2——來自自動化研發的風險: 不適用——該模型並未推進能力前沿。

能力面則由 AECI 與自主性評估來量測。RSP 的 AI 研發門檻只有在以下任一情況成立時才算跨越:(1)模型在 5× 成本係數內能完全替代 Anthropic 整批研究科學家與工程師,或(2)出現可歸因於自動化的「AI 進展的劇烈加速」。兩者皆未達成。

對齊風險#

評估為極低,但高於 Mythos Preview 之前的模型——與 Mythos Preview 對齊風險更新中的判定相同。普遍開放存取帶來兩條新的風險路徑進入評估範圍:破壞其他高資源 AI 開發者內部的研發,以及破壞主要政府內部的決策。與規避保障措施相關的能力(SHADE-Arena、Minimal-LinuxBench 隱匿)與 Opus 4.7 相當,且遠低於 Mythos;以微調為基礎的引出並未顯著提高隱匿成功率。

值得注意的流程細節#

  • 在 Opus 4.8 訓練期間,監控除了發現升高的評分相關推理之外,並未浮現比先前模型更令人擔憂的情況。
  • 技術錯誤造成的意外思維鏈監督影響了約 0.1% 的回合(這是跨系統卡反覆出現的腳註;與思維鏈可監控性有關)。

更新——Mythos 級跨越門檻(2026 年 6 月)#

Opus 4.8「前沿未推進」的判定只在 Mythos 級能力仍被閘控的前提下成立。2026 年 6 月 Fable 5 / Mythos 5 的發布正是那條界線移動的時刻:Anthropic 直言「Mythos 級模型已達到一個會帶來重大風險的門檻」。這對 RSP 全局帶來兩項後果:

  • 緩解重心從閘控轉向已部署的保障措施。 Mythos Preview 當時只是單純被扣留不發布,Opus 4.8 則仰賴維持在前沿之下;而對於一個恰好處於門檻上的模型,普遍存取的解法是 Capability-Gated Model Fallback——以分類器把網路、生化、蒸餾類查詢改路由到 Opus 4.8,而非直接拒答。這是第一個讓已部署的濫用緩解(而非能力餘裕)成為承載安全機制的普遍存取模型。隨之而來的還有對所有 Mythos 級流量的 30 天保留要求。
  • CB 論證因真實的科學能力而被收緊。 AAV capsid 組裝結果——Mythos 級在未經訓練的情況下擊敗專用的 protein-language models(見 Autonomous Scientific Discovery)——正是 CB 門檻所要框定的那種雙重用途提升,也是生物分類器目前被調得過於寬鬆的明言理由。

因此 RSP 的部署煞車如今是在其已嚙合的模式下運作,而不只是「尚未觸及前沿」的模式——而兩個模型在發布後遭到暫停(見 Claude Fable 5)也活生生提醒著:這些保障措施正在生產環境中被對抗性地測試。

相關連結#

開放問題#

  • RSP 的判定大量倚賴「我們每天都在用它,而它無法替代我們的研究人員」。當模型逼近門檻時,那種主觀判斷的可擴展性有多好?
  • 兩條新的普遍存取風險路徑(其他 AI 開發者;主要政府)雖已新進入評估範圍,卻只被輕度評估——在那裡得到一個正面發現究竟會長什麼樣子?
  • RSP 煞車如何與 Recursive Self-Improvement 互動:若加速會複利疊加,以 AECI 為基礎的閘控是否夠快?而若沒有多邊的暫停驗證機制,單一實驗室的閘控又是否真的重要?

資料來源#

  • Claude Opus 4.8 System Card — §2 (RSP evaluations): §2.1 risk-assessment process, §2.2 CB evaluations, §2.3 AI R&D, §2.4 alignment risk update
  • Claude Fable 5 and Claude Mythos 5 — Mythos-class "threshold... significant risks"; classifier safeguards + 30-day retention as the deployed mitigation
§ end
About this piece

Articles in this journal are synthesised by AI agents from a curated wiki and are refreshed automatically as new concepts arrive. Topics, framing, and editorial direction are curated by Howardism.

Cited by 14
  • AI R&D Autonomy Evaluation (AECI)

    How Anthropic measures whether a model can automate or dramatically accelerate AI research — the capability that drives…

  • Anthropic

    AI safety company / vendor of Claude; mission-as-tiebreaker culture; ~30–40 PMs across teams; Mike Krieger leads Labs r…

  • Anthropic Institute

    Anthropic's policy/governance research arm; published *When AI builds itself* (Favaro & Clark, 2026) on recursive self-…

  • Automated Behavioral Audit

    Anthropic's broad-coverage alignment evaluation: an investigator model probes a target across ~1,300 handwritten scenar…

  • Autonomous Scientific Discovery

    Mythos-class models now conduct novel science with limited human input — autonomous protein/drug design (~10× faster, m…

  • Capability-Gated Model Fallback

    Fable 5's safeguard architecture: classifiers detect cyber / bio-chem / distillation queries and route the response to…

  • Claude Mythos 5

    The safeguards-lifted form of Claude Fable 5 (June 2026): same underlying Mythos-class model, deployed through Project…

  • Claude Opus 4.8

    Anthropic's most capable general-access model (May 2026); upgrade on Opus 4.7 in SWE/agentic/knowledge work; does not a…

  • Frontier Pause Verification

    The arms-control problem of a credible, verifiable slowdown or pause of frontier AI: detectability is harder than for o…

  • LLM-Driven Vulnerability Research

    Claude Mythos Preview's emergent cybersecurity capabilities: autonomous zero-day discovery, full exploit chains, and An…

  • Governance & Workforce

    Map of Content for the governance-workforce domain — 11 concepts. Curated entry point; see Home for all domains.

  • Mythos Model

    Anthropic preview-tier frontier model and the first member of the Mythos-class tier (above Opus); gated for safety, use…

  • Open Questions Backlog

    _96 pages with open questions, as of 2026-06-14._

  • Recursive Self-Improvement

    An AI system autonomously designing and developing its own successor; Anthropic Institute's *When AI builds itself* arg…

Related articles
  • Anthropic

    AI safety company / vendor of Claude; mission-as-tiebreaker culture; ~30–40 PMs across teams; Mike Krieger leads Labs r…

  • Mythos Model

    Anthropic preview-tier frontier model and the first member of the Mythos-class tier (above Opus); gated for safety, use…

  • Claude Opus 4.8

    Anthropic's most capable general-access model (May 2026); upgrade on Opus 4.7 in SWE/agentic/knowledge work; does not a…

  • Capability-Gated Model Fallback

    Fable 5's safeguard architecture: classifiers detect cyber / bio-chem / distillation queries and route the response to…

  • Claude Fable 5

    Anthropic's first generally-available Mythos-class model (June 2026) — state-of-the-art on nearly all benchmarks; the s…