負責任擴展政策評估

資料來源#

摘要#

負責任擴展政策（Responsible Scaling Policy, RSP） 是 Anthropic 用來以發布前的災難性風險能力評估作為模型部署閘門的框架，橫跨三個領域：化學與生物武器（CB/CBRN）、自動化 AI 研究與開發，以及高風險失準。每張系統卡都會跑一遍 RSP 評估套件並產出一份風險判定。對 Opus 4.8 而言，整體結論是該模型並未把能力前沿推進到超越 Claude Mythos Preview，而且「在我們現行的緩解措施下，部署此模型所帶來的災難性風險仍維持在低水準」。

RSP 是針對前沿部署的制度化安全煞車：跨越某個門檻的模型會在發布前觸發更強的必要保障措施（ASL 分級）。它是系統卡中其他針對單一模型的能力與對齊量測的治理對應物。

風險評估流程#

系統卡是從既有的風險報告（Risk Report） 出發，逐一模型更新，而非每次從頭重新推導。由於 Opus 4.8 在受量測的各軸上介於 Opus 4.7 與 Mythos Preview 之間，且並未推進前沿，先前對 Mythos Preview 的分析就框定了 Opus 4.8 的論證範圍，多數判定可直接沿用。

化學與生物（CB）#

跨越多套自動化評估套件量測（CB-1、CB-2——包含黑箱 RNA 序列建模／設計，以及 AAV capsid-packaging 預測）。Opus 4.8 並未把化學風險前沿推進到超越 Mythos Preview；生物風險結果則以相同門檻回報。緩解措施仍是重大關注焦點，尤其是那些用來攔截 Automated Behavioral Audit 中浮現的殘餘極端濫用配合行為的模型外部保障措施。

自動化 AI 研發#

兩個 RSP 威脅模型：

威脅模型 1——失準的高風險 AI： 適用於 Opus 4.8（如同先前的模型），但它並未提高風險等級——其進行隱蔽／規避監控行為的能力偏低，且與 Opus 4.7 相當，同時其行為對齊有所改善。
威脅模型 2——來自自動化研發的風險： 不適用——該模型並未推進能力前沿。

能力面則由 AECI 與自主性評估來量測。RSP 的 AI 研發門檻只有在以下任一情況成立時才算跨越：（1）模型在 5× 成本係數內能完全替代 Anthropic 整批研究科學家與工程師，或（2）出現可歸因於自動化的「AI 進展的劇烈加速」。兩者皆未達成。

對齊風險#

評估為極低，但高於 Mythos Preview 之前的模型——與 Mythos Preview 對齊風險更新中的判定相同。普遍開放存取帶來兩條新的風險路徑進入評估範圍：破壞其他高資源 AI 開發者內部的研發，以及破壞主要政府內部的決策。與規避保障措施相關的能力（SHADE-Arena、Minimal-LinuxBench 隱匿）與 Opus 4.7 相當，且遠低於 Mythos；以微調為基礎的引出並未顯著提高隱匿成功率。

值得注意的流程細節#

在 Opus 4.8 訓練期間，監控除了發現升高的評分相關推理之外，並未浮現比先前模型更令人擔憂的情況。
技術錯誤造成的意外思維鏈監督影響了約 0.1% 的回合（這是跨系統卡反覆出現的腳註；與思維鏈可監控性有關）。

更新——Mythos 級跨越門檻（2026 年 6 月）#

Opus 4.8「前沿未推進」的判定只在 Mythos 級能力仍被閘控的前提下成立。2026 年 6 月 Fable 5 / Mythos 5 的發布正是那條界線移動的時刻：Anthropic 直言「Mythos 級模型已達到一個會帶來重大風險的門檻」。這對 RSP 全局帶來兩項後果：

緩解重心從閘控轉向已部署的保障措施。 Mythos Preview 當時只是單純被扣留不發布，Opus 4.8 則仰賴維持在前沿之下；而對於一個恰好處於門檻上的模型，普遍存取的解法是 Capability-Gated Model Fallback——以分類器把網路、生化、蒸餾類查詢改路由到 Opus 4.8，而非直接拒答。這是第一個讓已部署的濫用緩解（而非能力餘裕）成為承載安全機制的普遍存取模型。隨之而來的還有對所有 Mythos 級流量的 30 天保留要求。
CB 論證因真實的科學能力而被收緊。 AAV capsid 組裝結果——Mythos 級在未經訓練的情況下擊敗專用的 protein-language models（見 Autonomous Scientific Discovery）——正是 CB 門檻所要框定的那種雙重用途提升，也是生物分類器目前被調得過於寬鬆的明言理由。

因此 RSP 的部署煞車如今是在其已嚙合的模式下運作，而不只是「尚未觸及前沿」的模式——而兩個模型在發布後遭到暫停（見 Claude Fable 5）也活生生提醒著：這些保障措施正在生產環境中被對抗性地測試。

開放問題#

RSP 的判定大量倚賴「我們每天都在用它，而它無法替代我們的研究人員」。當模型逼近門檻時，那種主觀判斷的可擴展性有多好？
兩條新的普遍存取風險路徑（其他 AI 開發者；主要政府）雖已新進入評估範圍，卻只被輕度評估——在那裡得到一個正面發現究竟會長什麼樣子？
RSP 煞車如何與 Recursive Self-Improvement 互動：若加速會複利疊加，以 AECI 為基礎的閘控是否夠快？而若沒有多邊的暫停驗證機制，單一實驗室的閘控又是否真的重要？

資料來源#

Claude Opus 4.8 System Card — §2 (RSP evaluations): §2.1 risk-assessment process, §2.2 CB evaluations, §2.3 AI R&D, §2.4 alignment risk update
Claude Fable 5 and Claude Mythos 5 — Mythos-class "threshold... significant risks"; classifier safeguards + 30-day retention as the deployed mitigation

負責任擴展政策評估

資料來源#

摘要#

風險評估流程#

化學與生物（CB）#

自動化 AI 研發#

對齊風險#

值得注意的流程細節#

更新——Mythos 級跨越門檻（2026 年 6 月）#

相關連結#

開放問題#

資料來源#