資料來源#
摘要#
When AI builds itself 提出的治理回應:如果 RSI 的軌跡成立,世界至少應該保有減速或暫時暫停 frontier AI 發展的選擇權,好讓社會結構與對齊研究能夠跟上腳步。但暫停唯有在可信——亦即多邊且可驗證——時才有用,因為單方面的暫停只不過是改變了由誰領先。Anthropic Institute 所揭示的議程,正是要建立一場可信減速所需要的系統。這是 RSP 內部部署煞車機制在政策面的對應書擋:RSP 把關的是單一實驗室的發布;而暫停驗證則是跨實驗室、跨國家的協調難題。
為什麼單方面暫停還不夠#
Anthropic 的立場:「如果減速只是讓最不謹慎的行為者在技術上迎頭趕上,反而可能讓每個人都更不安全。」由單一實驗室發起的單方面暫停「能夠立即實現,但成效遠遠不足:它會改變誰是領先者,卻無法創造出目前所欠缺的、更廣泛的審議過程。」Anthropic 表示,如果其他位於或接近 frontier 的開發者以可驗證的方式同步減速,它願意減速或暫時暫停——這使得驗證成為整件事的關鍵樞紐。
為什麼對 AI 而言驗證格外困難#
一場可信的暫停,需要分布於多個國家、資源充裕的多家實驗室,在相同條件下達成停止的共識,且每一方都能驗證其他各方是否確實停下。AI 讓即便是可偵測性(這比完整的可驗證性門檻更低)都比其他技術更難達成:
- 訓練任務比飛彈發射井更容易隱藏。 沒有可供觀測的龐大實體特徵。
- 投入要素都是通用型的。 算力、資料與人才並非武器專用,因此你無法像管控(譬如)裂變材料那樣去管控其前置原料。
- 暗中背棄協議的誘因極為龐大——「在其他人暫停時繼續推進者,可能就此繼承領先地位。」
- 一場可信的暫停還必須明確界定什麼會觸發它、什麼會解除它,以及由誰來裁決——而這些至今都尚未定義。
先例與時間難題#
這「在原則上未必是不可能的」——世界曾為複雜技術建立過驗證機制,例如 Intermediate-Range Nuclear Forces (INF) Treaty。但那些機制「花了數十年才同時建立起基礎設施與信任」,而在 RSI 的時間表上「我們沒有那麼長的時間」。因此該機構押下這樣的賭注:在任何協議達成之前,從現在就開始建立可偵測性/驗證基礎設施,好讓這個選擇權在需要時確實存在。在接下來的數個月內,Anthropic 計劃召集決策者、研究人員、公民社會以及其他 AI 公司,並公布其成果——明確邀請 AI 公司以外的聲音參與這場審議。
相關連結#
- Recursive Self-Improvement —— 讓暫停選擇權值得建立的那條軌跡;本文是它的治理回應
- Responsible Scaling Policy Evaluations —— 單一實驗室的部署煞車;暫停驗證則是其多邊版本的對應物
- AI Accelerating AI Development —— 讓「我們沒有數十年」成為實際約束條件的那批複利式加速證據
- Agentic Misalignment (AM) —— 失去控制,正是一場可信暫停意圖對沖的下行風險
未決問題#
- 一套 AI 訓練的「驗證機制」具體上究竟由哪些東西構成——算力盤查、資料中心查核、硬體證明、晶片內遙測?這篇文章點出了問題,卻沒有給出機制。
- 可偵測性 < 可驗證性:當訓練任務不留下任何實體特徵、且投入要素皆為軍民兩用時,偵測本身真有可能變得可靠嗎?
- 由誰來裁決觸發與解除?目前沒有任何機構握有這項授權,而要從零建立這樣一個機構本身就是一項以十年計的工程。
資料來源#
- When AI builds itself —— §「What should we do?」(可驗證的多邊暫停;可偵測性對比可驗證性;INF Treaty 先例;Anthropic Institute 召集會議)
Cited by 7
- AI Accelerating AI Development
The empirical core of *When AI builds itself*: measured evidence AI already speeds AI R&D at Anthropic — >80% of merged…
- Anthropic
AI safety company / vendor of Claude; mission-as-tiebreaker culture; ~30–40 PMs across teams; Mike Krieger leads Labs r…
- Anthropic Institute
Anthropic's policy/governance research arm; published *When AI builds itself* (Favaro & Clark, 2026) on recursive self-…
- Governance & Workforce
Map of Content for the governance-workforce domain — 11 concepts. Curated entry point; see Home for all domains.
- Open Questions Backlog
_96 pages with open questions, as of 2026-06-14._
- Recursive Self-Improvement
An AI system autonomously designing and developing its own successor; Anthropic Institute's *When AI builds itself* arg…
- Responsible Scaling Policy Evaluations
Anthropic's RSP gates deployment on pre-release capability evaluations in CBRN, automated AI R&D, and high-stakes misal…
Related articles
- Recursive Self-Improvement
An AI system autonomously designing and developing its own successor; Anthropic Institute's *When AI builds itself* arg…
- AI R&D Autonomy Evaluation (AECI)
How Anthropic measures whether a model can automate or dramatically accelerate AI research — the capability that drives…
- LLM-Driven Vulnerability Research
Claude Mythos Preview's emergent cybersecurity capabilities: autonomous zero-day discovery, full exploit chains, and An…
- AI Accelerating AI Development
The empirical core of *When AI builds itself*: measured evidence AI already speeds AI R&D at Anthropic — >80% of merged…
- Anthropic
AI safety company / vendor of Claude; mission-as-tiebreaker culture; ~30–40 PMs across teams; Mike Krieger leads Labs r…
