Frontier Pause Verification

資料來源#

When AI builds itself

摘要#

When AI builds itself 提出的治理回應：如果 RSI 的軌跡成立，世界至少應該保有減速或暫時暫停 frontier AI 發展的選擇權，好讓社會結構與對齊研究能夠跟上腳步。但暫停唯有在可信——亦即多邊且可驗證——時才有用，因為單方面的暫停只不過是改變了由誰領先。Anthropic Institute 所揭示的議程，正是要建立一場可信減速所需要的系統。這是 RSP 內部部署煞車機制在政策面的對應書擋：RSP 把關的是單一實驗室的發布；而暫停驗證則是跨實驗室、跨國家的協調難題。

為什麼單方面暫停還不夠#

Anthropic 的立場：「如果減速只是讓最不謹慎的行為者在技術上迎頭趕上，反而可能讓每個人都更不安全。」由單一實驗室發起的單方面暫停「能夠立即實現，但成效遠遠不足：它會改變誰是領先者，卻無法創造出目前所欠缺的、更廣泛的審議過程。」Anthropic 表示，如果其他位於或接近 frontier 的開發者以可驗證的方式同步減速，它願意減速或暫時暫停——這使得驗證成為整件事的關鍵樞紐。

為什麼對 AI 而言驗證格外困難#

一場可信的暫停，需要分布於多個國家、資源充裕的多家實驗室，在相同條件下達成停止的共識，且每一方都能驗證其他各方是否確實停下。AI 讓即便是可偵測性（這比完整的可驗證性門檻更低）都比其他技術更難達成：

訓練任務比飛彈發射井更容易隱藏。 沒有可供觀測的龐大實體特徵。
投入要素都是通用型的。 算力、資料與人才並非武器專用，因此你無法像管控（譬如）裂變材料那樣去管控其前置原料。
暗中背棄協議的誘因極為龐大——「在其他人暫停時繼續推進者，可能就此繼承領先地位。」
一場可信的暫停還必須明確界定什麼會觸發它、什麼會解除它，以及由誰來裁決——而這些至今都尚未定義。

先例與時間難題#

這「在原則上未必是不可能的」——世界曾為複雜技術建立過驗證機制，例如 Intermediate-Range Nuclear Forces (INF) Treaty。但那些機制「花了數十年才同時建立起基礎設施與信任」，而在 RSI 的時間表上「我們沒有那麼長的時間」。因此該機構押下這樣的賭注：在任何協議達成之前，從現在就開始建立可偵測性／驗證基礎設施，好讓這個選擇權在需要時確實存在。在接下來的數個月內，Anthropic 計劃召集決策者、研究人員、公民社會以及其他 AI 公司，並公布其成果——明確邀請 AI 公司以外的聲音參與這場審議。

未決問題#

一套 AI 訓練的「驗證機制」具體上究竟由哪些東西構成——算力盤查、資料中心查核、硬體證明、晶片內遙測？這篇文章點出了問題，卻沒有給出機制。
可偵測性 < 可驗證性：當訓練任務不留下任何實體特徵、且投入要素皆為軍民兩用時，偵測本身真有可能變得可靠嗎？
由誰來裁決觸發與解除？目前沒有任何機構握有這項授權，而要從零建立這樣一個機構本身就是一項以十年計的工程。

資料來源#

When AI builds itself —— §「What should we do?」（可驗證的多邊暫停；可偵測性對比可驗證性；INF Treaty 先例；Anthropic Institute 召集會議）

Frontier Pause Verification

資料來源#

摘要#

為什麼單方面暫停還不夠#

為什麼對 AI 而言驗證格外困難#

先例與時間難題#

相關連結#

未決問題#

資料來源#