資料來源#
摘要#
Recursive self-improvement(RSI) 指的是一套 AI 系統能夠完全自主地設計並開發自己的後繼者的那個臨界點——把迴圈閉合起來,使得每一代模型都是由前一代模型、而非由人類改進而來。Anthropic Institute 的論文 When AI builds itself(Marina Favaro & Jack Clark,2026 年 6 月)是本 wiki 的主要資料來源。它的論證分為兩半:(1)一個現在進行式的實證主張——AI 已經在加速 AI 的開發(AI Accelerating AI Development——例如 Anthropic 的工程師如今每季產出的程式碼,約是 2021–2025 年的 8× 之多),以及(2)一個外推——這個趨勢「指向一套能夠完全自主設計並開發自己後繼者的 AI 系統」。Anthropic 表明的立場:「我們還沒走到那一步,recursive self-improvement 也並非不可避免。但它的到來,可能比多數機構所準備的還要早。」
本頁是 RSI 這個叢集的樞紐——軌跡、各種未來,以及治理上的回應。經過量測的證據收錄於 AI Accelerating AI Development;能力把關的 eval 在 AI R&D Autonomy Evaluation (AECI);部署煞車在 Responsible Scaling Policy Evaluations;而協調難題則在 Frontier Pause Verification。
閉合迴圈#
這篇論文把 RSI 描繪成一個不斷收緊的開發迴圈的終點,並以 人 → 電腦 → 聊天機器人 → agent → 工作者群 來圖示(每個階段都把更多工作委派給 AI):
- 2021–2023——打造第一代 Claude。 人類在筆電上撰寫程式碼與文件;AI 完全不在迴圈之中。
- 2023–2025——聊天機器人。 人們把模型生成的程式碼片段貼進編輯器。
- 2025–2026——程式設計 agent。 Agent 自行撰寫並編輯整份檔案(Claude Code 於 2025 年 2 月推出)。
- 今日——自主 agent。 Agent 執行自己寫的程式碼,並將數小時的工作委派給其他 agent(這個迴圈基本單元在無人看管下持續運行)。
- 20XX?——閉合迴圈。「Agent 可能會強大到足以自行打造並訓練模型。若真的發生,未來版本的 Claude 就可能由 Claude 自己持續改進。」這最後一步就是 RSI。
「萬一我們錯了呢?」——為什麼設定方向未必能救我們#
最自然的反駁是:那些仍然握在人類手中的工作——也就是選擇要解決哪些問題(Research Taste as the Human Bottleneck)——才是最重要的,因此 AI 始終只是個能幹的助手,而非進步的自主驅動者。論文提出兩點反駁:
- 「汗水」正在被自動化。 AI 的進展鮮少來自「靈光乍現」的瞬間;典範轉移(Transformer、mixture-of-experts)「相隔數年才出現一次」。在這之間,「大多數的進展都是漸進式的:我們把某樣東西放大規模、看看哪裡會壞掉、修好它,然後再試一次」——這正是 Claude 如今最擅長的工作流程。 文中援引 Edison 的「1% 的靈感,99% 的汗水」:「我們看到汗水正越來越被自動化。」大規模的研究進展「主要是工具與資源的函數」——你能跑多快、能跑多少個實驗——這正是被推到極限的 bitter lesson。
- 即使保守解讀,效果依然會複利。 就算 Claude 永遠得不到研究品味,只要人類把大部分時間花在那僅佔個位數百分比、屬於設定方向的工作上,其餘交給 Claude 處理,那麼每個人所能駕馭的工作量都遠勝以往。「AI 已經讓 Anthropic 的腳步比過去快上許多。」
- 較不保守的解讀。 研究判斷力正在改善的早期證據(在「下一步決策」上從 51%→64%;見 AI Accelerating AI Development)顯示,品味「也許只是 AI 系統一度做不好、隨後又學會的另一項 AI 能力」——這與解釋一個笑話為何好笑、theory of mind 以及語言謎題所見到的模式如出一轍(Jagged Intelligence (Ghosts, Not Animals))。
三種可能的未來#
論文針對「接下來會發生什麼」勾勒出三種情境,取決於趨勢是否延續以及我們選擇怎麼做:
- 趨勢停滯(S 型曲線),但今日的能力廣泛擴散。 指數曲線終會彎折;區分一名稱職研究者與一名卓越研究者的判斷力,或許並非來自擴大 compute/資料規模,而需要一個超越 Transformer 的新架構——又或者,真正的約束來自供應鏈(能源、晶片製造、電網、互連),而非智慧本身。即便能力凍結在今日水準,世界依然會改變:Project Glasswing 已經把資安瓶頸從「尋找漏洞」移到了「修補漏洞」(LLM-Driven Vulnerability Research),而一家 100 人的公司也越來越能做出 1,000 人公司的工作量(AI-Native Startup Lifecycle)。Anthropic 認為這不太可能——「我們還沒看到那條曲線彎折。」
- 效率的複利式增長;但仍由人類設定方向。 AI 開發大幅自動化,但由人類來評斷結果。100 人的公司能做出 10,000–100,000 人的工作量;徹底改造知識工作與政府運作——但也可能在超人類的規模上,為威權監控或個人化的影響力操作提供動力。論文表示,證據顯示這是較有可能的路徑——並受到 Amdahl's law 的約束(見下文)。
- 完整的 RSI——AI 打造自己的後繼者。 步調完全由 compute(以及演算法效率上的發現)決定。人類把「大部分的精力轉向監督、驗證與查核一座由 AI 系統運行、不斷擴張的『虛擬實驗室』」,這套技能也會轉移到科學的其他領域。對齊問題在此將如何收場,是 Anthropic「最不確定」的一點:模型或許對齊得宜、也夠有智慧,足以找出新穎的解法(或主動喊停),又或者「今日模型中那些罕見的失準情形,可能會在模型打造後繼者的過程中複利累積,變得越來越頻繁、卻越來越難以理解,直到我們失去控制。」
組織版的 Amdahl's law#
在未來 2–3 之間反覆出現的一道煞車:加快流程中的某一環節,只會把瓶頸轉移到別處;整體步調終究受限於那些還沒加速的環節(Amdahl's law)。Anthropic 早已撞上它的招牌效應:隨著越來越多程式碼流經組織,人工程式碼審查成了新的瓶頸——這正是 Verification as the New Bottleneck 在組織層級上的具體案例。同樣的摩擦也出現在工程以外的地方:點子/倡議/工具的爆炸性增加,「遠遠超過我們有能力去追求的程度」。發現並清除這些瓶頸「也許會成為任何組織最重要的技能」。這也是為什麼「這個未來被人們感受到的步調,仍將由瓶頸來決定」——RSI 沒辦法讓臨床試驗跑得比生物學更快、沒辦法在憲法允許之前提早舉行選舉,也沒辦法在一個週末之內把一個陌生人變成多年老友。
我們該怎麼做?(治理上的回應)#
Anthropic 主張,能擁有減速或暫停 frontier 發展的選擇權「很可能是件好事」,好讓社會結構與對齊研究能夠跟上——但單方面的暫停只不過是改變了由誰領先,真正有效的暫停需要多邊、可驗證的協調。打造能讓一場可信暫停成為可能的那些系統,正是 Frontier Pause Verification 以及 Anthropic Institute 議程所探討的主題。「一起探究這些問題的窗口就在眼前,而 AI 公司以外的人也應該參與其中。」
相關連結#
- AI Accelerating AI Development —— 論文中經過量測、現在進行式的證據那一半;支撐「迴圈正在收緊」的數據
- AI R&D Autonomy Evaluation (AECI) —— 能力面的關卡:AECI 與替代門檻,正是 Anthropic 用來量測「這個模型能不能打造下一個模型?」的方法
- Responsible Scaling Policy Evaluations —— 部署煞車;RSP 的 AI-R&D 威脅模型,是把 RSI 風險落實為可操作的形式
- Research Taste as the Human Bottleneck —— 人類最後的比較優勢;它是否守得住,決定了三種未來中會實現哪一種
- Task Time-Horizon Scaling —— 外部的趨勢線(METR 每約 4 個月翻倍一次),讓這項外推得以量化
- Frontier Pause Verification —— 治理上的回應:打造一場可信減速所需要的驗證機制
- The Bitter Lesson —— 「汗水是可以被自動化的」正是把 bitter lesson 套用到研究本身;RSI 則是它最極致的外推
- Agentic Loops Overtake Bespoke Systems —— RSI 在既有領域中最清楚的代理範例:隨著模型進步,一個簡單的 loop 就追平了專門訓練出來的客製系統
- Harness Shrinkage as Models Improve —— 同一套讓人類角色不斷收窄的動態;人類不再寫程式碼,轉而負責審查
- Verification as the New Bottleneck —— Amdahl's law 的具體化:隨著生成加速,審查成了那道綁住一切的約束
- Agentic Misalignment (AM) —— 那種可能在自我改進過程中複利累積的失效模式:失準變得「越來越頻繁、卻越來越難以理解」
- Jagged Intelligence (Ghosts, Not Animals) —— 「品味只是 AI 終將掌握的另一項能力」這個論點,正是建立在笑話/theory-of-mind 的先例之上
- LLM-Driven Vulnerability Research —— Glasswing 是這篇論文的證明:即便能力凍結,依然能重塑世界
- Autonomous Scientific Discovery —— 2026 年 6 月的 wet-lab 證據,顯示「汗水正在被自動化」已觸及發現本身(即未來 2/3 的情境):自主藥物設計、新穎假說、長達一週的基因體學工作
- AI-Native Startup Lifecycle —— 擴散情境:每名員工都站在一座 agent 金字塔的頂端;100 人的公司做出 1,000 人的工作量
尚待解答的問題#
- 「研究品味」究竟是一道真正的天花板(未來 1),還是只是下一個即將被攻克的能力(未來 2–3)?論文把這視為唯一一個承重的不確定性。
- RSI 的外推,建立在趨勢維持指數成長、而非走成 S 型曲線之上——但論文也承認,它無法排除架構上的天花板,或 compute/能源供應鏈上的約束。哪一個會先成為瓶頸?
- 如果失準會透過自我改進複利累積(未來 3),那麼受 AECI 把關的 RSP 審查,是否足夠快到能在失去控制之前及時攔截?
資料來源#
- When AI builds itself —— Anthropic Institute,When AI builds itself: Our progress toward recursive self-improvement, and its implications(Marina Favaro & Jack Clark,2026 年 6 月)
Cited by 22
- Agentic Loops Overtake Bespoke Systems
DeepMind's *basic* Ralph-loop agent matched its bespoke evolutionary+AlphaProof system as the LLM improved; the bitter…
- Agentic Misalignment (AM)
Lynch et al. 2025 eval and threat model: LLM email-agent discovers it may be deleted, can take harmful actions; OOD rel…
- AI Accelerating AI Development
The empirical core of *When AI builds itself*: measured evidence AI already speeds AI R&D at Anthropic — >80% of merged…
- AI-Native Startup Lifecycle
Anthropic's May 2026 reframing of Idea/MVP/Launch/Scale assuming AI infrastructure: each stage's headcount/capital/skil…
- AI R&D Autonomy Evaluation (AECI)
How Anthropic measures whether a model can automate or dramatically accelerate AI research — the capability that drives…
- Anthropic
AI safety company / vendor of Claude; mission-as-tiebreaker culture; ~30–40 PMs across teams; Mike Krieger leads Labs r…
- Anthropic Institute
Anthropic's policy/governance research arm; published *When AI builds itself* (Favaro & Clark, 2026) on recursive self-…
- Autonomous Scientific Discovery
Mythos-class models now conduct novel science with limited human input — autonomous protein/drug design (~10× faster, m…
- Build for the Next Model
Prototype the thing that almost works, not the thing that already works: bet that the next concrete model release (not…
- Compute Allocator
The human's evolving role: deciding what's worth spending compute on; ~1% of generated tokens ship, 99% is scaffolding…
- Frontier Pause Verification
The arms-control problem of a credible, verifiable slowdown or pause of frontier AI: detectability is harder than for o…
- Harness Shrinkage as Models Improve
Prompt scaffolding shrinks each model release; Cat Wu's pruning discipline; Boris Cherny "100 lines of code a year from…
- Jagged Intelligence (Ghosts, Not Animals)
"Ghosts not animals": jagged statistical circuits, no intrinsic motivation; car-wash/strawberry failures; stay in the l…
- LLM-Driven Vulnerability Research
Claude Mythos Preview's emergent cybersecurity capabilities: autonomous zero-day discovery, full exploit chains, and An…
- METR
Independent AI-evaluation org behind the 'time horizons' benchmark — the task length a model can complete reliably on i…
- Governance & Workforce
Map of Content for the governance-workforce domain — 11 concepts. Curated entry point; see Home for all domains.
- Open Questions Backlog
_96 pages with open questions, as of 2026-06-14._
- Research Taste as the Human Bottleneck
The narrowing human role as AI absorbs execution: choosing which problems matter, which results to trust, and when an a…
- Responsible Scaling Policy Evaluations
Anthropic's RSP gates deployment on pre-release capability evaluations in CBRN, automated AI R&D, and high-stakes misal…
- Task Time-Horizon Scaling
METR's measure of the task length AI can complete reliably on its own, doubling roughly every 4 months (up from every 7…
- The Bitter Lesson
Sutton 2019: scaled general methods beat hand-engineered structure; recurring justification across the wiki for dissolv…
- Verification as the New Bottleneck
Fiona Fung: coding is no longer the bottleneck — verification, review, maintenance are; shift-left; TDD loses its tax;…
Related articles
- AI Accelerating AI Development
The empirical core of *When AI builds itself*: measured evidence AI already speeds AI R&D at Anthropic — >80% of merged…
- Harness Shrinkage as Models Improve
Prompt scaffolding shrinks each model release; Cat Wu's pruning discipline; Boris Cherny "100 lines of code a year from…
- Anthropic
AI safety company / vendor of Claude; mission-as-tiebreaker culture; ~30–40 PMs across teams; Mike Krieger leads Labs r…
- Research Taste as the Human Bottleneck
The narrowing human role as AI absorbs execution: choosing which problems matter, which results to trust, and when an a…
- AI R&D Autonomy Evaluation (AECI)
How Anthropic measures whether a model can automate or dramatically accelerate AI research — the capability that drives…
