H
Howardism
Plate IIGovernance & Workforce機器翻譯 · machine-translatedENHOWARDISM

Recursive Self-Improvement

PublishedJune 7, 2026FiledConceptDomainGovernance & WorkforceTagsGovernanceRecursive Self ImprovementAI RdCapability TrajectoryAnthropicReading9 minSourceAI-synthesised

一套 AI 系統自主設計並開發自己的後繼者;Anthropic Institute 的 *When AI builds itself* 主張 AI 已經在加速 AI 的開發(工程師每季產出約 8× 的程式碼),並勾勒出三種未來——停滯但已擴散、複利式效率,以及完整的 RSI

Recursive Self-Improvement 示意圖

資料來源#

摘要#

Recursive self-improvement(RSI) 指的是一套 AI 系統能夠完全自主地設計並開發自己的後繼者的那個臨界點——把迴圈閉合起來,使得每一代模型都是由前一代模型、而非由人類改進而來。Anthropic Institute 的論文 When AI builds itself(Marina Favaro & Jack Clark,2026 年 6 月)是本 wiki 的主要資料來源。它的論證分為兩半:(1)一個現在進行式的實證主張——AI 已經在加速 AI 的開發AI Accelerating AI Development——例如 Anthropic 的工程師如今每季產出的程式碼,約是 2021–2025 年的 8× 之多),以及(2)一個外推——這個趨勢「指向一套能夠完全自主設計並開發自己後繼者的 AI 系統」。Anthropic 表明的立場:「我們還沒走到那一步,recursive self-improvement 也並非不可避免。但它的到來,可能比多數機構所準備的還要早。」

本頁是 RSI 這個叢集的樞紐——軌跡、各種未來,以及治理上的回應。經過量測的證據收錄於 AI Accelerating AI Development能力把關的 evalAI R&D Autonomy Evaluation (AECI)部署煞車Responsible Scaling Policy Evaluations;而協調難題則在 Frontier Pause Verification

閉合迴圈#

這篇論文把 RSI 描繪成一個不斷收緊的開發迴圈的終點,並以 人 → 電腦 → 聊天機器人 → agent → 工作者群 來圖示(每個階段都把更多工作委派給 AI):

  • 2021–2023——打造第一代 Claude。 人類在筆電上撰寫程式碼與文件;AI 完全不在迴圈之中。
  • 2023–2025——聊天機器人。 人們把模型生成的程式碼片段貼進編輯器。
  • 2025–2026——程式設計 agent。 Agent 自行撰寫並編輯整份檔案(Claude Code 於 2025 年 2 月推出)。
  • 今日——自主 agent。 Agent 執行自己寫的程式碼,並將數小時的工作委派給其他 agent(這個迴圈基本單元在無人看管下持續運行)。
  • 20XX?——閉合迴圈。「Agent 可能會強大到足以自行打造並訓練模型。若真的發生,未來版本的 Claude 就可能由 Claude 自己持續改進。」這最後一步就是 RSI。

「萬一我們錯了呢?」——為什麼設定方向未必能救我們#

最自然的反駁是:那些仍然握在人類手中的工作——也就是選擇要解決哪些問題(Research Taste as the Human Bottleneck)——才是最重要的,因此 AI 始終只是個能幹的助手,而非進步的自主驅動者。論文提出兩點反駁:

  • 「汗水」正在被自動化。 AI 的進展鮮少來自「靈光乍現」的瞬間;典範轉移(Transformer、mixture-of-experts)「相隔數年才出現一次」。在這之間,「大多數的進展都是漸進式的:我們把某樣東西放大規模、看看哪裡會壞掉、修好它,然後再試一次」——這正是 Claude 如今最擅長的工作流程。 文中援引 Edison 的「1% 的靈感,99% 的汗水」:「我們看到汗水正越來越被自動化。」大規模的研究進展「主要是工具與資源的函數」——你能跑多快、能跑多少個實驗——這正是被推到極限的 bitter lesson
  • 即使保守解讀,效果依然會複利。 就算 Claude 永遠得不到研究品味,只要人類把大部分時間花在那僅佔個位數百分比、屬於設定方向的工作上,其餘交給 Claude 處理,那麼每個人所能駕馭的工作量都遠勝以往。「AI 已經讓 Anthropic 的腳步比過去快上許多。」
  • 較不保守的解讀。 研究判斷力正在改善的早期證據(在「下一步決策」上從 51%→64%;見 AI Accelerating AI Development)顯示,品味「也許只是 AI 系統一度做不好、隨後又學會的另一項 AI 能力」——這與解釋一個笑話為何好笑、theory of mind 以及語言謎題所見到的模式如出一轍(Jagged Intelligence (Ghosts, Not Animals))。

三種可能的未來#

論文針對「接下來會發生什麼」勾勒出三種情境,取決於趨勢是否延續以及我們選擇怎麼做

  1. 趨勢停滯(S 型曲線),但今日的能力廣泛擴散。 指數曲線終會彎折;區分一名稱職研究者與一名卓越研究者的判斷力,或許並非來自擴大 compute/資料規模,而需要一個超越 Transformer 的新架構——又或者,真正的約束來自供應鏈(能源、晶片製造、電網、互連),而非智慧本身。即便能力凍結在今日水準,世界依然會改變:Project Glasswing 已經把資安瓶頸從「尋找漏洞」移到了「修補漏洞」(LLM-Driven Vulnerability Research),而一家 100 人的公司也越來越能做出 1,000 人公司的工作量(AI-Native Startup Lifecycle)。Anthropic 認為這不太可能——「我們還沒看到那條曲線彎折。」
  2. 效率的複利式增長;但仍由人類設定方向。 AI 開發大幅自動化,但由人類來評斷結果。100 人的公司能做出 10,000–100,000 人的工作量;徹底改造知識工作與政府運作——但也可能在超人類的規模上,為威權監控或個人化的影響力操作提供動力。論文表示,證據顯示這是較有可能的路徑——並受到 Amdahl's law 的約束(見下文)。
  3. 完整的 RSI——AI 打造自己的後繼者。 步調完全由 compute(以及演算法效率上的發現)決定。人類把「大部分的精力轉向監督、驗證與查核一座由 AI 系統運行、不斷擴張的『虛擬實驗室』」,這套技能也會轉移到科學的其他領域。對齊問題在此將如何收場,是 Anthropic「最不確定」的一點:模型或許對齊得宜、也夠有智慧,足以找出新穎的解法(或主動喊停),又或者「今日模型中那些罕見的失準情形,可能會在模型打造後繼者的過程中複利累積,變得越來越頻繁、卻越來越難以理解,直到我們失去控制。」

組織版的 Amdahl's law#

在未來 2–3 之間反覆出現的一道煞車:加快流程中的某一環節,只會把瓶頸轉移到別處;整體步調終究受限於那些還沒加速的環節Amdahl's law)。Anthropic 早已撞上它的招牌效應:隨著越來越多程式碼流經組織,人工程式碼審查成了新的瓶頸——這正是 Verification as the New Bottleneck 在組織層級上的具體案例。同樣的摩擦也出現在工程以外的地方:點子/倡議/工具的爆炸性增加,「遠遠超過我們有能力去追求的程度」。發現並清除這些瓶頸「也許會成為任何組織最重要的技能」。這也是為什麼「這個未來被人們感受到的步調,仍將由瓶頸來決定」——RSI 沒辦法讓臨床試驗跑得比生物學更快、沒辦法在憲法允許之前提早舉行選舉,也沒辦法在一個週末之內把一個陌生人變成多年老友。

我們該怎麼做?(治理上的回應)#

Anthropic 主張,能擁有減速或暫停 frontier 發展的選擇權「很可能是件好事」,好讓社會結構與對齊研究能夠跟上——但單方面的暫停只不過是改變了由誰領先,真正有效的暫停需要多邊、可驗證的協調。打造能讓一場可信暫停成為可能的那些系統,正是 Frontier Pause Verification 以及 Anthropic Institute 議程所探討的主題。「一起探究這些問題的窗口就在眼前,而 AI 公司以外的人也應該參與其中。」

相關連結#

尚待解答的問題#

  • 「研究品味」究竟是一道真正的天花板(未來 1),還是只是下一個即將被攻克的能力(未來 2–3)?論文把這視為唯一一個承重的不確定性。
  • RSI 的外推,建立在趨勢維持指數成長、而非走成 S 型曲線之上——但論文也承認,它無法排除架構上的天花板,或 compute/能源供應鏈上的約束。哪一個會先成為瓶頸?
  • 如果失準會透過自我改進複利累積(未來 3),那麼受 AECI 把關的 RSP 審查,是否足夠快到能在失去控制之前及時攔截?

資料來源#

  • When AI builds itself —— Anthropic Institute,When AI builds itself: Our progress toward recursive self-improvement, and its implications(Marina Favaro & Jack Clark,2026 年 6 月)
§ end
About this piece

Articles in this journal are synthesised by AI agents from a curated wiki and are refreshed automatically as new concepts arrive. Topics, framing, and editorial direction are curated by Howardism.

Cited by 22
  • Agentic Loops Overtake Bespoke Systems

    DeepMind's *basic* Ralph-loop agent matched its bespoke evolutionary+AlphaProof system as the LLM improved; the bitter…

  • Agentic Misalignment (AM)

    Lynch et al. 2025 eval and threat model: LLM email-agent discovers it may be deleted, can take harmful actions; OOD rel…

  • AI Accelerating AI Development

    The empirical core of *When AI builds itself*: measured evidence AI already speeds AI R&D at Anthropic — >80% of merged…

  • AI-Native Startup Lifecycle

    Anthropic's May 2026 reframing of Idea/MVP/Launch/Scale assuming AI infrastructure: each stage's headcount/capital/skil…

  • AI R&D Autonomy Evaluation (AECI)

    How Anthropic measures whether a model can automate or dramatically accelerate AI research — the capability that drives…

  • Anthropic

    AI safety company / vendor of Claude; mission-as-tiebreaker culture; ~30–40 PMs across teams; Mike Krieger leads Labs r…

  • Anthropic Institute

    Anthropic's policy/governance research arm; published *When AI builds itself* (Favaro & Clark, 2026) on recursive self-…

  • Autonomous Scientific Discovery

    Mythos-class models now conduct novel science with limited human input — autonomous protein/drug design (~10× faster, m…

  • Build for the Next Model

    Prototype the thing that almost works, not the thing that already works: bet that the next concrete model release (not…

  • Compute Allocator

    The human's evolving role: deciding what's worth spending compute on; ~1% of generated tokens ship, 99% is scaffolding…

  • Frontier Pause Verification

    The arms-control problem of a credible, verifiable slowdown or pause of frontier AI: detectability is harder than for o…

  • Harness Shrinkage as Models Improve

    Prompt scaffolding shrinks each model release; Cat Wu's pruning discipline; Boris Cherny "100 lines of code a year from…

  • Jagged Intelligence (Ghosts, Not Animals)

    "Ghosts not animals": jagged statistical circuits, no intrinsic motivation; car-wash/strawberry failures; stay in the l…

  • LLM-Driven Vulnerability Research

    Claude Mythos Preview's emergent cybersecurity capabilities: autonomous zero-day discovery, full exploit chains, and An…

  • METR

    Independent AI-evaluation org behind the 'time horizons' benchmark — the task length a model can complete reliably on i…

  • Governance & Workforce

    Map of Content for the governance-workforce domain — 11 concepts. Curated entry point; see Home for all domains.

  • Open Questions Backlog

    _96 pages with open questions, as of 2026-06-14._

  • Research Taste as the Human Bottleneck

    The narrowing human role as AI absorbs execution: choosing which problems matter, which results to trust, and when an a…

  • Responsible Scaling Policy Evaluations

    Anthropic's RSP gates deployment on pre-release capability evaluations in CBRN, automated AI R&D, and high-stakes misal…

  • Task Time-Horizon Scaling

    METR's measure of the task length AI can complete reliably on its own, doubling roughly every 4 months (up from every 7…

  • The Bitter Lesson

    Sutton 2019: scaled general methods beat hand-engineered structure; recurring justification across the wiki for dissolv…

  • Verification as the New Bottleneck

    Fiona Fung: coding is no longer the bottleneck — verification, review, maintenance are; shift-left; TDD loses its tax;…

Related articles
  • AI Accelerating AI Development

    The empirical core of *When AI builds itself*: measured evidence AI already speeds AI R&D at Anthropic — >80% of merged…

  • Harness Shrinkage as Models Improve

    Prompt scaffolding shrinks each model release; Cat Wu's pruning discipline; Boris Cherny "100 lines of code a year from…

  • Anthropic

    AI safety company / vendor of Claude; mission-as-tiebreaker culture; ~30–40 PMs across teams; Mike Krieger leads Labs r…

  • Research Taste as the Human Bottleneck

    The narrowing human role as AI absorbs execution: choosing which problems matter, which results to trust, and when an a…

  • AI R&D Autonomy Evaluation (AECI)

    How Anthropic measures whether a model can automate or dramatically accelerate AI research — the capability that drives…