資料來源#
摘要#
Recursive Self-Improvement 背後的外部基準趨勢線:AI 能可靠獨立完成的任務長度,大約每四個月就翻倍一次——較先前約七個月翻倍的速度更快了。這個指標出自 METR 的 time-horizons 研究,回報的是一個模型在一籃子任務上維持 50% 可靠度的時長(在 80% 可靠度下,曲線看起來也一樣)。它是《When AI builds itself》的量化骨幹:AI Accelerating AI Development 呈現的是 AI 在 Anthropic 內部加速 AI 的工作,而本篇呈現的則是底層能力在公開基準上的攀升。
翻倍曲線#
| 模型 | 約略日期 | 可靠任務長度 |
|---|---|---|
| Claude Opus 3 | 2024 年 3 月 | 約 4 分鐘 |
| Claude Sonnet 3.7 | 約 2025 年 3 月 | 約 1.5 小時 |
| Claude Opus 4.6 | 約 2026 | 約 12 小時 |
| (預估) | 今年 | 數天 |
| (預估) | 2027 | 數週 |
Mythos Preview 已經逼近可量測的邊緣:METR 發現它能持續工作「至少」16 小時,且「處於 [METR] 在不新增任務的情況下所能量測範圍的上限」。趨勢的加速(7 個月 → 4 個月翻倍)才是真正關鍵之處——這正是該文主張迴圈可能會「比多數機構所準備的還要早」閉合的原因。
2026 年 6 月的 Mythos-class 發布更進一步:Fable 5 / Mythos 5「能比以往任何 Claude 模型自主運作更久」,而具體的數據點是超過一週、大致自主完成的基因體學工作(組裝資料、設計並訓練一個模型、擊敗一條已發表的基線——見 Autonomous Scientific Discovery)。一次長達一週的自主研究運行,早已遠遠超出 METR 可量測的任務籃——這個指標如今是在追趕能力,而不再是為它劃定上界。
以基準飽和作為佐證訊號#
同樣的模式也以另一種形式出現:各項基準從近乎零分一路衝到「飽和」(≈100%,並考量到許多基準因錯誤而被壓在 100% 以下的情況):
- SWE-bench——交給模型一個真實的開源程式碼庫加上一份 bug 回報,要求它做出一個能通過該專案自身測試的修改。從個位數低分 → 兩年內達到飽和。(參照 Claude Opus 4.8:在 SWE-bench Verified 上拿下 88.6。)
- CORE-Bench——根據一篇已發表論文的程式碼與資料重現其結果;這是進行原創研究的前提條件。從約 20%(2024)→ 十五個月內達到飽和。
飽和正是為什麼時間跨度的長度、而非單一基準的準確率,已成為更具資訊量的能力衡量軸——也是為什麼一旦模型越過了頂尖人類基線,Anthropic 就退役了其以任務為基礎的 AI-R&D 基準(見 AI R&D Autonomy Evaluation (AECI))。
但書#
- 基礎設施的吃緊是一項領先指標,而不只是趣聞。 GitHub 在整個 2025 年看到約 10 億次 commit;到了 2026 年中,每週就有約 2.75 億次(約合每年 140 億次的速度),而且正「拼盡全力」擴充容量——這是同一股吞吐量激增在下游留下的印記。
- 時間跨度的數字是針對一籃子任務的 50% 可靠度統計;籃子內部的鋸齒性是真實存在的——一個能搞定 12 小時任務的模型,仍可能在一件微不足道的小事上失敗。
- 這條曲線究竟是真正的指數曲線,還是一條正逼近其轉折點的 S 曲線,正是 Recursive Self-Improvement 第一種未來所明言的不確定性。
相關連結#
- Recursive Self-Improvement——把這條曲線外推,就是迴圈可能很快閉合的量化論據
- AI Accelerating AI Development——本篇外部基準證據在內部吞吐量面向上的對應篇章
- Jagged Intelligence (Ghosts, Not Animals)——籃子內部的但書:長時間跨度的能力與微不足道的失誤並存
- The Bitter Lesson——一般基準上能力的攀升,正是讓手工搭建的鷹架優勢日益縮水的原因
- AI R&D Autonomy Evaluation (AECI)——為什麼飽和的任務型基準會從 RSP 的判定中退役
- Build for the Next Model——本篇所量測的這條可預測的能力曲線,正是讓「押注下一次發布」成為理性產品策略、而非一場賭博的原因
- Autonomous Scientific Discovery——Mythos 5 長達一週的自主基因體學運行,是一個越過 Mythos Preview 已量測之 16 小時上限的具體長時間跨度數據點
待解決的問題#
- 這 4 個月翻倍究竟是一種穩定的態勢,還是只是局部的陡峭化?這個趨勢的形狀(指數 vs S 曲線)尚未確定。
- 時間跨度是在一籃子任務上量測的,而這些籃子本身也會飽和;一旦數週之長的任務變得可量測,什麼會取代它們——又是誰來打造那些任務?
資料來源#
- When AI builds itself——§"Evidence from the outside world"(METR 時間跨度;SWE-bench / CORE-Bench 飽和;GitHub commit 量的註腳)
- Claude Fable 5 and Claude Mythos 5——「work autonomously for longer than any previous Claude models」;長達一週的自主基因體學
Cited by 13
- AI Accelerating AI Development
The empirical core of *When AI builds itself*: measured evidence AI already speeds AI R&D at Anthropic — >80% of merged…
- AI R&D Autonomy Evaluation (AECI)
How Anthropic measures whether a model can automate or dramatically accelerate AI research — the capability that drives…
- Anthropic Institute
Anthropic's policy/governance research arm; published *When AI builds itself* (Favaro & Clark, 2026) on recursive self-…
- Autonomous Scientific Discovery
Mythos-class models now conduct novel science with limited human input — autonomous protein/drug design (~10× faster, m…
- Build for the Next Model
Prototype the thing that almost works, not the thing that already works: bet that the next concrete model release (not…
- Claude Fable 5
Anthropic's first generally-available Mythos-class model (June 2026) — state-of-the-art on nearly all benchmarks; the s…
- Jagged Intelligence (Ghosts, Not Animals)
"Ghosts not animals": jagged statistical circuits, no intrinsic motivation; car-wash/strawberry failures; stay in the l…
- METR
Independent AI-evaluation org behind the 'time horizons' benchmark — the task length a model can complete reliably on i…
- LLM Architecture, Training & Alignment
Map of Content for the llm-architecture domain — 19 concepts. Curated entry point; see Home for all domains.
- Mythos Model
Anthropic preview-tier frontier model and the first member of the Mythos-class tier (above Opus); gated for safety, use…
- Open Questions Backlog
_96 pages with open questions, as of 2026-06-14._
- Recursive Self-Improvement
An AI system autonomously designing and developing its own successor; Anthropic Institute's *When AI builds itself* arg…
- The Bitter Lesson
Sutton 2019: scaled general methods beat hand-engineered structure; recurring justification across the wiki for dissolv…
Related articles
- Recursive Self-Improvement
An AI system autonomously designing and developing its own successor; Anthropic Institute's *When AI builds itself* arg…
- Harness Shrinkage as Models Improve
Prompt scaffolding shrinks each model release; Cat Wu's pruning discipline; Boris Cherny "100 lines of code a year from…
- Research Taste as the Human Bottleneck
The narrowing human role as AI absorbs execution: choosing which problems matter, which results to trust, and when an a…
- Responsible Scaling Policy Evaluations
Anthropic's RSP gates deployment on pre-release capability evaluations in CBRN, automated AI R&D, and high-stakes misal…
- AI R&D Autonomy Evaluation (AECI)
How Anthropic measures whether a model can automate or dramatically accelerate AI research — the capability that drives…
