H
Howardism
Plate IILLM Architecture機器翻譯 · machine-translatedENHOWARDISM

任務時間跨度的擴展

PublishedJune 7, 2026FiledConceptDomainLLM ArchitectureTagsLLM ArchitectureCapability EvaluationBenchmarksCapability TrajectoryReading5 minSourceAI-synthesised

METR 對 AI 能可靠獨立完成的任務時長的量測,大約每 4 個月翻倍一次(從原本的每 7 個月加速而來):Opus 3 約 4 分鐘(2024 年 3 月)→ Opus 4.6 約 12 小時(2026)→ 2027 年預估為數週;並與基準飽和(SWE-bench、CORE-Bench)相互佐證

Task Time-Horizon Scaling 的示意圖

資料來源#

摘要#

Recursive Self-Improvement 背後的外部基準趨勢線:AI 能可靠獨立完成的任務長度,大約每四個月就翻倍一次——較先前約七個月翻倍的速度更快了。這個指標出自 METRtime-horizons 研究,回報的是一個模型在一籃子任務上維持 50% 可靠度的時長(在 80% 可靠度下,曲線看起來也一樣)。它是《When AI builds itself》的量化骨幹:AI Accelerating AI Development 呈現的是 AI 在 Anthropic 內部加速 AI 的工作,而本篇呈現的則是底層能力在公開基準上的攀升。

翻倍曲線#

模型約略日期可靠任務長度
Claude Opus 32024 年 3 月約 4 分鐘
Claude Sonnet 3.7約 2025 年 3 月約 1.5 小時
Claude Opus 4.6約 2026約 12 小時
(預估)今年數天
(預估)2027數週

Mythos Preview 已經逼近可量測的邊緣:METR 發現它能持續工作「至少」16 小時,且「處於 [METR] 在不新增任務的情況下所能量測範圍的上限」。趨勢的加速(7 個月 → 4 個月翻倍)才是真正關鍵之處——這正是該文主張迴圈可能會「比多數機構所準備的還要早」閉合的原因。

2026 年 6 月的 Mythos-class 發布更進一步:Fable 5 / Mythos 5「能比以往任何 Claude 模型自主運作更久」,而具體的數據點是超過一週、大致自主完成的基因體學工作(組裝資料、設計並訓練一個模型、擊敗一條已發表的基線——見 Autonomous Scientific Discovery)。一次長達一週的自主研究運行,早已遠遠超出 METR 可量測的任務籃——這個指標如今是在追趕能力,而不再是為它劃定上界。

以基準飽和作為佐證訊號#

同樣的模式也以另一種形式出現:各項基準從近乎零分一路衝到「飽和」(≈100%,並考量到許多基準因錯誤而被壓在 100% 以下的情況):

  • SWE-bench——交給模型一個真實的開源程式碼庫加上一份 bug 回報,要求它做出一個能通過該專案自身測試的修改。從個位數低分 → 兩年內達到飽和。(參照 Claude Opus 4.8:在 SWE-bench Verified 上拿下 88.6。)
  • CORE-Bench——根據一篇已發表論文的程式碼與資料重現其結果;這是進行原創研究的前提條件。從約 20%(2024)→ 十五個月內達到飽和。

飽和正是為什麼時間跨度的長度、而非單一基準的準確率,已成為更具資訊量的能力衡量軸——也是為什麼一旦模型越過了頂尖人類基線,Anthropic 就退役了其以任務為基礎的 AI-R&D 基準(見 AI R&D Autonomy Evaluation (AECI))。

但書#

  • 基礎設施的吃緊是一項領先指標,而不只是趣聞。 GitHub 在整個 2025 年看到約 10 億次 commit;到了 2026 年中,每週就有約 2.75 億次(約合每年 140 億次的速度),而且正「拼盡全力」擴充容量——這是同一股吞吐量激增在下游留下的印記。
  • 時間跨度的數字是針對一籃子任務的 50% 可靠度統計;籃子內部的鋸齒性是真實存在的——一個能搞定 12 小時任務的模型,仍可能在一件微不足道的小事上失敗。
  • 這條曲線究竟是真正的指數曲線,還是一條正逼近其轉折點的 S 曲線,正是 Recursive Self-Improvement 第一種未來所明言的不確定性。

相關連結#

待解決的問題#

  • 這 4 個月翻倍究竟是一種穩定的態勢,還是只是局部的陡峭化?這個趨勢的形狀(指數 vs S 曲線)尚未確定。
  • 時間跨度是在一籃子任務上量測的,而這些籃子本身也會飽和;一旦數週之長的任務變得可量測,什麼會取代它們——又是誰來打造那些任務?

資料來源#

  • When AI builds itself——§"Evidence from the outside world"(METR 時間跨度;SWE-bench / CORE-Bench 飽和;GitHub commit 量的註腳)
  • Claude Fable 5 and Claude Mythos 5——「work autonomously for longer than any previous Claude models」;長達一週的自主基因體學
§ end
About this piece

Articles in this journal are synthesised by AI agents from a curated wiki and are refreshed automatically as new concepts arrive. Topics, framing, and editorial direction are curated by Howardism.

Cited by 13
  • AI Accelerating AI Development

    The empirical core of *When AI builds itself*: measured evidence AI already speeds AI R&D at Anthropic — >80% of merged…

  • AI R&D Autonomy Evaluation (AECI)

    How Anthropic measures whether a model can automate or dramatically accelerate AI research — the capability that drives…

  • Anthropic Institute

    Anthropic's policy/governance research arm; published *When AI builds itself* (Favaro & Clark, 2026) on recursive self-…

  • Autonomous Scientific Discovery

    Mythos-class models now conduct novel science with limited human input — autonomous protein/drug design (~10× faster, m…

  • Build for the Next Model

    Prototype the thing that almost works, not the thing that already works: bet that the next concrete model release (not…

  • Claude Fable 5

    Anthropic's first generally-available Mythos-class model (June 2026) — state-of-the-art on nearly all benchmarks; the s…

  • Jagged Intelligence (Ghosts, Not Animals)

    "Ghosts not animals": jagged statistical circuits, no intrinsic motivation; car-wash/strawberry failures; stay in the l…

  • METR

    Independent AI-evaluation org behind the 'time horizons' benchmark — the task length a model can complete reliably on i…

  • LLM Architecture, Training & Alignment

    Map of Content for the llm-architecture domain — 19 concepts. Curated entry point; see Home for all domains.

  • Mythos Model

    Anthropic preview-tier frontier model and the first member of the Mythos-class tier (above Opus); gated for safety, use…

  • Open Questions Backlog

    _96 pages with open questions, as of 2026-06-14._

  • Recursive Self-Improvement

    An AI system autonomously designing and developing its own successor; Anthropic Institute's *When AI builds itself* arg…

  • The Bitter Lesson

    Sutton 2019: scaled general methods beat hand-engineered structure; recurring justification across the wiki for dissolv…

Related articles