任務時間跨度的擴展

資料來源#

摘要#

Recursive Self-Improvement 背後的外部基準趨勢線：AI 能可靠獨立完成的任務長度，大約每四個月就翻倍一次——較先前約七個月翻倍的速度更快了。這個指標出自 METR 的 time-horizons 研究，回報的是一個模型在一籃子任務上維持 50% 可靠度的時長（在 80% 可靠度下，曲線看起來也一樣）。它是《When AI builds itself》的量化骨幹：AI Accelerating AI Development 呈現的是 AI 在 Anthropic 內部加速 AI 的工作，而本篇呈現的則是底層能力在公開基準上的攀升。

翻倍曲線#

模型	約略日期	可靠任務長度
Claude Opus 3	2024 年 3 月	約 4 分鐘
Claude Sonnet 3.7	約 2025 年 3 月	約 1.5 小時
Claude Opus 4.6	約 2026	約 12 小時
（預估）	今年	數天
（預估）	2027	數週

Mythos Preview 已經逼近可量測的邊緣：METR 發現它能持續工作「至少」16 小時，且「處於 [METR] 在不新增任務的情況下所能量測範圍的上限」。趨勢的加速（7 個月 → 4 個月翻倍）才是真正關鍵之處——這正是該文主張迴圈可能會「比多數機構所準備的還要早」閉合的原因。

2026 年 6 月的 Mythos-class 發布更進一步：Fable 5 / Mythos 5「能比以往任何 Claude 模型自主運作更久」，而具體的數據點是超過一週、大致自主完成的基因體學工作（組裝資料、設計並訓練一個模型、擊敗一條已發表的基線——見 Autonomous Scientific Discovery）。一次長達一週的自主研究運行，早已遠遠超出 METR 可量測的任務籃——這個指標如今是在追趕能力，而不再是為它劃定上界。

以基準飽和作為佐證訊號#

同樣的模式也以另一種形式出現：各項基準從近乎零分一路衝到「飽和」（≈100%，並考量到許多基準因錯誤而被壓在 100% 以下的情況）：

SWE-bench——交給模型一個真實的開源程式碼庫加上一份 bug 回報，要求它做出一個能通過該專案自身測試的修改。從個位數低分 → 兩年內達到飽和。（參照 Claude Opus 4.8：在 SWE-bench Verified 上拿下 88.6。）
CORE-Bench——根據一篇已發表論文的程式碼與資料重現其結果；這是進行原創研究的前提條件。從約 20%（2024）→ 十五個月內達到飽和。

飽和正是為什麼時間跨度的長度、而非單一基準的準確率，已成為更具資訊量的能力衡量軸——也是為什麼一旦模型越過了頂尖人類基線，Anthropic 就退役了其以任務為基礎的 AI-R&D 基準（見 AI R&D Autonomy Evaluation (AECI)）。

但書#

基礎設施的吃緊是一項領先指標，而不只是趣聞。 GitHub 在整個 2025 年看到約 10 億次 commit；到了 2026 年中，每週就有約 2.75 億次（約合每年 140 億次的速度），而且正「拼盡全力」擴充容量——這是同一股吞吐量激增在下游留下的印記。
時間跨度的數字是針對一籃子任務的 50% 可靠度統計；籃子內部的鋸齒性是真實存在的——一個能搞定 12 小時任務的模型，仍可能在一件微不足道的小事上失敗。
這條曲線究竟是真正的指數曲線，還是一條正逼近其轉折點的 S 曲線，正是 Recursive Self-Improvement 第一種未來所明言的不確定性。

待解決的問題#

這 4 個月翻倍究竟是一種穩定的態勢，還是只是局部的陡峭化？這個趨勢的形狀（指數 vs S 曲線）尚未確定。
時間跨度是在一籃子任務上量測的，而這些籃子本身也會飽和；一旦數週之長的任務變得可量測，什麼會取代它們——又是誰來打造那些任務？

資料來源#

When AI builds itself——§"Evidence from the outside world"（METR 時間跨度；SWE-bench / CORE-Bench 飽和；GitHub commit 量的註腳）
Claude Fable 5 and Claude Mythos 5——「work autonomously for longer than any previous Claude models」；長達一週的自主基因體學

任務時間跨度的擴展

資料來源#

摘要#

翻倍曲線#

以基準飽和作為佐證訊號#

但書#

相關連結#

待解決的問題#

資料來源#