Autonomous Scientific Discovery

資料來源#

Claude Fable 5 and Claude Mythos 5

摘要#

透過 Mythos 5（解除生物安全限制版本的 Fable 5），Anthropic 發布了首個 Claude 成果，其中模型在很大程度上獨立進行新穎的科學研究——選擇實驗步驟、運行領域工具、從失敗中復原，並產生與受過訓練的人類和近期發表的 baselines 相匹配或超越的發現。這是 AI-Driven Formal Proof Search 的 wet-lab / life-sciences 對應版本：在 formal proof search 擁有 Lean 編譯器作為即時驗證器的情況下，科學的驗證器則是實驗——過程更慢且更昂貴——因此這裡的聲明是實證展示與精選範例，而非經編譯器確認的保證。這些結果是迄今為止對於 recursive self-improvement「較不保守」解讀的最有力證據：亦即「汗水正在被自動化」已延伸至發現本身，且 research taste 可能「只是 AI 暫時失敗、隨後便能掌握的另一項能力」。

The three results#

Drug / protein design — autonomy at human level#

Anthropic 的內部蛋白質設計專家利用 Mythos 5 將藥物設計的某些方面加速了「約 10 倍」。在一項研究中，Mythos 5——配備了蛋白質設計與 bioinformatics 工具，但沒有人類協助——達到或超越了受過訓練的人類操作員，執行了「科學家通常完成的所有任務：選擇結合位點、選擇並運行蛋白質設計工具，以及在過程中從失敗中復原」。14 個蛋白質靶點中有 9 個產生了目前正在調查的強效藥物設計候選物（免疫檢查點、生長因子/受體信號傳導、神經退化、肌肉疾病、更具挑戰性的結構靶點）。

Novel hypotheses — preferred over Opus-class, one corroborated#

Mythos 5 是 Anthropic「首個能持續產生新穎、引人入勝的科學假說的模型」。在與 Opus-class 模型的雙盲對頭比較中，Anthropic 的科學家在 ~80% 的時間裡更青睞 Mythos 的 molecular-biology 假說，並將其中幾項推進至實驗評估。其中一個 Mythos 假說——關於一個 E. coli 蛋白質的新穎機制——得到了另一個研究相同問題的實驗室的獨立證實。

Genomics — a week of autonomy beating a published model at 100× smaller#

在「一週多基本上自主的工作」中，Mythos 5 收集了橫跨 138 個動物物種、數百萬個細胞的單細胞數據，然後設計並訓練了一個自定義的 machine-learning 模型，用以識別即使在親緣關係較遠的生物體中也履行相同職責的細胞。在僅有高階人類輸入的情況下，該受訓模型超越了近期發表於 Science 的模型——儘管其規模小了 100 倍。 Anthropic 計劃發表該研究。

The dual-use shadow#

這項相同的能力，正是為什麼在通用存取的 Fable 5 中生物學必須受到保護。促成此項評估的主因是：預測基因修飾如何影響 adeno-associated virus (AAV) 的 capsid assembly——這是一個真實的基因治療組件，其設計能力「若落入壞人手中，可能會使危險病毒的設計成為可能」。Mythos-class 模型在未針對該任務進行訓練的情況下，僅憑生物學推理便在此任務上超越了專用的 protein-language models。自主科學能力與 bio-uplift 風險是同一種能力的兩面——這正是 RSP 的 CB 判定與 bio classifier 旨在管理的關鍵衝突。

Why it matters for the trajectory#

汗水自動化延伸至發現領域。 When AI builds itself 曾指出，大多數的研究進展都是漸進式的「擴大規模、看哪裡壞掉、修復它」的工作，而這正是 Claude 所擅長的。自主的 genomics——收集數據、設計模型、進行訓練、擊敗 baseline——是在科學領域（而非僅僅在工程領域）運行的 end-to-end 循環。
它削弱了品味護城河。 「持續產生新穎、引人入勝的假說」和「僅有高階人類輸入」正是那些被認為應由人類保留的方向設定功能。約 80% 的雙盲偏好是一個具體的突破口——儘管這仍是由人類評判且資料來源於內部。
能力依舊參差不齊，仍受限於驗證。 這些是精選的展示（Jagged Intelligence (Ghosts, Not Animals)）；科學的驗證器是緩慢的 wet-lab 驗證，而非編譯器，因此與 AI-Driven Formal Proof Search 不同，其結果無法自動驗證——它們有待實驗與同行評審。這使得它鄰近但仍低於 Anthropic 所設防的 AI-R&D autonomy 閾值。

待解決的問題#

每項結果皆由 Anthropic 報告且經過範例篩選；genomics「小 100 倍且擊敗 Science」的聲明為「計劃發表」——在外部同行評審中能有多少內容存活下來？
科學的驗證差距：formal-proof 循環是自我驗證的；而在這裡，一個錯誤但自信的假說需要付出一次 wet-lab 週期來證偽。在缺乏快速驗證器的情況下，自主性是否會加劇驗證瓶頸，而非緩解它？
如果 hypothesis-generation 的偏好度確實達到 ~80%，那麼「research taste」還有多少能作為人類特有的功能保留下來——而你又該如何衡量殘餘的部分？

資料來源#

Claude Fable 5 and Claude Mythos 5 — §"Evaluating Claude Fable 5 and Claude Mythos 5"（藥物設計；新穎假設；genomics）與 §"Biology and chemistry"（AAV 雙重用途）

Autonomous Scientific Discovery

資料來源#

摘要#

The three results#

Drug / protein design — autonomy at human level#

Novel hypotheses — preferred over Opus-class, one corroborated#

Genomics — a week of autonomy beating a published model at 100× smaller#

The dual-use shadow#

Why it matters for the trajectory#

相關連結#

待解決的問題#

資料來源#