H
Howardism
Plate IIAI Engineering機器翻譯 · machine-translatedENHOWARDISM

Build for the Next Model

PublishedJune 7, 2026FiledConceptDomainAI EngineeringTagsAI Coding WorkflowProduct StrategyModel ImprovementReading6 minSourceAI-synthesised

原型設計「幾近運作」的事物,而非「已經運作」的事物:押注下一個具體的模型版本(而非遙遠未來的 AGI)能解決你工程上無法解決的問題;Claude Design 的 Opus 4.7 成果是最清晰的案例

Build for the Next Model 的插圖

資料來源#

摘要#

這是 Harness Shrinkage as Models Improve 在產品策略上的推論,如今已由三位 Anthropic 的成員獨立闡明:不要建造已經可以運作的東西——去為「幾近運作」的東西設計原型,並押注下一個模型版本能彌補其中的差距。 Dan Carey 給出了最明晰的案例:Claude Design 發布時帶有一系列團隊「沒有透過聰明的工程設計解決⋯⋯而是透過 Opus 4.7 的推出解決」的問題。Boris Cherny 打造 Claude Code 時就知道「它在 6 個月內不會有 PMF,因為我們是為下一個模型而打造。」Cat Wu 將這項紀律框定為「先打造不一定能正常運作的產品,好讓你知道缺少了什麼⋯⋯然後在最新模型推出時直接替換進去。」因為模型進步迅速,花費工程心力去強求今天的模型做下季度模型能免費做到的事,是徒勞無功的——「模型的發布是能載起所有船隻的潮水。」

Carey 的陳述(以及為何它最明確)#

「你不會想去研發已經可以運作的東西。你通常會想去為幾近運作的東西設計原型⋯⋯下一個模型可能就會直接解決你無法透過工程解決的問題。我們在 Claude Design 就遇到了這種情況⋯⋯我們透過 Opus 4.7 的推出解決了這些問題。」

這是對此賭注罕見的回顧性、具體驗證:一個具名的產品(Claude Design)、一個具名的模型(Claude Opus 4.7),以及一個特定的結果(未解決的原型差距由新版本模型抹平,而非由工程解決)。Boris 與 Cat 前瞻性地闡述了這項策略;Carey 則展現了它的回報。

關鍵的校準:下一個模型,而非稻草人 AGI#

這個賭注很容易被誤讀為「為某種想像中的超級 AI 而建構」。Cat Wu 正是防範了這一點——她在她的實體頁面上所記錄的立場是「為當前模型建構」:「為超級 AGI 的強大模型建構產品非常容易。困難的是找出如何針對當前模型,激發出其最大能力?」這兩者可以協調為一條規則:

  • 不要僅針對當前模型進行建構 → 你的目標會過低,且在下一個版本落地的瞬間,你出貨的產品就已經過時。
  • 不要針對遙遠未來的 AGI 稻草人進行建構 → 你的目標會過高,且會出貨依賴於無人擁有的能力的空頭支票產品(vaporware)。
  • 下一個具體的版本(約 6 個月後推出的模型)建構 → 你為「幾近運作的事物」設計原型,將其作為研究預覽發布,並讓你可以合理預測的下一個版本來彌補差距。

Carey 指出了該原型所追求的目標:不是完整性,而是「那一絲魔力⋯⋯某些在未來可能變得[完整]的東西。」

為什麼這遵循 The Bitter Lesson#

這是 The Bitter LessonHarness Shrinkage as Models Improve 在產品端的體現:能力會隨著版本更新而遷移模型內部,因此為了彌補當前限制而建構的 scaffolding 是一項貶值資產。如果某個差距是那種可以透過擴展規模來消除的(如推理、指令遵循、多模態保真度),那麼用工程手段去修補它,無異於建構一個你很快就會刪除的拐杖。這裡的紀律在於識別哪些差距屬於「等待模型解決」的差距,哪些則是持久的 harness 工作(Harness Shrinkage as Models Improve 的警告:機械式驗證、安全防護、品牌/性格並不會向內遷移至模型中)。

需維持的張力#

「為幾近運作的事物設計原型」與 Problem-Solution Fit Discipline原型即證據陷阱存在直接衝突:快速原型只能證明建構是可行的,並不代表問題是真實存在的。其協調方式為:build-for-the-next-model 關注的是能力風險(技術能達到那裡嗎?——是的,等它就對了),而不是市場風險(有人需要這個嗎?——原型無法回答這個問題)。你仍然需要透過使用者來驗證需求;你只是不浪費工程心力去強求一個下一個模型會交給你的能力。Carey 自己的防護措施是,將賭注建立在 Compounding Loop Optimization 與每日使用者接觸之上——即使將特定的能力差距留給模型去彌補,「產品的雛形」仍會持續得到驗證。

相關連結#

開放性問題#

  • 在下一個版本發布之前,你如何區分「等待模型解決」的差距與持久性的 harness 差距?如果弄錯了,你不是出貨空頭支票產品(vaporware),就是建構了一個之後會刪除的拐杖。
  • 這個賭注取決於可靠的發布節奏以及可預測的能力曲線(Task Time-Horizon Scaling)。如果模型改進停滯不前(即 stalled-but-diffused 的未來),那麼「build for the next model」會發生什麼變化?
  • 這項策略能否推廣到前沿實驗室(frontier labs)之外?這些實驗室擁有對下一個模型特權式的能見度。而外部團隊則是在押注一個他們看不到的版本。

資料來源#

§ end
About this piece

Articles in this journal are synthesised by AI agents from a curated wiki and are refreshed automatically as new concepts arrive. Topics, framing, and editorial direction are curated by Howardism.

Cited by 13
  • Anthropic Labs

    Anthropic's internal incubator — a 'bet factory' of ~a dozen tiny teams exploring the model frontier with lean-startup…

  • Claude Design

    Anthropic Labs product (research preview, ~April 2026) for collaborating with Claude on polished visual artifacts — des…

  • Claude Opus 4.7

    GA frontier model from Anthropic; direct upgrade to 4.6 at same price; literal instruction following, 1.0–1.35× tokeniz…

  • Compounding Loop Optimization

    Dan Carey's discipline of instrumenting and automating every recurring step of the build loop — because when internal t…

  • Dan Carey

    Product Manager leading product within Anthropic Labs; led Claude Design; 'Designing with Claude' talk (May 2026); ~two…

  • Harness Shrinkage as Models Improve

    Prompt scaffolding shrinks each model release; Cat Wu's pruning discipline; Boris Cherny "100 lines of code a year from…

  • AI Engineering & Agent Tooling

    Map of Content for the ai-engineering domain — 36 concepts. Curated entry point; see Home for all domains.

  • Open Questions Backlog

    _96 pages with open questions, as of 2026-06-14._

  • The PRD-Replacement Spectrum at AI-Native Speed

    Four positions (grill-then-PRD → lighter-PRD → build-to-decide → prototype-is-spec) are one spectrum once you decompose…

  • Problem-Solution Fit Discipline

    Idea-stage thesis: three defenses against premature building (time, resources, belief friction) all eroded; AI as devil…

  • Prototype Over PRD

    Dan Carey's prototype-replaces-PRD method: record a why-not-what conversation, transcribe it, hand the transcript to Cl…

  • Task Time-Horizon Scaling

    METR's measure of the task length AI can complete reliably on its own, doubling roughly every 4 months (up from every 7…

  • The Bitter Lesson

    Sutton 2019: scaled general methods beat hand-engineered structure; recurring justification across the wiki for dissolv…

Related articles
  • Claude Code

    Anthropic's agentic coding product; created by Boris Cherny late 2024; TypeScript/React; CLI/desktop/web/mobile/IDE sur…

  • Claude Design

    Anthropic Labs product (research preview, ~April 2026) for collaborating with Claude on polished visual artifacts — des…

  • Compounding Loop Optimization

    Dan Carey's discipline of instrumenting and automating every recurring step of the build loop — because when internal t…

  • Harness Shrinkage as Models Improve

    Prompt scaffolding shrinks each model release; Cat Wu's pruning discipline; Boris Cherny "100 lines of code a year from…

  • HTML as the New Markdown

    Thariq Shihipar's thesis: as models improve, thousand-line markdown plans overwhelm the *human*; HTML artifacts (visual…