問題#
在當今時代,學習並與 AI 模型和服務協作的最佳方式是什麼——特別是對於在新 AI 時代可能不再需要大量編碼任務的軟體工程師?為個人制定學習和發展技能的指南,以應對即將到來的變化。
TL;DR#
編碼技能正在成為基準線,而非差異化因素。工作正從寫程式碼遷移到決定要建構什麼、設計 agent 工作的環境,以及驗證輸出。六大技能群組在 2026 年及以後能證明其價值:
- 產品品味 — 選擇正確的東西來建構(參見 Engineer PM Convergence、Printing Press Software Democratization)
- Harness 工程 — 設計模型周圍的腳手架(參見 Agent Harness Engineering、Claude Code Best Practices)
- 對齊優先規劃 — 在任何產出物之前達成共同設計概念(參見 Design Concept Grilling、Vertical Slice Tracer Bullets)
- 為 agent 設計的架構 — 節省模型注意力的程式碼庫形態(參見 Deep Modules for Agents、Context Window Smart Zone)
- 驗證與審查 — 機械式回饋迴圈 + 全新上下文審查(參見 Agent Loop Pattern、Harness Shrinkage as Models Improve)
- 策略定位 — 選擇 AI 無法瓦解的護城河(參見 Seven Powers Applied to AI)
框架是協作者,而非工具:面試模型、將其失敗視為 harness 訊號、為六個月後的模型而建構、每次發布時修剪拐杖。軟技能(判斷力、EQ、品味)和領域知識變得更有價值,而非更少。
I. 心態轉變#
從「我寫程式碼」到「我決定要建構什麼並驗證它能運作」#
Boris Cherny 的印刷術類比直接框定了這一點:軟體撰寫正處於識字率在 1400 年經歷的同一民主化拐點(Printing Press Software Democratization)。生產成本崩塌;你為誰建構什麼成為差異化因素。Boris 的主張——「寫會計軟體最好的人是一個真正優秀的會計師,而不是工程師,因為他們深諳領域,而編碼是簡單的部分」——是一個指令:投資於領域深度,而非編碼技巧。
Cat Wu 更直白的版本:「當程式碼變得更便宜時,變得更有價值的是決定要寫什麼」(Engineer PM Convergence)。
對個別工程師的啟示:
- 錄用門檻轉向品味。 Cat 在 Claude Code 的招聘偏好是「具有出色產品品味的工程師」。如果你無法闡述為什麼功能 X 比功能 Y 更重要,那個缺口現在就是你的瓶頸——而不是你的 TypeScript。
- 領域深度會複利累積。 一個深刻理解臨床工作流程的後端工程師,勝過一個沒有領域知識的資深工程師。選擇一個領域,待得夠久以了解其隱性約束。
- 跨學科廣度比垂直深度更重要。 Cat 報告 Claude Code 團隊中每個職能角色都寫程式——設計師交付程式碼、PM 交付程式碼、資料科學家寫程式(Engineer PM Convergence)。反方向也是:能同時做設計、PM 或資料工作的工程師會複合其槓桿效應。
從「我驅動的工具」到「我面試的協作者」#
Cat Wu 提到的最被低估的技巧:當 agent 做錯事時,問它為什麼(Model Introspection Feedback)。不要用修正重新提示。閱讀模型對自身推理的描述,然後根據浮現的資訊修復 harness——而非模型。
重新框定:模型的行為是 harness 的函數;失敗是關於 harness 的資訊。你的工作是設計一個模型能成功的環境,而不是讓模型更聰明。
內化約束:smart zone,而非 1M tokens#
Matt Pocock(引用 Dex Hardy)框定了最困難的約束:LLM 隨著上下文大小呈二次方退化,因為注意力是 O(n²)。前約 100K tokens 是 smart zone;超過之後模型「越來越笨」,無論宣傳的視窗大小(Context Window Smart Zone)。2026 年推出的 1M-token 視窗「只是推出了更多的笨區」——對檢索有用,對推理無用。
實務上:每一分鐘花在學習管理 context 預算上的時間都會十倍回報。狀態列 token 計數器是必要的,不是可選的。
II. 六大技能群組#
1. 產品品味#
定義:選擇正確的東西來建構,並辨識回應是否符合角色特質的能力。
如何培養:
- 交付產品、獲取回饋、快速迭代。 AI Native Product Cadence 報告 Anthropic 的 Claude Code 團隊從「在 Twitter 上看到使用者回饋到週末前交付產品」——迴圈的緊密度就是品味校準的方式。
- 維護一份「我會怎麼做不同?」的檔案。 當你使用一個產品時,記下什麼是錯的以及你會怎麼做。將你的判斷與團隊六個月後實際交付的內容進行比較。
- 練習角色工作。 Claude Character as Product 展示了角色(低自我、輕鬆、偏向行動、誠實回饋)是真正的產品表面。試著闡述為什麼一個給定的 AI 回應感覺對或錯——那就是同樣的 eval 技能的縮影。
- 午餐時間氛圍檢查。 Cat Wu 在團隊午餐時問每個成員「你對模型的感覺如何?」然後才看指標。定性優先、數據其次是一種你可以在每次模型發布時練習的紀律。
2. Harness 工程#
定義:設計 agent 周圍的腳手架——上下文檔案、技能、hooks、subagents、權限分類器、機械式驗證器(Agent Harness Engineering)。
如何培養:
- 為你擁有的每個專案建立 CLAUDE.md / AGENTS.md。 像對待程式碼一樣對待它:出問題時審查、無情地修剪、將其保持為指向更深文件的目錄(Claude Code Best Practices)。250K-token 的 system prompt 在模型做任何事之前就把它推入笨區。
- 練習推送 vs 拉取的紀律(Deep Modules for Agents):對需要標準來比較的審查者 agent 使用始終在上下文中的內容(CLAUDE.md、system prompt);對實作者 agent 使用按需技能。
- 執行內省除錯迴圈。 當 agent 失敗時,問它為什麼,然後修復 harness——而非模型。
- 在每次模型發布時閱讀你自己的 system prompt。 Cat Wu 在 Claude Code 的紀律:「我們通讀整個 system prompt 並反思,對於每個部分,模型真的還需要這個提醒嗎?如果不需要,就移除它。」大多數團隊只會增加——按節奏減少(Harness Shrinkage as Models Improve)。
3. 對齊優先規劃#
定義:在任何產出物之前達成共同理解(Frederick Brooks 意義上的「設計概念」)。grilling 的產出是對齊;PRD 和計畫是下游的(Design Concept Grilling)。
如何培養:
- 採用
grill-me紀律。 Matt Pocock 的技能,原文:「針對這個計畫的每個面向不斷面試我,直到我們達成共同理解。走過決策樹的每個分支,逐一解決依賴關係。對每個問題提供你建議的答案。一次問一個問題。」在寫 PRD 之前對自己使用這個。 - 拒絕將規格到程式碼視為 vibe coding。 Pocock 的強烈主張:寫一份仔細的規格、交給 AI、然後拒絕看程式碼,這是另一種形式的 vibe coding。程式碼是戰場,不是規格(Design Concept Grilling)。
- 垂直切片,而非水平切片。 不要做「所有 schema → 所有服務 → 所有 UI」。要做「穿過每一層的薄切片,端到端,然後下一個切片」(Vertical Slice Tracer Bullets)。Agent 預設會水平切——要主動推回。
- 建立帶有明確阻塞邊的 Kanban,而非階段計畫。 編號的階段列表將一個 agent 鎖定在順序執行中;帶有
blocked-by:的 Kanban 讓多個 agent 並行消化它(Agent Loop Pattern)。
4. 為 agent 設計的架構#
定義:讓 agent 能有效工作的程式碼庫形態——深模組、清晰的測試邊界、節省的 smart-zone 預算(Deep Modules for Agents)。
如何培養:
- 內化 Ousterhout 的深 vs 淺區分。 深模組 = 小介面、大行為、一個自然的測試邊界。淺模組 = 許多小檔案、密集的圖、不清晰的邊界。Agent 預設會漂向淺模組;要推回。
- 在你的 PRD 中保留模組地圖。 規劃時,明確命名要修改的模組。這將規劃連接到架構,防止 agent 發明新的淺模組而非擴展現有的深模組。
- 定期執行整合的重構。 Pocock 的
improve-code-base-architecture技能掃描相關淺模組的叢集並提議加深它們。排程這項工作——它不會自己發生。 - 在全新上下文中審查。 如果實作使用了 80K tokens 的 smart zone,同一上下文的審查者在笨區閱讀 diff。清除並在全新上下文中審查(Deep Modules for Agents、Context Window Smart Zone)。
- 搭配模型選擇。 Matt Pocock:實作用 Sonnet,審查用 Opus——「那時候我需要聰明的。」
5. 驗證與審查#
定義:機械式回饋迴圈(測試、型別、linters、lint-as-instructions),設定迴圈能做到的上限。沒有好的驗證,你就是盲目編碼(Agent Loop Pattern、Agent Harness Engineering)。
如何培養:
- 將測試/型別/linters 視為上限。 Matt Pocock:「如果你的程式碼庫沒有回饋迴圈,你永遠不會得到像樣的 AI 輸出。你的回饋迴圈品質影響你的 AI 能寫多好的程式碼。那就是上限。」在擴展 agent 使用之前投資這個基礎設施。
- 將 lint 錯誤訊息寫成修復指令。 OpenAI 的 Codex 團隊將 lint 錯誤訊息寫成直接注入 agent 上下文的指令——agent 讀取 lint 輸出並知道如何修復它(Agent Harness Engineering)。
- 採用 AFK vs human-in-loop 的分割(Agent Loop Pattern)。AFK 任務(實作、重構、文件維護、CI 修復)適合迴圈。Human-in-loop 任務(對齊、設計選擇、優先排序、QA)不適合。試圖迴圈 human-in-loop 工作會產生漂移。
- 為新瓶頸做準備:審查。 Matt Pocock 的坦白和 Cat Wu 的相同觀察:當 agent 交付更多程式碼時,人類審查更多程式碼。2026 年未解決的問題。現在就培養你的程式碼審查流暢度——這是迴圈無法取代的持久技能。
6. 策略定位#
定義:選擇在 AI 轉變中存活的問題和護城河,而非在其下被侵蝕的(Seven Powers Applied to AI)。
如何培養:
- 審計你押注的任何業務/專案/角色的護城河。 流程力量和轉換成本在 AI 下被侵蝕;網路效應、規模經濟和壟斷資源持續存在。反定位放大——新創公司可以選擇既有企業在結構上無法採用的商業模式。
- 在個人職涯層面,同樣的邏輯適用。 「我有 15 年沒有其他人擁有的流程知識」是 AI 正在爬坡的流程力量。「我在這個利基市場有一個信任關係網路」是 AI 無法複製的網路效應。
- 從第一天就以 AI 原生方式建構。 Boris Cherny:新創公司以 AI 原生方式建構;既有企業必須重新培訓人員、改變流程、克服內部阻力。同樣適用於你的個人工作流程——以 AI 原生方式重建你的習慣,而非將 AI 嫁接到 AI 之前的工作流程上。
III. 日常實踐#
| 實踐 | 頻率 | 來源 |
|---|---|---|
在任何非瑣碎功能前執行 grill-me session | 每個功能 | Design Concept Grilling |
在不相關任務之間 /clear | 每次任務切換 | Claude Code Best Practices |
| 保持狀態列 token 計數器可見 | 始終 | Context Window Smart Zone |
| 垂直切片工作;拒絕水平分階段 | 每次規劃 session | Vertical Slice Tracer Bullets |
| 在全新上下文中使用審查者 agent(不同模型亦可) | 每個非瑣碎 diff | Deep Modules for Agents |
| 在每次模型發布時閱讀你的 CLAUDE.md / system prompt;修剪 | 每次模型發布 | Harness Shrinkage as Models Improve |
| 在重新提示之前問模型為什麼失敗 | 任何非預期行為時 | Model Introspection Feedback |
| 在 Kanban 待辦事項上整夜執行 AFK 迴圈 | 持續 | Agent Loop Pattern |
| 為六個月後的模型建構,而非今天的 | 策略視野 | Harness Shrinkage as Models Improve |
| 新模型發布時的午餐氛圍檢查 | 每次模型發布 | Claude Character as Product |
IV. 需要戒除的反模式#
| 反模式 | 為何失敗 | 應該怎麼做 |
|---|---|---|
| 將 context window 視為「1M tokens,空間充裕」 | 二次方注意力;約 100K 的 smart zone 是真實的 | 狀態列計數器;積極 /clear;用 subagents 做調查 |
| 永遠只增加 system prompt,從不移除 | 拐杖累積;舊拐杖與新模型行為矛盾 | 每次模型發布時修剪;每個部分必須證明其 tokens 的價值 |
| 在對齊之前要求 agent 制定計畫 | Agent 掩蓋未解決的問題;重工成本在實作中支付 | 先 grill-me;對齊之後才寫 PRD |
| 水平分層階段(「所有 schema,然後所有服務」) | 直到第三階段才有端到端回饋;不匹配的代價付得晚 | 垂直切片;tracer bullets 薄路徑 |
| 同一上下文的審查者 | 實作者的 smart-zone 已耗盡;審查者在笨區 | 全新上下文審查;考慮用更強的模型審查 |
| 規格到程式碼但不接觸程式碼 | 「另一種形式的 vibe coding」——回饋迴圈跑在錯誤的層 | 留在程式碼中;規格是對齊的下游 |
| 迴圈 human-in-loop 工作 | Agent 做出看似合理但錯誤的決定;漂移累積 | AFK 標記;human-in-loop 任務保持同步 |
| 「更大的模型 = 不需要設計」 | 糟糕的程式碼庫無論模型大小都產生糟糕的 agent | 深模組;機械式驗證 |
| 將模型失敗視為「模型很笨」 | 錯過關於 harness 缺口的訊號 | 內省:問模型為什麼;修復 harness |
| 防守轉換成本/流程力量護城河 | 這些在 AI 下被侵蝕 | 轉向網路效應/規模/壟斷資源/反定位 |
V. 什麼仍屬於人類#
Cat Wu 明確指出什麼不會融入模型:隱性的、常識性的、高 EQ 的工作——知道與利害關係人溝通的正確場合、感知何時準備好發布、知道什麼算是公平的取捨(Engineer PM Convergence)。人類仍然提供貫穿整個發布的連接組織。
具體持久的人類技能:
- 程式碼審查流暢度 — 當 agent 交付更快時的新瓶頸(AI Native Product Cadence、Matt Pocock 的坦白)
- 有信念的表達 — Amanda 的角色工作技能:有信念地說出為什麼一個給定的輸出符合或不符合角色(Claude Character as Product)
- 跨職能 EQ — 知道何時升級、正確的場合是什麼、如何解讀利害關係人的猶豫
- 使命/價值觀清晰度作為決勝因素 — Cat:「如果有兩個競爭的優先事項,我們會討論哪個對 Anthropic 的使命更重要。」消除協調成本(AI Native Product Cadence)
- 領域深度 — 現在能寫會計軟體的會計師勝過沒有會計背景的工程師(Printing Press Software Democratization)
VI. 90 天學習計畫#
第 1–14 天 — 熟練掌握 harness。
- 設定 Claude Code 或同等工具,帶狀態列 token 計數器
- 為一個專案撰寫 CLAUDE.md / AGENTS.md;每週修剪
- 在任務之間練習
/clear;觀察它如何改變輸出品質 - 閱讀 Claude Code Best Practices、Agent Harness Engineering 和原始來源
第 15–30 天 — 採用對齊優先規劃。
- 安裝或撰寫一個
grill-me技能;在任何功能之前使用它 - 將你接下來的兩個功能垂直切片;抵抗水平分層
- 將你的待辦清單轉換為帶有
blocked-by:邊的 Kanban
第 31–60 天 — 建構機械式回饋基礎設施。
- 在一個專案中增加或強化測試/型別/linters,直到它們能捕捉 agent 漂移
- 將 lint 錯誤訊息寫成修復指令
- 為非瑣碎 diff 設定全新上下文審查者(偏好不同模型)
第 61–90 天 — 執行 AFK 迴圈;培養產品品味。
- 在你的 Kanban 待辦事項上設定 Ralph loop 或
/loopcron 整夜執行 - 為你使用的產品維護一份「我會怎麼做不同?」日誌
- 練習內省除錯:當 agent 失敗時,問為什麼,修復 harness
- 根據 Seven Powers Applied to AI 審計你關心的一個業務/專案/領域的護城河
VII. 來源信心度與缺口#
- 高信心度:smart-zone 框架、harness 收縮、垂直切片、深模組、AFK/human-in-loop 分割、內省技巧。來自 Anthropic 內部和獨立實踐者(Matt Pocock)的多個匯聚來源。
- 中等信心度:100 行 Claude Code 預測(按 Boris Cherny 自己的框架是誇張的);印刷術類比時間線(比 50 年快,確切速率不確定);產品品味作為瓶頸(在小型 Anthropic 風格團隊中為真,規模化不確定)。
- 開放問題:Anthropic 的節奏有多少是流程 vs 人才密度?工程師-PM 融合能否擴展到約 50 人以上的團隊?4.7 級內省報告有多可靠?更強的模型何時會使 harness 完全不必要 vs 需要不同的 harness?
wiki 來源集嚴重依賴 Anthropic 自己的敘事和一位獨立實踐者(Matt Pocock)。作為個人工作流程指導有充分根據,對組織規模部署的實戰測試較少。
資料來源#
- Engineer PM Convergence — roles merging at Anthropic; product taste as bottleneck
- Printing Press Software Democratization — Boris Cherny's macro analogy
- Harness Shrinkage as Models Improve — pruning at every launch; build for next model
- Agent Loop Pattern —
/loop, Ralph loop, Sandcastle; AFK vs human-in-loop - Context Window Smart Zone — quadratic attention; 100K marker; clear-and-restart
- Vertical Slice Tracer Bullets — vertical > horizontal; Kanban over phase plans
- Design Concept Grilling —
grill-me; alignment before artifact - Deep Modules for Agents — Ousterhout for agent codebases; push vs pull
- Model Introspection Feedback — ask the model why it failed
- AI Native Product Cadence — 6mo→1mo→1day; mission as tiebreaker
- Claude Character as Product — character work; vibe-check eval discipline
- Claude Code Best Practices — explore→plan→code, environment config, scaling
- Agent Harness Engineering — invariants not implementations; AGENTS.md as ToC
- Seven Powers Applied to AI — which moats survive AI; counter-positioning amplified
Raw documents#
- Anthropic's Boris Cherny: Why Coding Is Solved, and What Comes Next
- How Anthropic's product team moves faster than anyone else | Cat Wu (Head of Product, Claude Code)
- Full Walkthrough: Workflow for AI Coding — Matt Pocock
- Best Practices for Claude Code
- Effective harnesses for long-running agents
- Harness engineering: leveraging Codex in an agent-first world
Cited by 8
- AI Native Product Cadence
Cat Wu's 6mo→1mo→1day cadence at Anthropic: research-preview branding, mission-as-tiebreaker, evergreen launch room, li…
- Opinions on Using AI Tools & the Future of the Software Engineering Role
Debate map of four stances on using AI tools (bullish-insider / pragmatist-practitioner / skeptic-governance / architec…
- Claude Code Best Practices
Anthropic's guide to effective Claude Code usage: context management, verification-driven development, explore→plan→cod…
- Engineer PM Convergence
Generalists across disciplines; product taste as bottleneck skill; Anthropic Claude Code team as case study; "just do t…
- Harness Shrinkage as Models Improve
Prompt scaffolding shrinks each model release; Cat Wu's pruning discipline; Boris Cherny "100 lines of code a year from…
- Orchestration vs Employee Framing: Reconciling the Founder's Playbook with HBR's Accountability Evidence
Reconciles the Founder's Playbook orchestration framings with HBR Kropp et al.'s accountability evidence; "orchestratio…
- Printing Press Software Democratization
Boris Cherny's analogy: 1400s literacy expansion → AI software-writing expansion; domain knowledge displaces coding ski…
- Seven Powers Applied to AI
Helmer/Acquired framework re-evaluated for AI: switching costs and process power erode; network effects, scale, cornere…
Related articles
- Opinions on Using AI Tools & the Future of the Software Engineering Role
Debate map of four stances on using AI tools (bullish-insider / pragmatist-practitioner / skeptic-governance / architec…
- Claude Code
Anthropic's agentic coding product; created by Boris Cherny late 2024; TypeScript/React; CLI/desktop/web/mobile/IDE sur…
- Evals as Product Spec
Cat Wu's framing of evals as the emerging core PM skill: ten great evals beats a hundred mediocre; encode what done loo…
- Open Questions Backlog
_96 pages with open questions, as of 2026-06-14._
- Engineer PM Convergence
Generalists across disciplines; product taste as bottleneck skill; Anthropic Claude Code team as case study; "just do t…
