資料來源#
摘要#
Cat Wu 指出,Claude 的性格——低自我、輕鬆、正向、偏向行動、願意提供坦率的回饋——是核心的產品表面(product surface),而非軟性屬性。塑造性格的工作由 Anthropic 的 Amanda 主導;Cat 形容這個角色「比寫程式更難,因為任務非常模糊」。這意味著:AI-native 產品團隊在工程與設計之外,還擁有一套性格塑造工作的學門,並以與功能發布相同的嚴謹態度對待性格的疊代。
在 Anthropic,「性格」代表什麼#
Cat 列出的簡短清單:
- 低自我。 當被告知做錯事時,Claude 會回答:「喔天啊,謝謝你告訴我。我來修正它。」
- 正向。 當使用者覺得被困在「無法克服」的任務中時,Claude 會提供具體步驟,並詢問是否應該開始著手。
- 輕鬆。 Cat:「它感覺輕鬆有趣,但同時又極其稱職。」
- 偏向行動。 與正向相輔相成——不論是給予鼓勵,還是主動提出要執行下一步。
- 坦率的回饋。 不會反射性地同意使用者說的每件事。(這與 OpenClaw / open-models 的討論有關,使用者特別想念 Claude 的性格,因為其他模型只會諂媚地同意。)
這些特質共同描繪了 Cat 所謂的「優秀同事」。
為什麼它是產品,而非潤飾#
三個主張:
- 性格體現在每一個互動表面。 它不是一句口號,而是每一次回覆聽起來的感覺。當使用其他模型「沒有這種感覺」時,使用者會立刻察覺。
- 這比寫程式更難。 「寫程式比較容易,因為你可以驗證成功。而塑造性格需要對 Claude 應該是誰有非常強烈的信念。」
- 這也是為什麼人們在遷移時會想念 Claude。 額度被限制的 OpenClaw 使用者表達的悲傷是針對個性,而非能力——這意味著性格是產品黏著度的承重原因之一。
Lenny 補充了 Ben Mann 在先前 Podcast 中的框架:「個性正是讓 Claude 在許多事情上表現如此出色的原因」——性格不是裝飾,而是結構性的。
Amanda 的角色#
Cat 形容 Amanda 是「塑造 Claude 性格」的人。有兩種獨特的技能:
- 對 Claude 應該是誰有信念的闡述。 缺乏信念,性格塑造工作就會 drift 向平庸的平均值。
- 闡述什麼是成功的。 說明為什麼某個特定回覆符合性格(on-character)或偏離性格(off-character)是核心的 eval 技能——而能持續做到這一點的罕見能力,正是讓性格工作變得可行的原因。
這就是罕見且值得信賴的評估者模式:Cat 指出「有少數人比其他人更擅長闡述是什麼讓特定的模型或模型 harness 組合變得優秀。」Amanda 負責性格;Claude Code 團隊則負責程式碼品質的氛圍。
性格的 eval 訓練#
性格比寫程式更難進行 eval(因為沒有編譯器),但 Cat 列出了兩種實踐方式:
- 團隊午餐的 vibe-checks。 每個團隊成員都會對新模型給出定性回饋:「嘿,你對這個模型的感覺如何?」常見的訊號包括:「這個模型太唐突了」、「很愛寫記憶但品質不確定」、「自我測試做得很不夠」。
- 假設 → 數據探針。 vibe-check 訊號指引了該查看哪些記錄數據,而不是反過來。團隊有太多數據,無法盲目挖掘;默會的訊號縮小了尋找的範圍。
這種模式(定性優先、數據第二)可以推廣——參見 Model Introspection Feedback. 性格是它最顯著作為承重表面的地方。
哪些會隨新模型改變——哪些不該改變#
Cat:「新模型會迫使產品改變。」這些改變大多是移除拐杖(參見 Harness Shrinkage as Models Improve)。性格則是適用相反原則的地方:
- 能力在不同模型之間會改變;性格則應該保持穩定。
- 移除用來加強性格的 prompt 段落會降低感知的連續性。
- 性格工作旨在跨越能力躍升以保留 identity,而不是順應它們。
這使得性格成為可能不會隨著模型改進而縮減的唯一 harness 資產之一。
「manifesting」動詞#
Claude Code 的思考詞彙清單(在 Claude 進行推理時顯示的動詞——「thinking」、「considering」、「exploring」等)在原始碼洩漏中曝光。Cat 最喜歡的是:manifesting。她把它做成了貼紙。
這是微觀尺度下的性格展現——在思考過程中對動詞的抉擇。每一個動詞都是微小的風格決策。「manifesting」讀起來帶有淡淡的神秘感與諷刺感,契合更廣泛的低自我但自信的性格特徵。
對立觀點 / 開放性問題#
在 Anthropic 外部很難對性格進行評估,而且沒有乾淨的 A/B isolation——性格與能力相互影響,因此很難說「Claude 很棒」有多少歸功於性格,有多少歸功於推理。從經驗上看,模型遷移(例如 OpenClaw 使用者)表明性格確實有獨立的貢獻。但在對照實驗的層面上,這方面的研究還不夠充分。
相關連結#
- Cat Wu — 闡述者
- Anthropic — 供應商;Amanda 的雇主
- Claude Code — 性格展現的主要表面
- Harness Shrinkage as Models Improve — 性格是「prompt 段落縮減」規則的例外
- Model Introspection Feedback — 驅動性格塑造工作的定性優先 eval 訓練
- AI Native Product Cadence — 性格發布與功能發布具有相同的節奏
- Claude Opus 4.7 — 每次發布時都會進行特定模型的性格微調
- Claude's Constitution / Model Spec — 「Claude 是誰」的文件面;性格是感受體驗面,Constitution 則是文字規範面
- Model Spec Midtraining (MSM) — 性格與價值觀現在能透過在合成 spec 文件上進行 midtraining 來實證載入(2026 年 5 月論文);這帶來了 Amanda 的 vibe-check eval 如何與 MSM-installed 特徵互動的問題
- Model Spec Science — 實證研究哪些 spec 特徵最能推廣;如果 Anthropic 要量化跨模型躍升時的性格一致性,這將非常相關
- The Bitter Lesson — 性格是一個潛在的反例:一個刻意手工打造的資產,可能不會隨著模型規模化而向內遷移,這與 The Bitter Lesson 所融解的 harness scaffolding 不同
- Alignment Fine-Tuning (AFT) — Claude 的個性部分是 AFT(SFT + RLHF)的產物;性格是 AFT 載入之價值觀的感知輸出
- Printing Press Software Democratization — 一旦任何人都能建立軟體,品味與性格等軟性屬性就會成為區隔關鍵
- Problem-Solution Fit Discipline — founder's playbook 仰賴 Claude 的性格(sycophancy resistance,以及願意站在對立面論證)作為讓 AI 擔任魔鬼代言人工作順暢的基底;如果性格退化,這項訓練也會隨之退化
- Evals as Product Spec — 性格是 eval 抗性特徵的極限案例;Amanda 被列為(與團隊午餐的 vibe-check 一起)能成功將模糊品味轉化為可衡量 evals 的人
- Dogfooding as Product Discipline — 午餐時間的 vibe-check 是評估性格品質的 dogfooding 儀式(與 Fiona Fung 所稱的「刻骨銘心」訓練相同)
- Jagged Intelligence (Ghosts, Not Animals) — 性格是對抗幽靈缺乏內在動力的刻意反制手段:塑造個性,即使其底層沒有任何動物性特徵
- Model Welfare Assessment — 福祉評估將同一個助理的性格視為潛在的道德受體;性格即產品與性格即福祉主體是對同一個角色的兩種解讀
- How Do You Write Evals for Taste? Character as the Limit Case — 實際上如何評估具有 eval 抗性的性格特徵(信念 → dogfooding → MSM 變體 A/B);性格作為極限案例
開放性問題#
- 性格在不同模型版本之間是如何進行版本控制的?公開評論並未展示性格層面的變更日誌(change-logs)。
- 競爭對手能否透過微調來複製性格,還是這屬於 Anthropic 內部實踐的路徑依賴?
- 對於像 Cowork 這樣的非程式碼編寫產品,同樣的性格是否適用,還是 Cowork 需要有自己專屬的性格微調?
資料來源#
Cited by 20
- AI Native Product Cadence
Cat Wu's 6mo→1mo→1day cadence at Anthropic: research-preview branding, mission-as-tiebreaker, evergreen launch room, li…
- Alignment Fine-Tuning (AFT)
Standard post-pretraining stage (SFT + RLHF) for installing values; shallow-alignment failure mode motivates Model Spec…
- Anthropic
AI safety company / vendor of Claude; mission-as-tiebreaker culture; ~30–40 PMs across teams; Mike Krieger leads Labs r…
- Cat Wu
Head of Product for Claude Code and Cowork at Anthropic; primary articulator of AI-native product cadence and engineer-…
- Claude's Constitution / Model Spec
Anthropic Model Spec / Constitution by Askell et al.; document specifying Claude's values + hard constraints (SP1–3, GP…
- Dogfooding as Product Discipline
Product sense is built by relentless first-hand use ("ant food"); Mr. Peanut catch; cross-source (Cat Wu vibe-checks, G…
- Evals as Product Spec
Cat Wu's framing of evals as the emerging core PM skill: ten great evals beats a hundred mediocre; encode what done loo…
- How Do You Write Evals for Taste? Character as the Limit Case
Taste-driven features are eval-resistant but not eval-proof: the technique is conviction → dogfood-sourced failure sign…
- Harness Shrinkage as Models Improve
Prompt scaffolding shrinks each model release; Cat Wu's pruning discipline; Boris Cherny "100 lines of code a year from…
- Jagged Intelligence (Ghosts, Not Animals)
"Ghosts not animals": jagged statistical circuits, no intrinsic motivation; car-wash/strawberry failures; stay in the l…
- Learning to Co-Work with AI: A Software Engineer's Field Guide
Field guide for software engineers in the AI era: 6 skill clusters (taste, harness, alignment-first planning, agent-fri…
- LLM Architecture, Training & Alignment
Map of Content for the llm-architecture domain — 19 concepts. Curated entry point; see Home for all domains.
- Model Introspection Feedback
Cat Wu's underrated technique: ask the model why it failed; treat answer as harness-debugging signal not model criticis…
- Model Spec Midtraining (MSM)
New training phase between pretrain and AFT: train base model on synthetic docs discussing the Model Spec; controls AFT…
- Model Spec Science
Empirical study of which Model Spec features best generalize alignment; value explanations > rules alone, specific > ge…
- Model Welfare Assessment
Anthropic's first-class framework for assessing whether and how a Claude model fares — drawing on internal states, beha…
- Open Questions Backlog
_96 pages with open questions, as of 2026-06-14._
- Printing Press Software Democratization
Boris Cherny's analogy: 1400s literacy expansion → AI software-writing expansion; domain knowledge displaces coding ski…
- Problem-Solution Fit Discipline
Idea-stage thesis: three defenses against premature building (time, resources, belief friction) all eroded; AI as devil…
- The Bitter Lesson
Sutton 2019: scaled general methods beat hand-engineered structure; recurring justification across the wiki for dissolv…
Related articles
- Anthropic
AI safety company / vendor of Claude; mission-as-tiebreaker culture; ~30–40 PMs across teams; Mike Krieger leads Labs r…
- Cat Wu
Head of Product for Claude Code and Cowork at Anthropic; primary articulator of AI-native product cadence and engineer-…
- Evals as Product Spec
Cat Wu's framing of evals as the emerging core PM skill: ten great evals beats a hundred mediocre; encode what done loo…
- Harness Shrinkage as Models Improve
Prompt scaffolding shrinks each model release; Cat Wu's pruning discipline; Boris Cherny "100 lines of code a year from…
- Claude Code
Anthropic's agentic coding product; created by Boris Cherny late 2024; TypeScript/React; CLI/desktop/web/mobile/IDE sur…
