資料來源#
摘要#
Interaction Models 中的核心架構設計:不再消耗完整的使用者回合再產生完整回應,而是將輸入與輸出視為連續串流,以約 200ms 的區塊(「micro-turns」)交錯處理與生成。模型不需要遵守人為的回合邊界——靜默、重疊與打斷都保留在模型的上下文中。
運作方式#
- 模型持續交錯運作:處理 200ms 輸入 → 生成 200ms 輸出 → 處理下一段 200ms 輸入 → ……橫跨音訊、視訊與文字。
- 人類感知維持同時的輸入與輸出串流;模型看到的是單一交錯 token 序列(
input 0, output 0, input 1, output 1, …),編碼了相同的時序資訊。 - 因為時序已嵌入序列中,模型對經過的時間有直接感知,能在使用者的回合進行中就採取行動,而非僅在結束後。
對比:基於回合的模型看到的是帶有硬性回合邊界的交替 token 序列;即時感受是由 harness 預測這些邊界(VAD 等)來模擬的——參見 Turn-Based Interface Bottleneck。
為何選擇 200ms#
200ms 區塊足夠小,能實現多種輸入/輸出模態的近即時並行。代價是:推論必須執行頻繁的小型 prefill 與 decode,每次都有嚴格的延遲限制——而現有的 LLM 推論函式庫並非為此設計(每回合有顯著的額外開銷)。
推論:串流式會話#
TML 對頻繁小型 prefill 問題的解法:
- 客戶端將每個 200ms 區塊作為獨立請求發送。
- 推論伺服器將區塊附加到 GPU 記憶體中的持久序列——避免重複的記憶體重新配置與元資料重新計算。
- 已將此方案的一個版本上游至 SGLang。
- 加上針對雙向服務形狀的延遲調校核心:例如用 gather+gemv 取代標準 grouped gemm 來實作 MoE 核心(引用了 PyTorch/
gpt-fast與 Cursor 的 warp-decode 的先前工作)。
訓練器-取樣器對齊#
位元級訓練器-取樣器對齊用於訓練穩定性以及系統元件的除錯。透過批次不變核心實作,端到端額外開銷低於 5%。兩個重點核心:
- All-reduce / reduce-scatter — NVLS 低延遲通訊核心,在 Blackwell 上具確定性,跨不同平行策略(Sequence Parallelism vs Tensor Parallelism)實現位元級對齊。
- Attention — Split-KV 通常會導致 decode 與 prefill 之間累加順序不一致;修正方式是在 decode 與 prefill 之間一致地分割(例如每次 4096 個 token,左對齊),同時維持兩者的效率。
帶來的效益#
今天每種需要專用 harness 的互動模式,都變成模型行為的特例——並隨著模型規模與訓練資料的增長而改善:主動插話、同時說話、視覺線索反應、時間估計。參見 Full-Duplex Interaction。
相關連結#
- Interaction Models — 上層概念
- Turn-Based Interface Bottleneck — 本概念所取代的方式
- Encoder-Free Early Fusion — 互補的「最小前處理」選擇,使串流可行
- Interaction / Background Model Split — micro-turns 讓互動模型保持在場;深度推理被委派出去以免阻塞串流
- Full-Duplex Interaction — 解鎖的能力
- The Bitter Lesson — 「無回合邊界 → 互動模式成為可擴展的模型行為」是其直接應用
- Context Window Smart Zone — 以 200ms 粒度的連續音訊/視訊快速累積上下文;開放的長會話問題
- Interactivity Benchmarks — 回合切換延遲(0.40s)是移除回合邊界的直接、可量測成果
- TML-Interaction-Small — 基於此機制建構的模型(200ms 交錯輸入/輸出區塊)
資料來源#
Cited by 9
- Encoder-Free Early Fusion
Multimodal design with minimal pre-processing instead of large standalone encoders: dMel audio embedding, 40×40-patch h…
- Full-Duplex Interaction
Perceive-and-respond simultaneously across modalities; proactive interjection, visual-cue reactions, simultaneous speec…
- Interaction / Background Model Split
Dual-model architecture: time-aware interaction model stays present; async background model handles deep reasoning/tool…
- Interaction Models
Thinking Machines Lab (May 2026): models that handle audio/video/text interaction natively in real time instead of via…
- Interactivity Benchmarks
FD-bench, Audio MultiChallenge + new TimeSpeak/CueSpeak (proactive audio) and RepCount-A/ProactiveVideoQA/Charades (vis…
- Interaction & Multimodal
Map of Content for the interaction-multimodal domain — 7 concepts. Curated entry point; see Home for all domains.
- The Bitter Lesson
Sutton 2019: scaled general methods beat hand-engineered structure; recurring justification across the wiki for dissolv…
- TML-Interaction-Small
TML's first interaction model: 276B MoE / 12B active, audio+video+text in / text+audio out, 200ms micro-turns, async ba…
- Turn-Based Interface Bottleneck
Why current AI interfaces limit collaboration: single-thread turn-taking is a bandwidth bottleneck; humans pushed out b…
Related articles
- Interaction Models
Thinking Machines Lab (May 2026): models that handle audio/video/text interaction natively in real time instead of via…
- Full-Duplex Interaction
Perceive-and-respond simultaneously across modalities; proactive interjection, visual-cue reactions, simultaneous speec…
- Encoder-Free Early Fusion
Multimodal design with minimal pre-processing instead of large standalone encoders: dMel audio embedding, 40×40-patch h…
- Interaction / Background Model Split
Dual-model architecture: time-aware interaction model stays present; async background model handles deep reasoning/tool…
- TML-Interaction-Small
TML's first interaction model: 276B MoE / 12B active, audio+video+text in / text+audio out, 200ms micro-turns, async ba…
