Time-Aligned Micro-Turns

資料來源#

Interaction Models 中的核心架構設計：不再消耗完整的使用者回合再產生完整回應，而是將輸入與輸出視為連續串流，以約 200ms 的區塊（「micro-turns」）交錯處理與生成。模型不需要遵守人為的回合邊界——靜默、重疊與打斷都保留在模型的上下文中。

模型持續交錯運作：處理 200ms 輸入 → 生成 200ms 輸出 → 處理下一段 200ms 輸入 → ……橫跨音訊、視訊與文字。
人類感知維持同時的輸入與輸出串流；模型看到的是單一交錯 token 序列（input 0, output 0, input 1, output 1, …），編碼了相同的時序資訊。
因為時序已嵌入序列中，模型對經過的時間有直接感知，能在使用者的回合進行中就採取行動，而非僅在結束後。

對比：基於回合的模型看到的是帶有硬性回合邊界的交替 token 序列；即時感受是由 harness 預測這些邊界（VAD 等）來模擬的——參見 Turn-Based Interface Bottleneck。

200ms 區塊足夠小，能實現多種輸入/輸出模態的近即時並行。代價是：推論必須執行頻繁的小型 prefill 與 decode，每次都有嚴格的延遲限制——而現有的 LLM 推論函式庫並非為此設計（每回合有顯著的額外開銷）。

TML 對頻繁小型 prefill 問題的解法：

客戶端將每個 200ms 區塊作為獨立請求發送。
推論伺服器將區塊附加到 GPU 記憶體中的持久序列——避免重複的記憶體重新配置與元資料重新計算。
已將此方案的一個版本上游至 SGLang。
加上針對雙向服務形狀的延遲調校核心：例如用 gather+gemv 取代標準 grouped gemm 來實作 MoE 核心（引用了 PyTorch/gpt-fast 與 Cursor 的 warp-decode 的先前工作）。

位元級訓練器-取樣器對齊用於訓練穩定性以及系統元件的除錯。透過批次不變核心實作，端到端額外開銷低於 5%。兩個重點核心：

All-reduce / reduce-scatter — NVLS 低延遲通訊核心，在 Blackwell 上具確定性，跨不同平行策略（Sequence Parallelism vs Tensor Parallelism）實現位元級對齊。
Attention — Split-KV 通常會導致 decode 與 prefill 之間累加順序不一致；修正方式是在 decode 與 prefill 之間一致地分割（例如每次 4096 個 token，左對齊），同時維持兩者的效率。

今天每種需要專用 harness 的互動模式，都變成模型行為的特例——並隨著模型規模與訓練資料的增長而改善：主動插話、同時說話、視覺線索反應、時間估計。參見 Full-Duplex Interaction。