北大校友Lilian Weng出镜，爆出120亿估值首个交互模型！

新智元报道

编辑：Aeneas KingHZ

【新智元导读】北大校友翁荔首次出镜，介绍了Thinking Machines的又一产品——交互模型！200毫秒神同步，能听懂你的犹豫，更能实时感知协作。AI不再是冷冰冰的回复机器，更是同频呼吸的灵魂队友。OpenAI前高管天团，终于又有新作亮相了。

就在刚刚，Thinking Machines又一重磅产品——交互模型（Interaction Models）正式亮相了！

作为OpenAI前安全负责人、如今Thinking Machines Lab的联合创始人，Lilian Weng献出了她的出镜首秀。

在这段备受瞩目的视频中，她展示了AI如何从一个「只会对话的工具」进化为「能实时协作的伙伴」。

在视频中，Lilian Weng提了一个要求：每听到一次动物的名字，都计数一次。

而且，非常难得的是，即使她在喝水或思考而停止说话时，AI也并没有打断。

最后，当她讲完，AI给出正确答案：鹿出现一次，绵羊一次，郊狼一次，卡皮巴拉一次。

注意，这个交互模型可以隐式地追踪她是在思考、让步、自我纠正还是邀请回应，这个过程中，并没有专门内置的对话管理组件！

此前，这家由前OpenAI CTO Mira Murati创办的明星公司，在0产品、0论文的情况下，就凭借全明星创始团队完成了高达20亿美元的种子轮融资，由a16z领投，英伟达、AMD、微软等巨头跟投，估值直接冲上120亿美元，刷新了硅谷早期融资纪录。

继去年10月发布首个开发者平台Tinker（一个让大模型微调变得像呼吸一样简单的工具）之后，这一次，他们又交出了一份让业界刮目相看的成绩单。

当交互带宽被拉满，AI 就不再是我们的工具，而是我们意识的实时延伸。这或许彻底改变人类与AI互动的方式，取得通往AGI路径上又一次胜利的里程碑！

AI时代的iPhone时刻终将到来！

AI终于学会了「插嘴」

这一步比AGI更动人

想象一下，你正在和一位博学的朋友聊天。你话还没说完，只是稍作停顿，在脑海中搜寻一个词，他便敏锐地捕捉到了你的犹豫，轻声给出了那个词。

或者当你正兴奋地描述一个构思时，他眼神微动，在恰当的时机发出一声赞叹。

这种「同频呼吸」的节奏感，是我们作为人类最习以为常、也最珍视的协作体验。

但在过去两年里，尽管AI的智力在指数级增长，我们与它的交互却始终像是在进行一场跨世纪的电邮往来。

无论ChatGPT多么博学，你必须打包好你的思想，点击发送，然后屏息凝神，等待反馈。

这种尴尬的「回合制」（Turn-based）残余，正是阻碍人机真正融合的那层障碍。

就在刚刚，由OpenAI前研究主管Lilian Weng与Mira Murati等人领衔的初创公司Thinking Machines (TML)发布了其首个重磅成果：交互模型（Interaction Models）。

这一次，AI终于打破了沉默，学会了「插嘴」。

除了Lilian Weng展示的无缝对话管理功能之外，这个AI还有以下令人深刻的记忆点。

它会根据上下文按需介入，而不仅仅是在用户说完话之后。

用户和模型可以同时说话，这样就能实现实时翻译这类功能。

令人惊讶的是，这个模型还具有对时间流逝的直接感知。

在与用户对话和聆听的同时，它可以同时进行搜索、浏览网页或生成用户界面，并根据需要将搜索结果融入对话中。

在更长的真实会话中，这些过程都会持续进行，让你感觉更像是在和它合作，而不是在提示它。

网友们直言：这个产品太酷了。

200毫秒的革命

终结AI的「冷场」时代

目前，AI模型大多患有一种「数字自闭症」。

当你说话时，它是耳聋的——它必须等待一个名为VAD（语音活动检测）的「外挂脚手架」告诉它：「好了，人类说完了，你现在可以处理了。」

在它生成回复时，它又是盲目的——如果你在它说话中途指着屏幕上的Bug大喊，它往往听不见。

Thinking Machines决定拆掉这些脚手架。

他们发布的交互模型采用了名为「时间对齐微回合（Time-Aligned Micro-Turns）」的架构。

传统的AI是以「句子」或「段落」为单位处理信息的，但这个架构不再把对话看作是一块块巨大的「砖头」，而是将其切碎成200毫秒为一个单位的微小流片段。

这是什么概念？200毫秒正是人类反应时间的生理极限。

在这种频率下，输入与输出不再是先后顺序，而是交织共生。

AI并不是等你把话说完才开始理解，而是每200毫秒就在进行一次「感知-反馈」的循环。

这就像人类的神经反射系统——你还没意识到自己说错话，AI的耳朵和大脑已经捕捉到了你的发音偏差。

在Lilian Weng出镜的演示中，模型不再是被动等待指令，它能实时追踪Lilian何时在思考、何时在让步、何时在进行自我纠正，甚至能预判她何时邀请回应。

技术从「指令响应」进化为了「感知共振」。

正如Lilian Weng所言：「人与人之间的协作，对于改善人机协作至关重要。」

彻底告别VAD（语音检测外挂）

市面上几乎所有的实时语音AI都在用一种叫VAD的技术。它的逻辑是：监测静音，如果用户超过0.5秒没说话，就判定「用户说完了」，然后触发AI回复。

这就是为什么目前的AI总是接话太慢，或者在你思考停顿时粗鲁地打断你。

TML的模型则是原生感知。

它不需要静音检测，它能通过你的语气、语速、呼吸声，甚至是视频里的眼神，判断你是在「思考」、「想让人接话」还是「自我纠正」。这种「懂你」的能力是长在模型骨子里的。

「前台交互+后台思考」的双模型协作

这是TML最天才的设计。

实时交互模型（InteractionModel），就像人类的「直觉」和「反射」，负责保持在线，负责听、看、说、感知情绪，确保200ms的响应速度。

异步背景模型（Background Model）：就像人类的「深度思考」，负责调用工具、搜索网页、运行复杂逻辑。

当你跟AI聊天时，前台模型负责陪你「扯淡」和感知，后台模型在疯狂帮你查资料。

一旦后台有了结果，前台模型会找一个「合适的时机」（而不是粗暴打断）把结果揉进对话里。

他们的出发点是连续的音频与视频——这些模态本质上是实时的。

文本可以等，但实时对话不能等。通过优先针对最困难的场景进行设计，TML团队最终得到了一种架构：它原生支持多模态、具备时间感知能力，并且能够处理跨所有模态的并发输入与输出流。

他们不使用大型独立编码器来处理音视频，而是采用预处理尽可能少的方案。

音频：以dMel格式输入，通过轻量级嵌入层转换

图像：分割成40×40的图块，由hMLP编码

音频解码：使用流头（flow head）

所有组件与Transformer从零开始联合训练。

这一切，都证明了他们官网的这句话：「好的协作，不是某个人最后给出一个完美答案。好的协作，是有人在当下真正投入、共同在场。」

行业地震：GPT真的被超越了吗？

很多人会问：OpenAI的GPT Realtime API不也能做到实时吗？

答案是：逻辑完全不同。

根据TML发布的技术报告，他们的TML-Interaction-Small模型（12B活跃参数的MoE架构）在FD-bench（专门衡量交互质量的基准测试）上，已经全面领先于GPT Realtime等竞争对手。

核心差距在于「主控权」：

GPT等模型：依然是被动的。除非你叫它，否则它不动。

TML模型：具有视觉主动性（VisualProactivity）。它能主动看到世界发生了变化，并在不需要你发指令的情况下开口。

比如你做俯卧撑，GPT必须等你问「我做了几个」才会回答；而TML的模型能一边看着你做，一边自然地喊出：「1、2、3……加油，最后两个！」

Mira Murati的复仇，还是新征途？

曾经，Thinking Machines的横空出世，让整个硅谷为之侧目。

作为前OpenAI的二号人物，Mira Murati在离职后并没有选择复刻一个更大参数的GPT，而是选择了「交互」这个切口。

这反映了她对AI未来的判断：智能固然重要，但协作才是AI进入人类生活的入场券。

过去三年，所有AI实验室都在拼谁更聪明，参数更大、推理更强、上下文更长。但几乎没有人认真想过，人类跟AI之间的交互界面本身，就是一个巨大的瓶颈。

如果AI永远需要人类去「伺候」它的Prompt，去忍受它的延迟，那它永远只是个好用的计算器。只有当AI能够「感知时间」、「感知犹豫」、「自然插嘴」时，它才真正具备了人的属性。

Thinking Machines选择的行业路线告诉我们：AI的下一个战场，不在参数表上。

你觉得，他们押对方向了吗？

参考资料：

https://x.com/thinkymachines/status/2053938892152435174

https://x.com/miramurati/status/2053939069890298321

https://thinkingmachines.ai/blog/interaction-models/