新智元报道
编辑:Aeneas KingHZ
【新智元导读】北大校友翁荔首次出镜,介绍了Thinking Machines的又一产品——交互模型!200毫秒神同步,能听懂你的犹豫,更能实时感知协作。AI不再是冷冰冰的回复机器,更是同频呼吸的灵魂队友。OpenAI前高管天团,终于又有新作亮相了。
就在刚刚,Thinking Machines又一重磅产品——交互模型(Interaction Models)正式亮相了!
作为OpenAI前安全负责人、如今Thinking Machines Lab的联合创始人,Lilian Weng献出了她的出镜首秀。
在这段备受瞩目的视频中,她展示了AI如何从一个「只会对话的工具」进化为「能实时协作的伙伴」。
在视频中,Lilian Weng提了一个要求:每听到一次动物的名字,都计数一次。
而且,非常难得的是,即使她在喝水或思考而停止说话时,AI也并没有打断。
最后,当她讲完,AI给出正确答案:鹿出现一次,绵羊一次,郊狼一次,卡皮巴拉一次。
注意,这个交互模型可以隐式地追踪她是在思考、让步、自我纠正还是邀请回应,这个过程中,并没有专门内置的对话管理组件!
此前,这家由前OpenAI CTO Mira Murati创办的明星公司,在0产品、0论文的情况下,就凭借全明星创始团队完成了高达20亿美元的种子轮融资,由a16z领投,英伟达、AMD、微软等巨头跟投,估值直接冲上120亿美元,刷新了硅谷早期融资纪录。
继去年10月发布首个开发者平台Tinker(一个让大模型微调变得像呼吸一样简单的工具)之后,这一次,他们又交出了一份让业界刮目相看的成绩单。
当交互带宽被拉满,AI 就不再是我们的工具,而是我们意识的实时延伸。这或许彻底改变人类与AI互动的方式,取得通往AGI路径上又一次胜利的里程碑!
AI时代的iPhone时刻终将到来!
AI终于学会了「插嘴」
这一步比AGI更动人
想象一下,你正在和一位博学的朋友聊天。你话还没说完,只是稍作停顿,在脑海中搜寻一个词,他便敏锐地捕捉到了你的犹豫,轻声给出了那个词。
或者当你正兴奋地描述一个构思时,他眼神微动,在恰当的时机发出一声赞叹。
这种「同频呼吸」的节奏感,是我们作为人类最习以为常、也最珍视的协作体验。
但在过去两年里,尽管AI的智力在指数级增长,我们与它的交互却始终像是在进行一场跨世纪的电邮往来。
无论ChatGPT多么博学,你必须打包好你的思想,点击发送,然后屏息凝神,等待反馈。
这种尴尬的「回合制」(Turn-based)残余,正是阻碍人机真正融合的那层障碍。
就在刚刚,由OpenAI前研究主管Lilian Weng与Mira Murati等人领衔的初创公司Thinking Machines (TML)发布了其首个重磅成果:交互模型(Interaction Models)。
这一次,AI终于打破了沉默,学会了「插嘴」。
除了Lilian Weng展示的无缝对话管理功能之外,这个AI还有以下令人深刻的记忆点。
它会根据上下文按需介入,而不仅仅是在用户说完话之后。
用户和模型可以同时说话,这样就能实现实时翻译这类功能。
令人惊讶的是,这个模型还具有对时间流逝的直接感知。
在与用户对话和聆听的同时,它可以同时进行搜索、浏览网页或生成用户界面,并根据需要将搜索结果融入对话中。
在更长的真实会话中,这些过程都会持续进行,让你感觉更像是在和它合作,而不是在提示它。
网友们直言:这个产品太酷了。
200毫秒的革命
终结AI的「冷场」时代
目前,AI模型大多患有一种「数字自闭症」。
当你说话时,它是耳聋的——它必须等待一个名为VAD(语音活动检测)的「外挂脚手架」告诉它:「好了,人类说完了,你现在可以处理了。」
在它生成回复时,它又是盲目的——如果你在它说话中途指着屏幕上的Bug大喊,它往往听不见。
Thinking Machines决定拆掉这些脚手架。
他们发布的交互模型采用了名为「时间对齐微回合(Time-Aligned Micro-Turns)」的架构。
传统的AI是以「句子」或「段落」为单位处理信息的,但这个架构不再把对话看作是一块块巨大的「砖头」,而是将其切碎成200毫秒为一个单位的微小流片段。
这是什么概念?200毫秒正是人类反应时间的生理极限。
在这种频率下,输入与输出不再是先后顺序,而是交织共生。
AI并不是等你把话说完才开始理解,而是每200毫秒就在进行一次「感知-反馈」的循环。
这就像人类的神经反射系统——你还没意识到自己说错话,AI的耳朵和大脑已经捕捉到了你的发音偏差。
在Lilian Weng出镜的演示中,模型不再是被动等待指令,它能实时追踪Lilian何时在思考、何时在让步、何时在进行自我纠正,甚至能预判她何时邀请回应。
技术从「指令响应」进化为了「感知共振」。
正如Lilian Weng所言:「人与人之间的协作,对于改善人机协作至关重要。」
彻底告别VAD(语音检测外挂)
市面上几乎所有的实时语音AI都在用一种叫VAD的技术。它的逻辑是:监测静音,如果用户超过0.5秒没说话,就判定「用户说完了」,然后触发AI回复。
这就是为什么目前的AI总是接话太慢,或者在你思考停顿时粗鲁地打断你。
TML的模型则是原生感知。
它不需要静音检测,它能通过你的语气、语速、呼吸声,甚至是视频里的眼神,判断你是在「思考」、「想让人接话」还是「自我纠正」。这种「懂你」的能力是长在模型骨子里的。
「前台交互+后台思考」的双模型协作
这是TML最天才的设计。
实时交互模型(InteractionModel),就像人类的「直觉」和「反射」,负责保持在线,负责听、看、说、感知情绪,确保200ms的响应速度。
异步背景模型(Background Model):就像人类的「深度思考」,负责调用工具、搜索网页、运行复杂逻辑。
当你跟AI聊天时,前台模型负责陪你「扯淡」和感知,后台模型在疯狂帮你查资料。
一旦后台有了结果,前台模型会找一个「合适的时机」(而不是粗暴打断)把结果揉进对话里。
他们的出发点是连续的音频与视频——这些模态本质上是实时的。
文本可以等,但实时对话不能等。通过优先针对最困难的场景进行设计,TML团队最终得到了一种架构:它原生支持多模态、具备时间感知能力,并且能够处理跨所有模态的并发输入与输出流。
他们不使用大型独立编码器来处理音视频,而是采用预处理尽可能少的方案。
音频:以dMel格式输入,通过轻量级嵌入层转换
图像:分割成40×40的图块,由hMLP编码
音频解码:使用流头(flow head)
所有组件与Transformer从零开始联合训练。
这一切,都证明了他们官网的这句话:「好的协作,不是某个人最后给出一个完美答案。好的协作,是有人在当下真正投入、共同在场。」
行业地震:GPT真的被超越了吗?
很多人会问:OpenAI的GPT Realtime API不也能做到实时吗?
答案是:逻辑完全不同。
根据TML发布的技术报告,他们的TML-Interaction-Small模型(12B活跃参数的MoE架构)在FD-bench(专门衡量交互质量的基准测试)上,已经全面领先于GPT Realtime等竞争对手。
核心差距在于「主控权」:
GPT等模型:依然是被动的。除非你叫它,否则它不动。
TML模型:具有视觉主动性(VisualProactivity)。它能主动看到世界发生了变化,并在不需要你发指令的情况下开口。
比如你做俯卧撑,GPT必须等你问「我做了几个」才会回答;而TML的模型能一边看着你做,一边自然地喊出:「1、2、3……加油,最后两个!」
Mira Murati的复仇,还是新征途?
曾经,Thinking Machines的横空出世,让整个硅谷为之侧目。
作为前OpenAI的二号人物,Mira Murati在离职后并没有选择复刻一个更大参数的GPT,而是选择了「交互」这个切口。
这反映了她对AI未来的判断:智能固然重要,但协作才是AI进入人类生活的入场券。
过去三年,所有AI实验室都在拼谁更聪明,参数更大、推理更强、上下文更长。但几乎没有人认真想过,人类跟AI之间的交互界面本身,就是一个巨大的瓶颈。
如果AI永远需要人类去「伺候」它的Prompt,去忍受它的延迟,那它永远只是个好用的计算器。只有当AI能够「感知时间」、「感知犹豫」、「自然插嘴」时,它才真正具备了人的属性。
Thinking Machines选择的行业路线告诉我们:AI的下一个战场,不在参数表上。
你觉得,他们押对方向了吗?
参考资料:
https://x.com/thinkymachines/status/2053938892152435174
https://x.com/miramurati/status/2053939069890298321
https://thinkingmachines.ai/blog/interaction-models/