南洋理工大学、山东大学等机构联合提出的多模态搜索新范式,南洋理工msf

这项由南洋理工大学、山东大学、阿里巴巴达摩院和南方科技大学联合开展的研究，以预印本形式发布于2026年5月，论文编号为arXiv:2605.07510，有兴趣深入了解的读者可通过该编号查询完整论文。

**一个被忽视的真实场景**

假设你正在为一篇旅游攻略寻找信息。你看到一张照片，里面有一座独特的多塔尖建筑，你想知道这座建筑在哪座城市，然后再查那座城市有没有姐妹城市，最后还想看看那座姐妹城市的某个地标性建筑长什么样。这整个过程，你的眼睛和搜索框是交替工作的——看一眼图片，搜一下文字，再看一张图片，再搜一段文字。这种"交替"，正是人类信息查找的真实状态。

然而，现有的AI搜索系统在处理这种场景时却存在一个根本性的盲区：它们要么只会把图片当作"提问的开头"，要么只会把找到的图片当作"回答的终点"，从来不会把中途找到的图片当作"下一步该搜什么"的线索。这就像一个侦探，他能看懂第一张现场照片，也能在最后亮出破案图片，但中间的侦查过程却全部靠猜，从不主动拿着线索去追查下一条线索。

这项联合研究正是为了填补这个空白而展开的，他们构建了一个名为**InterLV-Search**的测试基准，专门评估AI系统能否像真正的侦探一样，让视觉证据在整个搜索过程中持续发挥"指引下一步"的作用，而非仅仅充当开头或结尾的装饰。

**一、现有AI搜索系统的"终点陷阱"**

要理解这项研究解决的问题，需要先弄清楚现有系统卡在哪里。

早期的多模态搜索基准，例如MMSearch和FVQA-Test，其实是把图片当作"题目附件"来使用的。用户上传一张图，AI用文字去网上查资料，最后给出文字答案。整个过程中，图片的角色只是触发搜索的起点，之后便退场了。这类系统解决的问题其实是"我有一张图，我想知道关于这张图的某个文字信息"，图片是起跑线，文字是终点线。

后来，研究者们意识到这还不够，于是出现了更进一步的视觉浏览类基准，比如VisBrowse和BrowseComp-V?。这类系统要求AI不仅要搜文字，还要主动去找图片——它必须在网上定位到某张特定的图，然后通过观察那张图来回答问题。这已经是很大的进步了，AI终于学会了"主动找图"。

但问题在于，这些系统找到图片之后，那张图的使命就结束了。找到一张图，看一眼颜色或者数一数人数，然后给出答案——图片始终是"最后一步"，是问卷上最后一道填空题，而不是引出下一道题的线索。

现实中的信息搜索恰恰不是这样的。更常见的情况是：你找到一张图，从这张图里辨认出一个人、一个地点或一个符号，然后这个认知结果成为你下一次搜索的出发点，于是再找一段文字，再找一张图，如此循环。图片在整个搜索链条中不是终点，而是一个又一个的"中转站"。

这种"中转站"式的视觉证据使用方式，在已有的所有基准测试中都付之阙如。InterLV-Search的诞生，正是为了专门测量AI在这个维度上的能力。

**二、InterLV-Search：用三关卡设计模拟真实侦查**

整个基准被设计成三个难度递进的关卡，每一关都对应侦探破案过程中的一个具体能力。

第一关叫做"主动视觉证据获取"。在这一关里，每道题的问题是用纯文字描述的，但回答问题需要先找到一张图，然后从图里读出答案。比如题目会说："有一位1966年出生、与某位历史上著名政治人物同名的公众人物，他深色领饰上绣着什么图案？"要回答这个问题，AI必须先根据文字描述猜出这个人是谁，然后主动去找到这个人的照片，最后仔细观察领饰上的图案。答案不是"这个人叫什么名字"，而是"领饰上有热气球图案"——这是一个必须真正看到图才能知道的视觉细节。这一关考验的是AI能否从文字需求出发，主动把视觉证据找回来。

第二关叫做"离线交替多模态搜索"。这一关的题目更长、更复杂，答案需要经过多轮"看图→搜文字→看图→搜文字"的交替过程才能获得。研究团队使用的是一个受控的离线数据库，避免真实网络的不稳定性干扰评测结果。比如题目会说："从那座以宽阔湖面、小亭画舫和现代高楼共同构成标志性景观的城市出发，找到同国另一座以单体多层传统建筑为核心景观的省会城市，那座城市与某个东南欧内陆河港城市结为姐妹城市，而那个河港城市又与某个南亚沿海大都市是姐妹城市，那个大都市里有一栋左侧带有许多拱形窗的知名建筑，它的大圆顶是什么颜色？"答案是"红色"。要得到这个答案，AI必须先搜文字认出第一座城市（杭州），再搜图认出第二座城市（武汉），再搜文字找到那个东欧港口（加拉茨），再搜文字确认南亚都市（孟买），最后再搜图观察那栋建筑的圆顶颜色。整个过程，图片在中间充当了两次"定向箭头"，指引着接下来要搜什么。

第三关叫做"开放网络交替多模态搜索"。这一关和第二关考察的能力本质相同，但环境换成了真实的开放网络。真实网络意味着搜索结果不稳定、页面内容随时变化、噪声信息远多于有用信息。在这种条件下完成多轮交替搜索，难度自然大幅提升。此外，第三关还引入了一种特殊的"多分支"题型：题目不只有一条推理链，而是同时开启多条平行线索，AI必须把每条线索都跑一遍，收集并比较各条线路上的信息，然后根据比较结果选择继续深入哪条线。比如题目会要求AI先找到三部电影各自的时长，比较之后保留时长居中的那部，再顺着这部电影的相关信息继续往下查。这不再是一条笔直的侦查链，而是像真实案件中的多条嫌疑线索——你必须全部核查，然后根据证据做出选择。

**三、数据是如何制造出来的**

制造一个能测试上述能力的数据集，本身就是一件复杂的工程。

第一关和第二关的数据来自一个叫做MMKG-W的维基百科多模态知识图谱，里面包含大约一万五千个实体，每个实体都有图片、文字描述和知识图谱关系。研究团队用全自动的AI流水线来生成题目：先让一个大语言模型为某个实体构造一个"不看图就无法回答的视觉细节问题"，再让它构造一个"不直接点名该实体的隐晦文字描述"，最后把这两部分自然地拼合成一道完整的题目。生成之后还有严格的过滤环节，专门剔除那些答案可以从文字描述里直接猜出来、或者题目里已经不小心泄露了实体名称的"作弊题"。第二关在此基础上进一步引入了知识图谱的多跳路径，让题目中的推理链横跨多个实体，并在其中某个节点插入"必须看图才能继续"的视觉中转站。

第三关的数据则需要人机协作来完成。研究团队让一个具备联网搜索能力的强大AI模型（GPT-5.4-Thinking）先行生成题目草稿，包括题目本身、参考答案和完整的搜索推理链。然后由博士级别的人类标注者审阅每一道题，检查推理链是否真实可信、视觉中转站是否足够关键、答案来源是否稳定可查。如果发现问题，标注者会直接反馈给AI模型，要求它修改题目或重建推理链，如此循环直到质量达标。最终还要用多个强AI模型在不联网的情况下尝试直接回答这些题，只有那些"不搜索基本答不出来"的题才会被保留进最终数据集。

整个数据集共包含2061道题：第一关975道，第二关225道，第三关861道（其中340道是多分支题型，占比约40%）。题目覆盖娱乐、名人、地点、组织机构、地理标志、科技、旅游、艺术等多个领域，确保测试结果不会因为领域单一而失去代表性。

**四、测试工具：InterLV-Agent**

为了让不同的AI系统在相同条件下接受测评，研究团队还开发了一套叫做InterLV-Agent的标准化评测框架。这个框架的工作方式可以理解为给每个参赛AI配备了一套标准工具箱，工具箱里包括文字网络搜索、图片搜索（用文字描述找图）、反向图片搜索（用一张图找相似的图）、网页浏览（读取网页文字内容）、网页截图浏览（把网页渲染成图片来看）、图片裁剪和代码执行。对于第一关和第二关，工具箱里还有一套离线本地检索工具，专门在那一万五千个实体构成的数据库里进行受控检索，使用的是阿里的Qwen3-VL多模态嵌入模型。

除了工具之外，框架还为每个AI配备了一套轻量级的"两层记忆"系统。短期记忆直接保存最近几轮的工具调用和返回结果，而长期记忆则是一个不断更新的简短摘要，记录已知的关键实体、视觉线索和尚未解决的子目标。这套记忆系统的设计初衷是让AI在漫长的多跳搜索过程中不至于"忘记自己在找什么"——就像侦探随身携带的案件笔记本，虽然不会记录每一个细节，但总能提醒自己案件的核心线索和当前进展。

每道题的交互轮数也有明确限制：第一关最多3轮，第二关最多7轮，第三关最多10轮。每轮交互包括一次思考、一次或多次工具调用和对应的结果观察。最终的答案评判由GPT-5.4-mini担任裁判，允许同义词、别称和措辞差异，只要语义等价就判为正确。

**五、实验结果：没有哪个AI系统表现令人满意**

研究团队测试了五个商业闭源模型（GPT-5.4、GPT-5、Gemini-3.1-Pro、Claude-Sonnet-4.6、Qwen3.6-Plus）和三个开源的搜索专用模型（MMSearch-R1-7B、VDR-8B、SenseNova-MARS-32B），所有模型都在相同的InterLV-Agent框架下运行。

最核心的发现是：即使是表现最好的模型，整体准确率也没有超过50%。表现最佳的Gemini-3.1-Pro在三关合计的工具辅助下达到了46.05%（第一关）、41.33%（第二关）和46.46%（第三关）的成绩，但距离"解决了这个问题"还有相当长的距离。

不使用任何工具、纯靠模型已有知识直接作答的情况下，所有模型在第三关的表现都惨不忍睹，最好的也只有20%左右，充分证明了这批题目确实不能靠死记硬背蒙混过关，必须真正去搜索才行。

使用工具之后，商业模型的表现均有明显提升，尤其是在第二关和第三关，提升幅度可达10到30个百分点。这说明工具确实有用，但不同模型使用工具的效率差异很大，反映出各自在搜索规划、视觉定位和多模态证据整合上的能力高低不同。

开源搜索专用模型的情况则令人意外：加上工具之后，它们的表现不仅没有显著提升，有的甚至比不用工具时还要差。这揭示出一个重要现实——为文字搜索专门优化的开源模型，在面对需要反复切换视觉和文字的交替搜索任务时，反而因为乱用工具而走了弯路，搜索规划能力的缺失比工具本身的限制更致命。

多分支题型和单链题型之间的差距也相当显著。在第三关，所有模型在单链题上的准确率都明显高于多分支题，说明当搜索路径不再是一条直线、而是需要同时维护多条平行线索时，当前AI系统的协调能力明显不足。

**六、深入解剖：问题究竟出在哪里**

为了更精细地定位失败原因，研究团队对第一关和第二关的结果做了进一步拆解分析。他们区分了两种情况：AI最终找到了正确的目标图片，以及AI没有找到正确的目标图片，然后分别统计这两种情况下最终答题的正确率。

结果非常清晰。当AI成功找到了目标图片时，最终答对的概率大幅提升——Gemini在第一关找到目标图时的答对率高达59.51%，在第二关更是达到73.75%。而没有找到目标图时，答对率只有23%到34%左右。这意味着：只要能找到正确的图，AI其实相当擅长从图片里读出正确答案；真正的瓶颈在于能否在茫茫图海中找到那张正确的图，尤其是第二关，目标图片检索召回率只有35%左右，这才是整个系统最薄弱的环节。

工具使用习惯的分析也揭示了有趣的规律。在第二关（离线环境）里，AI的工具调用被图片相关操作主导——Gemini有68.3%的工具调用都是图片搜索类操作，这与第二关的设计意图高度吻合，说明模型确实理解了这道题需要找图。而在第三关（开放网络），文字网络搜索占据了大头（60%以上），图片操作的比例有所下降但仍占17%左右，说明第三关并没有退化成纯文字的网页浏览游戏，视觉搜索依然是不可缺少的一环。

研究团队还专门分析了AI的实际执行路径，检查那些搜索轨迹中是否真正出现了"用视觉证据指引下一步搜索"的行为。在第二关，Gemini有88.9%的执行路径包含了视觉中转站，Claude达到80%，GPT-5.4也有74.9%。这证明InterLV-Search确实成功地测到了它想测的能力，而不仅仅是在考察普通的文字搜索技巧。

去掉图片搜索工具之后会发生什么？在第二关，去掉图片搜索的结果接近甚至低于完全不用工具直接回答的水平，说明图片搜索对于第二关而言几乎是不可或缺的。在第三关，去掉图片搜索的影响稍小，因为真实网络提供了更丰富的文字线索作为补充，但依然造成了一致性的成绩下滑。记忆系统的重要性在第三关体现得比第二关更明显，这与直觉相符：第三关的搜索链更长、分支更多、噪声更大，更需要一个可靠的"案件笔记本"来维持搜索状态的连贯性。

**七、从失败案例中看懂核心难题**

论文最后提供的成功与失败案例，把上述发现讲得更加具体生动。

一个成功的三分支案例是这样运作的：题目要求AI找到三部电影各自的官方节日页面，比较它们的时长，保留时长居中的那部，然后继续深入那部电影的目标图，回答目标图里某个自然现象的问题。AI的处理过程是先对三个视觉描述各自进行图片搜索，定位到三部候选电影（Nox、Krakatoa、My Semba），然后切换到文字搜索获取时长数据（分别是64分钟、79分钟和93分钟），比较之后选定中间值79分钟对应的Krakatoa，最后回到图片搜索找到Krakatoa的目标图，通过视觉观察回答"标题文字后面升起的是什么自然现象"——答案是火山喷发。这个成功案例的关键在于，AI在整个过程中持续地把图片和文字交替使用，而且每一次切换都有明确的目的和依据。

一个典型的失败案例则相反：题目要求AI分别找到Tate美术馆的毕加索相关页面和柏林电影节的新泻相关页面，从这两个页面出发进入各自的"本地符号系统"，比较两者的数量，沿着数量较小的那条线索继续，最终回答对应旗帜边框左半部分是什么颜色。AI做了大量的文字搜索，也成功找到了两个页面，但它从来没有真正把这两个页面与各自对应的本地符号系统（马拉加的徽章和新泻的官方符号系统）建立视觉连接，更没有去统计和比较数量。到最后，它只能靠猜给了一个蓝色的答案，而正确答案是紫色。失败的根源不是搜索不够努力，而是它把图片搜索当成了可选项，没有意识到视觉证据在这道题里是不可绕过的必经环节。

另一个单链失败案例更能说明问题：题目里提到一个关于双层巴士的旅游页面，但这些巴士只是表面，关键在于巴士车身上借用了某个"守护者形象"的视觉身份。AI需要先用图片搜索看清楚巴士车身上画的是什么，然后以这个视觉线索为跳板，找到对应的城市所在州，再查那个州的官方旗帜，最后回答旗帜上对角条带的颜色（答案是白色）。但AI完全没有主动去检查巴士的视觉外观，一直在用文字查询各种宽泛的关键词，最终答了"红色"——它把旗帜整体的红色背景和那条对角白色条带混淆了。问题出在最初就没有把视觉线索当作搜索的出发点，而是一头扎进了文字世界里打转。

**说到底，这项研究告诉我们什么**

归根结底，InterLV-Search揭示了一个目前所有AI搜索系统都面临的共同困境：它们在使用视觉证据时，要么只会用图作为起点，要么只会用图作为终点，真正能把图片当作搜索链条中反复出现的"路标"的系统，目前还几乎不存在。

最好的商业模型在这套测试中的整体准确率不到50%，这个数字说明当前的AI离"像人一样自然地交替使用视觉和文字来查找信息"还有相当大的差距。而开源搜索专用模型的表现甚至更令人担忧——它们在加上工具之后反而可能表现更差，说明问题不只是工具有没有，更是有了工具之后懂不懂得用、会不会在恰当的时机切换到视觉搜索模式。

这对普通人意味着什么？你每天在网上查信息时感到的那种"AI不够智能"的挫败感，很可能恰好来源于这个盲区。当你上传一张图问AI"这张图里这个东西叫什么名字，然后告诉我这个东西的制造商是谁，再告诉我那家制造商CEO的外貌特征"时，AI在第一步可能还不错，但从第二步开始，视觉线索和文字推理的无缝衔接往往就会断掉。

这项研究通过构建一套系统性的测评工具，让这个问题变得可测量、可追踪、可改进。某种意义上，它做的事情就是给AI搜索能力的弱点画了一张精确的地图，让后续的研究者知道应该把力气花在哪里。至于AI什么时候能真正做到像人一样流畅地在视觉和文字之间来回穿行，这道题的答案还需要时间来揭晓。数据集和评测代码已经开源，任何有兴趣的研究团队都可以在此基础上继续探索。

Q&A

Q1：InterLV-Search测试基准和普通的多模态搜索测试有什么本质区别？

A：普通的多模态搜索测试通常只关注两种模式：要么把图片作为问题的起点，然后靠文字搜索得出答案；要么要求AI主动找到某张图，用那张图回答一个局部视觉问题。InterLV-Search的本质区别在于，它要求图片在整个搜索过程中反复出现，每一张中途找到的图都要成为"下一步该搜什么"的依据，而不是搜索链条的终点。简单说，就是从"图→文字→答案"或"文字→图→答案"，升级为"文字→图→文字→图→文字→图→答案"的反复交替模式。

Q2：为什么开源搜索专用模型加上工具反而表现变差？

A：这是因为这些开源模型是针对文字搜索任务专门训练的，它们的搜索规划策略天然倾向于反复调用文字查询工具。当面对需要在特定时机切换到图片搜索的交替任务时，这些模型不知道什么时候该停止文字搜索、转而发起视觉检索，于是工具调用变成了无效甚至有害的行为，消耗了宝贵的交互轮数却没有找到关键的视觉证据。根本问题不是工具本身有缺陷，而是模型缺乏"什么时候该看图、什么时候该搜文字"的判断能力。

Q3：InterLV-Search的多分支题型在测试中体现了什么特殊难点？

A：多分支题型要求AI同时维护多条平行推理链，分别沿每条链搜集证据，再根据比较结果选定其中一条继续深入。这对AI的搜索状态管理提出了远超单链题的要求——它必须记住自己正在同时跑几条线、每条线上已经找到了什么、哪条线还缺什么信息，最终还要在多条线的结果之间做出有依据的比较选择。实验数据显示，所有测试模型在多分支题上的准确率都显著低于单链题，说明当搜索路径不再是一条直线时，当前AI系统的多任务协调能力明显不足。