6月1日儿童节,大伙都收到礼物了没?
如果你没收到,也不必忧伤,不必心急。因为咱们国产模型MiniMax,今日在官网准备了一份大礼——发布了他们最新的模型,MiniMax M3。
作为国产模型里数得上号的有力竞争者,MiniMax 这一发,多少是让人有点期待的。
关注 AI 圈的差友们应该都感觉到了,咱们国产模型在5月份是真卷起来了:先是 DeepSeek V4 直接官宣永久降价,GLM、Qwen 的口碑也是肉眼可见地往上走。
而这么一对比,MiniMax 的用户们,最近可算是爱之深、责之切了:别人都吃上好的了,给我也吃点呗?
这不今天就来了嘛,先来看看跑分。
按官方说法,M3 在软件工程领域,超过了 GPT-5.5 和 Gemini 3.1 Pro,接近 Claude Opus 4.7。架构上,靠自研的 MSA 架构,直接把上下文怼到了 1M,看着Coding和Agent能力非常强。
顺带,它还是个能看图、看视频的原生多模态模型,甚至能操作电脑桌面。在现在的Agent时代,这种能力肯定是越强越好的。
不过,跑分是一回事,实际使用当然还得看实测。
比如世超的同事中,就有一位MiniMax忠实粉丝,几个月前就老跟我说,MiniMax哎呀太好用了,我要付费使用。
结果最近就频繁跟我吐槽,他说他对M2系列模型的评价是:神鬼二象性。
“比如有一次,我让 OpenClaw 帮我找一下附近的麦当劳。
结果Minimax发现附近的麦当劳离得太远,然后以“快餐”为关键词,向我推荐了附近一些同样耗时短、能满足赶时间需求的中式快餐。他能理解到我想吃麦当劳是因为我想赶时间。”
“但在一些活上就不尽人意了,比如某次询问日程问题时,它把‘前天’理解成了 yesterday,硬生生搞错了时间。”
于是在M3发布后,我也第一时间询问了他的意见。
他的评价是,嗯,确实有进步。
具体啥表现,世超也尝试了下。
首先,这个模型的原生多模态能力是实打实的,所以图片、视频,咱都能狠狠往里放。
比如,世超最近 Vibe Coding 了一个视频,这个视频里的元素都是由AI写的代码实现的。
于是我把它丢给了Minimax M3。
它的解读基本上没啥问题,做这个视频的初衷就是把21世纪初的一些互联网审美做一个赛博化处理,诶,甚至还认识“差评”,除了艺术字没识别出来,也无伤大雅。
Agent能力这块,其实也不错,比如我在Youtube上随便找了个奥特曼的访谈视频,把网址丢给搭载MiniMax M3的龙虾,让它总结了一下。
但它手上也没有现成的Youtube转文字工具,只能自己想辙,失败一个换一个。
于是它一条路一条路自己试,先查电脑里装没装视频下载工具,发现没戏。然后想走第三方镜像站,又失败了。接着又现搭了个脚本,也没成。。
直到用上了最后一招,直接怼进了 YouTube App 用的内部接口,把字幕地址抠了出来,下载解析成了人话再发给我。
总结得确实不赖,时间切分得很细,基本上提炼出了所有关键信息。
我也让这只OpenClaw在桌面上,给我写了个iOS风格的天气卡片,不管是天气动画还是切换动画都还不错。
我也询问了同事这位MiniMax爱好者的体验,他也觉得,视频识别这块确实挺厉害的,识别的蛮准确,而且描述的密度也刚刚好。
幻觉的概率下降也很明显,之前处理问题时,顾头不顾尾的问题也没再遇到了。
从这里看,MiniMax搭配Agent完成一点日常任务,其实问题不大。
不过,在测了一点其他问题之后,我体感上感觉有点不大对劲了。这个模型,好像是个OpenClaw的特化模型,除了在OpenClaw里用着还行,其他场景,偶尔会有点卡手。。。
比方说这个经典色盲问题,我同时询问了DeepSeek v4 flash,Claude 4.7 Opus和MiniMax M3。
结果,回答的最好的居然是DeepSeek,不仅看出来了,女儿是色盲,还看出来父亲被绿了。。
而Claude和MiniMax呢,虽然能看出来女儿是色盲,但根本没想到父亲是被绿了。。看来D老师还是中文界最高的山啊。
接着我又测了个编程任务,提示词都差不多,写一个单页面html,一个不论我怎么拧,都会自动复原的四阶魔方。
因为我不会复原,必须让AI完成我未完成的愿望。
DeepSeek的结果真的蛮惊艳的,点一下就能随机打乱,再点一下就能自动复原。
诶,MiniMax的结果,就有点难绷了,拧着拧着,方块遁入虚空了。。
所以,世超测完还是能给大伙来点建议的。如果你日常用的比较多的是OpenClaw这种Agent,那用MiniMax M3作为主力模型,其实是没多大毛病的,体验上来说还算优秀。
但如果日常的任务,是难度比较大的编程或者复杂任务,咱还是推荐咱们的DeepSeek V4,或者GPT5.5、Claude 4.8之类的国外模型。
总的来说,MiniMax 这波更新,不算是惊艳吧,但也算是一次实打实的进步。
它更像是一双挺合脚的跑鞋,在 Agent 这条赛道上跑,是越来越顺的;但别的方面,其实可以有更优秀的模型选择。
不过话说回来,毕竟 Agent 才是接下来的主战场,不管是国内外模型,最近在卷的,也就编程和Agent能力了。而且,最近的DeepSeek 降价、Qwen 崛起,MiniMax上新,国模的快速进步也是我们看得见的。
至于那些还不够好的地方,也不急。毕竟国产模型进步的速度,肯定是能跟上咱吐槽的速度的。
撰文:不咕
编辑:江江&面线
美编:素描
图片、资料来源:
Minimax官网