1美金时薪雇个全栈替身,MiniMax M2.5让打工人也能体验当老板的感觉

主打智能体和Vibe Coding

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

春节档模型大战,又杀出一匹黑马。

今天,MiniMax正式官宣了已经提前两天开跑的新模型M2.5,依然主打智能体和Vibe Coding,性能比肩Claude Opus 4.6。

它不挑食,PC端、手机App、React Native、Flutter全能写,而且是前后端带数据库的真全栈。

以前的模型顶多给你画个皮(前端),M2.5是连皮带骨头(前端+后端+数据存储)都能给你交付。

它还是为智能体生态而生的,配合OpenClaw这种脚手架,能把你的自然语言直接变成电脑上的具体操作。

你只需要懂业务逻辑,剩下的全栈代码实现,它能以100TPS的速度秒回交付给你,而且每小时成本只要1美金。

10B激活参数跻身第一梯队

M2.5这次在写代码和跑任务这两个硬指标上,直接和Claude Opus 4.6站在了同一条水平线上。

比如在编程最硬核的SWE-Bench Verified榜单上,它拿到了80.2%的高分,在多语言任务Multi-SWE-Bench上更是拿到了第一。

图片

而且它在Vibe Coding模式下能通吃全栈,能从界面一路写到后端逻辑和数据库设计,一次性交付整套能用的代码。

比如面对一个“豪华猫咪隧道电商网站”的需求,不仅要极简风、视差滚动效果,后台还得带个3D配置器。

图片

M2.5跑出来的结果能直接呈现出大片级的自动播放视频效果,连那种可以点着玩的3D配置器也跑得有模有样,出来的网站整体感觉非常高级,而且是个真正能直接运行的完整项目。

图片

这种底气来自于它进化出了“原生Spec行为”——在动手写代码前,它会像架构师一样主动拆解功能结构和UI设计。

而且能全栈通吃,是因为它是在Go、Rust、Python等10多种编程语言和几十万个真实环境中锻炼出来的。

在处理长链路任务时,M2.5也是专门优化过的,不管是主流框架还是自己写的脚本,它都能顺畅配合。

这里它引入了Process Reward(过程奖励) 机制,能全链路监控完成质量,解决了长任务容易“跑偏”的难题。

这种机制带来的逻辑能力在处理繁琐、重复性高的活时特别明显,比如统计福布斯富豪榜,就需要去抓取净资产、年龄和财富来源。

图片

M2.5生成的表格非常老练,它会自动建好Cover、BillionairesData和Sources三个Sheet,把封面、数据源和详细数据分得清清楚楚,格式规整得像个强迫症员工做的。

图片

能干这么重的活,M2.5的激活参数量其实只有10B,是第一梯队里体型最小的旗舰模型。

配合上深度优化的思考链路,它的推理吞吐量飙到了100TPS,这个速度是主流旗舰模型的2倍,跑大规模数据清洗或者改代码Bug任务时,也能体验到那种瞬间刷屏的快感。

文能编写全栈代码,武能操纵本地系统

前面两个在线DEMO,只是开胃小菜,接下来就把M2.5带到真刀真枪的智能体环境当中拉练一番。

按MiniMax的说法,适配各种不同的智能体框架,是M2.5的一大优势能力。

既然说到智能体框架,那不得不提的就是爆火的OpenClaw了,所以干脆就在我的电脑上安装一个,然后把M2.5接入进去试试。

由于M2.5刚出,OpenClaw的安装向导里还没有这个选项,因此安装的过程手动折腾了一番,这里也就不详述了,总之最后是成功接入了进来。

图片

不过,通过后台看板和OpenClaw对话实在是太麻烦了,所以我打算把它接到我的飞书里。

图片

拳脚已经给M2.5搭建好,接下来就看这个大脑怎么发挥了。

我用Python生成了一个装了100个乱七八糟财务文件的文件夹丢在桌面,然后给OpenClaw一个非常直接的任务:先把所有文件名清洗一遍,统一改成“日期+供应商+金额”的格式。

当然这还不算完,它得把这些数据吃透,按支出分类整理好,最后直接生成一份带图表的月度财务分析PPT,不仅要图文并茂还得看着美观。

先看一下,整理之前的文件长这样:

图片

接下来呢,我们就通过飞书把任务布置给M2.5正在操纵的OpenClaw。

图片

chua的一下,整个文件夹里的文件齐刷刷改了名字,变成了我们要求的格式。

图片

同时在飞书里,OpenClaw也汇报了它的工作进度,总结了这个月的支出情况。

图片

至于PPT,显然我懒得去文件夹里翻找,所以直接通过飞书让OpenClaw给我发了过来。

图片

激动人心的验收时刻马上就要到了。

M2.5指挥的OpenClaw,自己选了个很有科技感的深色主题,蓝绿配色看着就很舒服。

而且它不是光把数据填进去就完事了,还真的看懂了那些账单。

比如在饼图里,它一眼就揪出来“云计算服务”占了快90%的大头,还在核心指标页里特意标注了第2周支出最高。

在最后一页它还提出了改进建议,发现在“星云云计算”上花钱太多,直接建议去谈个年度合同降本。这种能从数据里挖出业务洞察的能力,已经超越了单纯的图表制作。

图片

可以看出在智能体环境中,M2.5的确是一个合格的大脑,让我体验到了一种当老板的感觉✨(⌐■_■)✨。

除了智能体之外,还有一项让MiniMax引以为傲的技能,就是Vibe Coding。

这里我们用VSCode,通过Cline进行连接,看M2.5能不能一勺烩地搞定后端、前端、通信、部署调试这套完整的开发流程。

我让它用Java Spring Boot写一个多人实时协作的待办清单系统。

功能上其实不简单,得用WebSocket做多端的实时同步,还得卡死权限,谁建的任务谁才能改。

另外对界面美观度也有要求,必须得呈现出科技感,给人一种黑客终端的感觉。

图片

接到任务之后,M2.5先从pom.xml和application.yml两个文档开始写起。

这俩文件是Java Spring Boot项目的“心脏”和“大脑”。
pom.xml相当于给构建工具(Maven)看的购物清单。也就是你要做这个“待办清单”项目,需要用到哪些现成的零件(依赖包)。

application.yml(运行说明书)则是给程序看的设置面板。软件启动后具体怎么跑,都在这里定规矩。

图片

这两个清单列好之后,就开始写主体和各个模块的JAVA代码,还有前端HTML,另外还创建了一个数据库文件。

图片

这一切都写好之后,M2.5驱动的Cline会自动对程序进行编译运行,并且如果在这个过程当中遇到了报错,还会读取错误信息,自动对代码进行修改。

图片

一番折腾之后,后台程序终于开始运行,前端页面也在8080端口跑起来了,确实界面既简洁又具有我刚才要求的科技感。

图片

简单测试一下任务的新增、删除和进度调整,还有昵称的修改,都没有问题。

图片

但是,这里看到的效果并不能证明真的是后端服务正常运行,因为这样的效果纯靠前端也能实现。

所以接下来还得拿出“照妖镜”,通过多端同步这项技术要求,看一下是不是真的有后端在工作。

这里我把手机(通过局域网访问部署在电脑端的页面)的屏幕都投到了电脑上,然后分别在两端对任务进行增、删、改,观察另外一台设备的实时变化。

结果所有的操作,都即时同步到了另一端,说明后端正在工作,M2.5是真的把这个系统的前后端全给跑通了。

图片

嗯,M2.5宣传的全栈工程能力,确实已经比只会在前端搞一些花拳绣腿的模型高出一个level了。

总之,还是我们常说的那句话,测试这些案例只是抛砖引玉,更多新奇的玩法,还等待着你的后续探索。

AI大爆发即将到来

这一波M2.5的出现,给我们带来了一个明确的信号——AI应用的大爆发,已经就在眼前了。

在过去100多天里,M2系列在代码能力上的进步速度直接拉出了一条陡峭的阳线,保持着行业最快的迭代节奏。这说明现在的模型,在“脑子好使”这件事上已经准备好了。

图片

而且它还解决了“贵”和“慢”这两个最硬的拦路虎,把推理速度干到了100TPS,还带来了1美金就能让智能体连续工作一小时的“白菜价”。

图片

它展现出的那种全栈一肩挑的能力,使得它在MiniMax内部,已经接管了30%的真实业务,从写代码到做财务报表什么都干。

它能一口气把事办成,开发者不用再天天盯着细节改Bug,能放心大胆地让AI去跑那些长链路的业务。

以前我们总说AI是Copilot,但在M2.5这种能独立扛事的模型面前,它已经成为你的生产力引擎了。

接下来,你只需要负责踩油门(下达目标),至于引擎盖底下怎么转,就是AI的事了。

版权所有,未经授权不得以任何形式转载及使用,违者必究。