< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

全行业都在忙着“吃虾”,MiniMax M2.7已经让虾自己拿起筷子了

大模型自我进化时代来了

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

MiniMax发布M2.5仅过去一个月,再次重磅更新。

今天他们正式官宣了全新的M2.7模型,这次它干复杂任务和Agent团队协作的本事更强了。

它的推理和工程能力也有了质的飞跃,像生产线上那种让人头疼的故障排查,它自己就能搞定。

以前的模型最多也就是给你打打下手写几行代码,现在的M2.7已经是个成熟的SRE(网站可靠性工程)老手了——

自动关联监控、精准揪出Bug甚至直接写脚本把漏洞修好,它都能一条龙包揽。

最狠的是它现在能自己搭建Agent Harness,把思考和干活彻底揉在了一起,直接开启了自我进化之路。

深度适配了OpenClaw长期记忆框架之后,无论是带入真实感情陪你沉浸式玩角色扮演,还是应付那种极其复杂的Office自动化办公需求,对它来说全都不在话下。

现在,M2.7已经在MiniMax Agent和开放平台全量上线了,大家随时可以去体验一把。

最佳Cowork Agent模型

咱们先来盘一下,M2.7都有哪些硬核的亮点。

最基础的是指令遵循和多智能体协作的跃升,面对海量Skills的复杂环境,M2.7调用得极其稳健。

官方测试中,在包含40个复杂技能的场景下,它仍然可以保持97%的遵循率,并且在MM-Claw“龙虾测试”里正确率达62.7%,直逼Claude Sonnet 4.6。

另外它还原生自带多智能体协作,不用外部框架也能组建Agent Teams。模型能稳定锚定身份并自主决策,智能体之间互相配合就能把长流程任务拆解执行完。

img

顺着底层执行力往下,是代码能力的直观爆发。它从单纯的代码生成,拓展到了代码重构、防漏洞及复杂排障等高阶领域。

在SWE-Pro测试中,它以56.22%的正确率追平GPT-5.3-Codex,端到端项目交付的VIBE-Pro基准同样拿下高分。

拿SRE线上排障来说,一告警它就会关联监控推导原因,对调用链分析并连数据库验证,查出漏掉的索引文件后,甚至懂得先用非阻塞方式建索引止血再提代码合并。

【视频请移步公众号查看】

切换到办公场景,M2.7处理复杂Office文档同样干脆,支持Excel表格、Word文档和PPT的复杂多轮修改。

在GDPval-AA评测中,它的ELO评分位列开源第一,并超越GPT-5.3。

以真实的某公司案例为例,丢给它年报和沟通会资料,它能自主比对研报并构建营收预测模型。

分析完数据后,它能直接生成Excel透视表,顺手写出Word版调研报告,并基于模板排版出能直接拿来汇报的PPT,这已经具备了一个初级分析师的水准。

【视频请移步公众号查看】

最后在偏C端互动的角色扮演场景中,M2.7还大幅强化了人设的稳定性与对话情商。

它原生支持十种语言,跨语言交流时人格统一。深度适配长期记忆框架后,在赛博养崽等场景中展现出持久的身份认同。

基于这个特点,MiniMax官方设计并开源了一个OpenRoom交互系统,把AI了塞进万物皆可互动的Web GUI空间。

在这间赛博朋克风的“龙虾小屋”里,对话可以实时产生视觉反馈与场景交互,角色主动与环境互动,沉浸感一整个拉满。

【视频请移步公众号查看】

说了这么多,账面实力究竟有没有水分,接下来直接进入真刀真枪的实测环节。

一个模型,带动整个“AI团队”

第一个登场的是多Agent原生协作测试,但这次我们不搞什么“一人公司”,而是让一群Agent模型模拟人类玩游戏,于是直接扔给了M2.7一个“谁是卧底”的建房需求。

指令要求它不仅需要统筹1个主持人Agent和5个玩家Agent,还得给每个角色专门撰写带有独立人设的SOUL.md文件,

最后还得手搓一个后台程序和前端网页,来调度并直观呈现它们之间的游戏过程。

这个测试的刁钻之处在于,它同时深度考验了模型的指令遵循能力、统筹规划能力、多角色扮演稳定性以及全栈代码执行力。

img

结果,M2.7很快就把整套方案安排得明明白白,并且整理成了一目了然的格式。

img

当然,这个页面布局有些把“玩家”的卡片放得过大了,所以我们给了些调整要求,接下来M2.7就正式开始工作了。

一开始设计的游戏界面比较简单,但功能也是完整的,不过我们把它调整成了Minecraft风格,最后是长这个样子:

图片

另一边,主持人和5个选手的“人设”,也都配置好了。

img

点击开始按钮后,六个原生Agent便开始基于既定规则,在这个游戏房间里进行顺畅交流。

最终,这些选手也在主持人的带领下,完全自主地跑通了整个游戏流程,并决出胜负。

【视频请移步公众号查看】

第二个测试,则是模拟真实生产环境,检验M2.7在强工程场景下的SRE级故障排查与综合推理能力。

这个任务也是放在龙虾里运行的,我们把一份“案发现场记录”直接丢在了桌面的文件夹,其中包括四份复杂生产系统文件材料。

任务要求极为苛刻,它需要像资深后端架构师那样,找出故障的直接触发事件,以及数据库CPU飙升的根本原因,并当场写出排查命令与安全的止血代码。

img

面对庞杂的系统材料,M2.7展现出极度敏锐的诊断直觉,迅速从乱麻般的日志中,精准锁定拖垮数据库性能的真凶,给出的EXPLAIN命令完全切中要害。

img

最令人放心的是,它在提供紧急恢复脚本时,极其专业地使用了PostgreSQL的CONCURRENTLY语法来执行非阻塞建库索引。

这直接证明它真真切切懂得了生产环境下“严禁锁表”的安全红线。

img

另外,M2.7还极为规矩地附上了完整的数据库迁移文件代码,其规范程度完全可以直接拿去提交合并请求。

整个排障流程一气呵成,彻底展现了M2.7解决复杂系统灾难的硬核实力。

大模型开始自我进化了

在M2.7这些让人眼前一亮的能力背后,还有一套技术逻辑的根本性进化。

首先一点是,M2.7已经具备了自我构建复杂Agent Harness的能力。

所谓Agent Harness,其实就是模型和现实电脑环境打交道的工具箱和操作台,OpenClaw就可以被理解为是Harness的一种。

再直白点说,以前的模型通常是人给什么工具就用什么,但现在M2.7已经能自己造工具了。

拿强化学习实验来说,研究员只要给个初始想法,M2.7就会自己把实验跑起来。

它会时刻盯着状态,自动看日志、排查故障、改代码,连提交合并请求和冒烟测试都顺手干了。

img

而且M2.7不仅会造工具,还能主动迭代Harness本身,给整个工具箱来一波升级。

在优化内部Agent Harness代码的测试中,M2.7全程自主把控,通过反复试错,成功摸索出了优化路径,让模型在内部评测集上的效果直接拔高了30%。

再进一步,就是模型自己去训练和升级机器学习模型,这也是它能持续提升算法性能的关键。

M2.7靠短时记忆、自反馈和自优化这三招,每次跑完一轮都会生成md文件记住教训并给下一轮指路。

把它扔进MLE Lite这种极高难度的22道竞赛题里,给足24小时让它去自主优化ML模型,最终它拿下了9金5银1铜的成绩。

眼下整个行业都在紧盯硅谷风向,跟着一起疯狂吃虾,忙着适配OpenClaw来追赶热度。

跟进开源脚手架确实能快速补齐体验,但这依然停留在教模型怎么用人类工具的层面。

但就在此时,MiniMax已经切入了下一个更重要的论题,也就是让模型自己造工具搞研发,甚至成为自身研发链条的一环

这种主动进化的能力,正是决定下一代大模型核心竞争力的分水岭。

具备了这般能力的MiniMax M2.7,已经抢先开启了模型自我迭代的新纪元。

版权所有,未经授权不得以任何形式转载及使用,违者必究。