当大多数中国企业已经进入春节前的收尾阶段时,国产大模型赛道却罕见地打响了“年前双响炮”。继智谱在凌晨高调开源745亿参数的GLM-5后,MiniMax在午后迅速祭出了最新旗舰编程模型——MiniMax M2.5。
这场针锋相对的发布,迅速在资本市场掀起波澜。MiniMax股价盘中一度暴涨超24%,总市值站上1800亿港元。投资者的狂热并非仅仅为了一个新品的亮相,而是因为他们看到了一个关键信号:大模型行业正在从“参数数量的无限内卷”,急速转向“参数效率与场景落地的务实竞争”。

一、 轻量化封神:10B的“小参数”与100TPS的“大吞吐”
在此次发布的所有信息中,最令技术社区感到震惊的并非M2.5对标的对象——Anthropic的Claude Opus 4.6,而是它实现对标的方式。
MiniMax M2.5的激活参数量仅为10B。
这是一个极具挑衅意味的数字。就在同一天发布的智谱GLM-5,其激活参数达到了40B;而国际顶尖的编程模型,参数规模动辄百亿甚至千亿。在行业惯性思维中,参数越大,智商越高。但M2.5却用实际行动宣告:10B,够了。
更令人咋舌的是它的推理速度。M2.5支持100 TPS(Tokens Per Second)的超高吞吐量。这是什么概念?据多家媒体援引的测试数据,这一推理速度已显著超过其直接对标的Claude Opus 4.6。对于开发者而言,这意味着在生成大段代码或处理复杂数据时,等待光标闪烁的时间被压缩至极限。
“显存占用大幅降低,普通设备也能轻松部署。”——这正是中小开发团队最渴望听到的话。当智谱GLM-5凭借745亿总参数构建技术护城河时,MiniMax M2.5选择了一条完全相反的路:不做什么都懂的通才,做编程与Agent场景的专才。
二、 不是小一号,是原生Agent特战队员
官方给M2.5的定位是:“全球首个为Agent场景原生设计的生产级编程模型”。
这句话需要拆开解读。过去的编程模型,大多是通用大模型的“技能附加”;而M2.5从预训练阶段开始,其数据配比、奖励机制、强化学习框架就完全围绕“智能体如何自主完成任务”展开。
一位参与了内测的开发者(网名“新闻妹”)发布了一篇详尽的《全网首测》,直观展示了这种“原生感”带来的体验差异。
在第一个测试案例中,测试者向M2.5抛出了一堆杂乱无章的素材——九年级英语教材的JSON知识点、Excel词汇表、PDF课文原文,指令只有一句话:“把这些做成一个可交互的学习网站,做完提醒我,如果没弄完停了就自己想办法推进。”
这是一道典型的Agent压力测试。传统模型通常会在生成代码后静待下一步指令,而M2.5展现出了极强的自主规划与闭环能力:它自动读取了三种异构格式的文件,安装了项目依赖,搭建了FastAPI后端,实现了测验系统与进度追踪,甚至写完前端后还启动了自测。当首页路由出现Bug返回裸JSON时,M2.5没有停摆,而是自我debug了三轮,定位、修复、验证,一气呵成。

这种“发现问题→定位→修复→验证”的自主闭环,正是智能体能力的核心硬指标。M2.5的10B参数,显然没有浪费在闲聊上,而是全部用在了“干活”上。
三、 混沌摆与CMS:数学功底惊艳,大型工程显“缝隙”
当然,轻量化并非没有代价。测评中同样暴露了M2.5在特定维度的取舍。
在“双摆混沌运动”的数学可视化测试中,M2.5展现出了令人意外的物理直觉。它准确理解了视频中“杏仁状稳定区”和“混沌海洋中的稳定岛”概念,写出了基于拉格朗日力学方程与四阶龙格-库塔积分器的物理引擎,生成了1600个双摆同时演算的网格模拟。对于一个10B模型,这种数理推理能力堪称惊艳。
然而,当任务进入到真正的Boss级挑战——独立开发一个企业级CMS(内容管理系统)——M2.5的短板开始显现。
面对NestJS+Next.js+Prisma+PostgreSQL+K8s这一套复杂的全栈技术栈,M2.5确实把整个骨架搭了起来。后台界面清晰,权限、搜索、仪表盘一应俱全。但测试者最终在其输出的代码中找出了12个Bug(5个后端,7个前端)。
分析发现,这些Bug高度集中在跨文件一致性上。同一个解包逻辑在三处文件里写法不一致;部分ORM写法在SQLite下能跑,但切换到PostgreSQL就会报错。单模块内,M2.5逻辑严密;多模块间,注意力分配开始顾此失彼。
这并非M2.5独有的缺陷,而是目前所有AI编程模型的共性难题。只是由于M2.5参数更轻,这个“缝隙”会比400亿参数级的模型稍大一些。有趣的是,测试者将12个Bug扔给Claude Opus 4.6,38分钟全部修复。这揭示了一个极具效率的人机协作新范式:M2.5负责冲锋陷阵、快速搭建骨架,Opus负责殿后精修。
四、 隐形护城河:离谱的兼容性与40倍训练加速
如果说编程能力决定了M2.5的上限,那么API兼容性则决定了它的下限和普及速度。
测评显示,M2.5几乎做到了“即插即用”。无论是Claude Code、Claude SDK,还是OpenClaw、OpenCode,所有工具链均实现零适配成本的无缝切换。有用户在Telegram上通过OpenClaw切换到M2.5,直接正常对话,甚至没察觉到后端模型已经换了。
这种兼容性不是巧合。据内部技术信息透露,MiniMax为M2.5搭建了一套原生的Agent RL训练框架,将训练引擎与Agent环境彻底解耦。在训练阶段,M2.5就已经见过Claude Code、OpenClaw等各类脚手架和工具链。它并非模仿了Claude的接口,而是在训练数据中习惯了这些工具的调用方式。
此外,M2.5沿用了自研的CISPO算法,并针对Agent场景的长上下文问题引入了Process Reward(过程奖励机制)。模型不再是只看结果,而是对中间每一步的生成质量进行打分。更硬核的是工程层面的突破:据称训练加速达到了惊人的40倍。这使得MiniMax敢于用极低的算力成本,反复在Agent专项数据上打磨这10B参数,把每一比特的性能都压榨到极致。
五、 Office生产力天花板:被低估的To B战场
在众多关于股价、参数、代码评测的喧嚣中,一个容易被忽视的细节是:几乎每一篇官方通稿都强调了M2.5在Office核心生产力场景中的SOTA地位。
“Excel高阶数据处理、深度行业调研、PPT智能生成”。这三项能力,精准指向了中国最庞大的脑力劳动者群体——不是程序员,而是白领。
这或许是MiniMax此次发布中最具商业野心的布局。当智谱在开源社区收割开发者声望,当DeepSeek在春节前蓄势待发,MiniMax M2.5试图通过“Agent原生”能力,成为嵌入企业微信、飞书、Office套件中的那个隐形副驾驶。

10B的参数规模,使其私有化部署成本极具竞争力。一个不需要昂贵的A100/H100集群、能够在普通服务器甚至高端PC上流畅运行的顶尖编程/办公模型,对于数据敏感的大型国企和金融机构来说,吸引力是致命的。
结语:内卷的尽头是效率
2026年春节前的这场AI竞赛,充满了象征意义。
智谱GLM-5展示了中国大模型在参数量级上不落人后的雄心;而MiniMax M2.5则展示了中国大模型在效率优化上独辟蹊径的智慧。
M2.5并非一款完美的产品。它在大型项目中的跨文件一致性缺陷、首次指令理解偶尔的偏差(如将物理模拟误解为视频剪辑),都证明轻量化依然伴随着折衷。但它的出现,精准地踩在了时代的鼓点上——当基础大模型的能力逐渐逼近实用门槛,决定胜负的不再是谁的模型更大,而是谁的模型更便宜、更快、更容易落地。
正如那篇评测在结尾处的感叹:“同样的显存预算,别人只能跑一个实例,你可能跑得起三个。” 在商业世界里,这就是颠覆游戏规则的力量。
MiniMax M2.5,用10B的轻量身躯,扛起了通往Agent应用爆发时代的那扇门。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...








