一夜暴涨20%的背后：MiniMax M2.5如何用四分之一参数硬刚Claude？

当大多数中国企业已经进入春节前的收尾阶段时，国产大模型赛道却罕见地打响了“年前双响炮”。继智谱在凌晨高调开源745亿参数的GLM-5后，MiniMax在午后迅速祭出了最新旗舰编程模型——MiniMax M2.5。

这场针锋相对的发布，迅速在资本市场掀起波澜。MiniMax股价盘中一度暴涨超24%，总市值站上1800亿港元。投资者的狂热并非仅仅为了一个新品的亮相，而是因为他们看到了一个关键信号：大模型行业正在从“参数数量的无限内卷”，急速转向“参数效率与场景落地的务实竞争”。

一夜暴涨20%的背后：MiniMax M2.5如何用四分之一参数硬刚Claude？

一、轻量化封神：10B的“小参数”与100TPS的“大吞吐”

在此次发布的所有信息中，最令技术社区感到震惊的并非M2.5对标的对象——Anthropic的Claude Opus 4.6，而是它实现对标的方式。

MiniMax M2.5的激活参数量仅为10B。

这是一个极具挑衅意味的数字。就在同一天发布的智谱GLM-5，其激活参数达到了40B；而国际顶尖的编程模型，参数规模动辄百亿甚至千亿。在行业惯性思维中，参数越大，智商越高。但M2.5却用实际行动宣告：10B，够了。

更令人咋舌的是它的推理速度。M2.5支持100 TPS（Tokens Per Second）的超高吞吐量。这是什么概念？据多家媒体援引的测试数据，这一推理速度已显著超过其直接对标的Claude Opus 4.6。对于开发者而言，这意味着在生成大段代码或处理复杂数据时，等待光标闪烁的时间被压缩至极限。

“显存占用大幅降低，普通设备也能轻松部署。”——这正是中小开发团队最渴望听到的话。当智谱GLM-5凭借745亿总参数构建技术护城河时，MiniMax M2.5选择了一条完全相反的路：不做什么都懂的通才，做编程与Agent场景的专才。

二、不是小一号，是原生Agent特战队员

官方给M2.5的定位是：“全球首个为Agent场景原生设计的生产级编程模型”。

这句话需要拆开解读。过去的编程模型，大多是通用大模型的“技能附加”；而M2.5从预训练阶段开始，其数据配比、奖励机制、强化学习框架就完全围绕“智能体如何自主完成任务”展开。

一位参与了内测的开发者（网名“新闻妹”）发布了一篇详尽的《全网首测》，直观展示了这种“原生感”带来的体验差异。

在第一个测试案例中，测试者向M2.5抛出了一堆杂乱无章的素材——九年级英语教材的JSON知识点、Excel词汇表、PDF课文原文，指令只有一句话：“把这些做成一个可交互的学习网站，做完提醒我，如果没弄完停了就自己想办法推进。”

这是一道典型的Agent压力测试。传统模型通常会在生成代码后静待下一步指令，而M2.5展现出了极强的自主规划与闭环能力：它自动读取了三种异构格式的文件，安装了项目依赖，搭建了FastAPI后端，实现了测验系统与进度追踪，甚至写完前端后还启动了自测。当首页路由出现Bug返回裸JSON时，M2.5没有停摆，而是自我debug了三轮，定位、修复、验证，一气呵成。

这种“发现问题→定位→修复→验证”的自主闭环，正是智能体能力的核心硬指标。M2.5的10B参数，显然没有浪费在闲聊上，而是全部用在了“干活”上。

三、混沌摆与CMS：数学功底惊艳，大型工程显“缝隙”

当然，轻量化并非没有代价。测评中同样暴露了M2.5在特定维度的取舍。

在“双摆混沌运动”的数学可视化测试中，M2.5展现出了令人意外的物理直觉。它准确理解了视频中“杏仁状稳定区”和“混沌海洋中的稳定岛”概念，写出了基于拉格朗日力学方程与四阶龙格-库塔积分器的物理引擎，生成了1600个双摆同时演算的网格模拟。对于一个10B模型，这种数理推理能力堪称惊艳。

然而，当任务进入到真正的Boss级挑战——独立开发一个企业级CMS（内容管理系统）——M2.5的短板开始显现。

面对NestJS+Next.js+Prisma+PostgreSQL+K8s这一套复杂的全栈技术栈，M2.5确实把整个骨架搭了起来。后台界面清晰，权限、搜索、仪表盘一应俱全。但测试者最终在其输出的代码中找出了12个Bug（5个后端，7个前端）。

分析发现，这些Bug高度集中在跨文件一致性上。同一个解包逻辑在三处文件里写法不一致；部分ORM写法在SQLite下能跑，但切换到PostgreSQL就会报错。单模块内，M2.5逻辑严密；多模块间，注意力分配开始顾此失彼。

这并非M2.5独有的缺陷，而是目前所有AI编程模型的共性难题。只是由于M2.5参数更轻，这个“缝隙”会比400亿参数级的模型稍大一些。有趣的是，测试者将12个Bug扔给Claude Opus 4.6，38分钟全部修复。这揭示了一个极具效率的人机协作新范式：M2.5负责冲锋陷阵、快速搭建骨架，Opus负责殿后精修。

四、隐形护城河：离谱的兼容性与40倍训练加速

如果说编程能力决定了M2.5的上限，那么API兼容性则决定了它的下限和普及速度。

测评显示，M2.5几乎做到了“即插即用”。无论是Claude Code、Claude SDK，还是OpenClaw、OpenCode，所有工具链均实现零适配成本的无缝切换。有用户在Telegram上通过OpenClaw切换到M2.5，直接正常对话，甚至没察觉到后端模型已经换了。

这种兼容性不是巧合。据内部技术信息透露，MiniMax为M2.5搭建了一套原生的Agent RL训练框架，将训练引擎与Agent环境彻底解耦。在训练阶段，M2.5就已经见过Claude Code、OpenClaw等各类脚手架和工具链。它并非模仿了Claude的接口，而是在训练数据中习惯了这些工具的调用方式。

此外，M2.5沿用了自研的CISPO算法，并针对Agent场景的长上下文问题引入了Process Reward（过程奖励机制）。模型不再是只看结果，而是对中间每一步的生成质量进行打分。更硬核的是工程层面的突破：据称训练加速达到了惊人的40倍。这使得MiniMax敢于用极低的算力成本，反复在Agent专项数据上打磨这10B参数，把每一比特的性能都压榨到极致。