2026年的春节,中国AI赛道从未如此拥挤。
字节跳动的三模型礼包、阿里的Qwen 3.5、智谱的GLM-5、MiniMax的M2.5……巨头与独角兽们像约好了一样,把最重磅的弹药倾泻在这个中国人最看重的节日窗口。然而在这场“首个AI春节档”的喧嚣中,有一家公司的沉默反而成了最大的噪音——DeepSeek 。

2月11日,距离除夕仅剩数天,多位用户发现DeepSeek的App端和网页端悄然开启灰度测试。新版本的上下文窗口从128K token直接拉升至1M(百万),知识截止日期更新至2025年5月,模型自述的版本号隐于迷雾之中 。官方并未在任何一个渠道发布公告,但这种“不宣而测”反而让技术社区的肾上腺素飙升:那个传说中要在2月中旬登场的V4,终于要来了吗?
一、灰度测试里的“藏不住的野心”
如果你在2月11日之后打开DeepSeek App,可能会收到一条几乎被忽略的更新提示。没有发布会,没有万字技术报告,甚至没有一条官方推文——但这恰恰是DeepSeek过去一年最熟悉的节奏。
“去年R1也是在春节前七天横空出世的。”一位长期跟踪DeepSeek的开发者告诉笔者,“他们非常清楚‘时间窗口效应’的价值:当整个行业都在放假、当海外媒体的注意力被节日稀释,技术突破反而能以最大公约数穿透圈层。”
这次灰度测试释放的信号极为密集。首先,百万token上下文。从V3.1时代的128K到如今的1M,提升近10倍。这意味着DeepSeek已经能够完整处理《三体》三部曲体量的文本,或者在一次会话中消化一个中型企业的完整代码仓库。此前,仅有谷歌的Gemini系列在百万上下文维度上实现规模化落地,DeepSeek成为全球第二家将这一能力推向公众的公司 。
但更耐人寻味的是,这个灰度版本很可能不是V4。多名测试者发现,模型在问答中自称“当前版本极有可能是V3系列的最终进化形态,或是V4正式亮相前的终极灰度版”。这指向一个更合理的解释:DeepSeek正在用一次大规模“路测”,为V4的正式发车铺平轨道。
二、架构革命:mHC与Engram的“双螺旋”
如果说灰度测试是V4浮出水面的冰山尖顶,那么水面之下,是DeepSeek过去两个月以罕见密度投下的两枚技术深水炸弹。
2026年1月1日,梁文锋署名论文《mHC: Manifold-Constrained Hyper-Connections》上线arXiv。这篇选在元旦当天发布的论文,解决的是困扰AI社区近十年的大规模训练稳定性难题 。传统的超连接(Hyper-Connections)在模型加深时会产生信号增益失控——在27B参数的测试模型中,信号放大幅度曾超过3000倍,直接导致训练崩溃。mHC的解决方案近乎数学艺术:通过Sinkhorn-Knopp算法将连接矩阵约束在双随机流形上,把信号增益压缩至1.6倍 。BIG-BenchHard推理基准上2.1%的提升,是以仅6.7%的训练开销为代价换来的。
1月13日,梁文锋再度署名,携手北京大学发布Engram架构论文。这一次,刀锋直指Transformer的原生缺陷——“记忆”与“计算”的混为一谈 。Engram的核心洞察极其朴素:语言建模中的大量任务(实体识别、固定搭配、语法片段)本质上是模式检索而非逻辑推理。让多层注意力网络去“计算”“威尔士王妃”是谁,就像用超算解一元一次方程。Engram模块将经典哈希N-gram现代化,用O(1)复杂度的确定性查表替代昂贵的高维计算,把静态知识卸载到廉价DRAM中,释放昂贵的GPU HBM去专注真正的推理任务 。
论文中最具颠覆性的发现,是MoE(混合专家)与Engram之间存在的“U形缩放律” 。当非激活参数预算在两者之间分配时,验证损失呈现清晰的U形曲线——纯MoE(ρ=100%)缺乏专用记忆,被迫用计算模拟检索;纯Engram(ρ=0%)失去条件计算能力,在复杂推理任务上崩盘。而最优解,恰恰落在两者平衡的谷底。
这不再是缝缝补补的迭代,而是对Transformer架构的一次系统性重构。 野村证券在2月10日的研报中直言,mHC与Engram的结合“从算法和工程层面针对算力芯片和内存瓶颈进行系统级优化”,其商业意义不在于复刻去年V3的算力恐慌,而在于将训练与推理成本再降一个数量级 。
三、战略转向:编程与智能体的“王座争夺”

技术只是底色,真正的战役在应用层。
多方信源交叉验证显示,DeepSeek V4的核心突破维度高度聚焦:AI编程能力。据知情人士透露,内部初步基准测试中,V4在编程任务上的表现已超越Anthropic Claude系列和OpenAI GPT系列的同代模型 。若消息属实,这将是一次“攻守易势”——Claude在过去一年被开发者社群公认为“编程之王”,而DeepSeek正在用最直接的方式向王座发起正面冲锋。
这背后是技术路线的必然收敛。现代软件工程中,一个微小的代码修改可能波及数千个文件的依赖关系。以往的模型受限于上下文窗口或注意力衰减,无法真正理解完整代码仓库;而V4的百万上下文、Engram的快速检索、mHC支撑的深层推理,恰好构成企业级编程Agent的三块拼图 。多位开发者向笔者分析,V4的目标可能不仅仅是代码补全或单文件调试,而是全自动化的项目级重构与Bug修复——这才是真正意义上的“Vibe Coding”生产力革命。
值得玩味的是时间节点。摩根大通在2月11日的研报中指出,中国AI行业正迎来“史上最密集的旗舰模型发布潮”,而DeepSeek V4的核心影响“不在于聊天机器人本身,而在于其可能释放的平台经济效益”。报告给出了一个反直觉的推演:若V4成功实现推理降本,AI将从昂贵的“独立App”变为廉价的“内嵌功能”,而微信和QQ作为中国最高频的通信界面,将直接承接这一红利——腾讯才是最大的潜在赢家 。
四、寂静的战场与扣在扳机上的手指
过去半年,关于DeepSeek“跌落神坛”的论调从未消散。
OpenRouter的统计数据显示,2024年底DeepSeek-V3和R1曾占据开源模型Token消耗量的一半以上;到2025年下半年,随着更多玩家入局,其份额已显著回落 。市场从“一家独大”走向“群雄割据”,而谷歌Gemini 3 Pro在数学推理上的碾压姿态、OpenAI GPT-5.2的仓促应战,将闭源模型的技术上限拉升到新的高度 。
对于“六小龙”们而言,DeepSeek引而不发的这半年是宝贵的融资窗口。智谱与MiniMax在2026年1月接连登陆港交所,阶跃星辰完成B+轮融资,月之暗面斩获5亿美元C轮 。一位投资人向笔者坦言:“如果去年年中V4就出来,这些公司连上牌桌的机会都没有。”
但窗口正在收窄。DeepSeek不发V4,所有人都不敢过年 。
这种威慑力恰恰来自不确定性。正如36氪在报道中所言:“那张迟迟未发的V4,其最大的威慑力,恰恰在于不按下扳机。” 技术社区对此形成了两种主流猜想:一种认为MODEL1是一个追求极致效率的轻量级模型,专为边缘设备部署优化;另一种分析则倾向它是“长序列专家”,为处理超长文档或代码项目而生 。唯一确定的是,无论走哪条路,极致性价比仍是DeepSeek不变的底色。
五、记忆与未来的交响
回望DeepSeek过去一年的技术轨迹,一条清晰的叙事线已然浮现:
V3证明了低成本训练也能达到前沿性能;R1把推理过程显性化,将强化学习的红利注入开源生态;mHC解决了规模化的稳定性诅咒;Engram则为Transformer装上了可扩展的记忆皮层。V4不是某个单一维度的突进,而是这四条线索的交汇点。
仍有太多悬念待解。1万亿参数的传闻是否属实?开源策略是否会因商业考量而调整?多模态能力是缺席还是被刻意隐藏?那个在LMArena上匿名出现的“神秘模型”究竟是不是V4的乔装试探?
这些问题的答案,或许就藏在即将到来的春节假期里。
梁文锋在Engram论文的结尾写道:“记忆不仅是存储,更是选择。”对于DeepSeek而言,V4的发布也是一种选择——选择在巨头林立的闭源时代捍卫开源生态的护城河,选择在算力封锁的硬约束下用算法突围,选择在最拥挤的春节档打出那张扣在扳机上整整一年的王牌。

2025年1月,DeepSeek R1登上《Nature》封面,中国大模型首次获得国际顶刊的原创性背书 。一年后的今天,整个行业都在等待同一个问题的答案:
这家曾用557.6万美元颠覆AI成本曲线的公司,能否第二次震惊世界?
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...








