首页 > 科技生活 > 免费教学 > DeepSeek发布梁文锋署名新论文

DeepSeek发布梁文锋署名新论文

发布时间:2026-01-13 10:21:34来源: 18736031234

DeepSeek V4春节左右发布,未见其人先闻其声,最近围绕V4的消息满天飞,深度求索公司是懂营销的。

 

今天凌晨,梁文锋署名的最新论文里,给Transformer加了个外挂,叫:条件记忆(Conditional Memory)。有啥用呢?论文的结论告诉我们:这是下一代稀疏模型,不可或缺的技术组件。

 

这篇论文在科技界引发了热议,技术含量是非常高的。

 

一、现在的大模型靠“算”

 

现在的大模型有个挺尴尬的问题,就算认个人名都是靠“算”的,它记不住。

 

比如“Diana, Princess of Wales”(戴安娜王妃),模型要用6层神经网络才能认出来。前几层还在那儿琢磨“"Wales是英国一个地区吧”“Princess of Wales好像是个头衔”,绕了半天弯子,最后才反应过来:哦,这说的是戴安娜王妃啊!

 

这就好比你问一个人“认识马云吗”,他得先想“马是一种动物”“云是天上的水汽”“马云……让我算算……”,费半天劲才想起来这是阿里巴巴创始人。

 

问题出在哪儿?Transformer架构本身没有“查字典”的能力。它只会算算算,用昂贵的计算资源去重建一个,本该直接查表就能搞定的问题。那些用来推理的算力,被白白浪费了。

 

二、回到最原始的方法:查表

 

DeepSeek的解决方案很简单:既然查表快,那就给模型配个超大词典。

 

他们用了传统的N-gram方法,建了个记忆库,专门存那些固定的实体名称、常见短语。不管词典多大,查起来都是O(1)的速度,秒查。

 

听起来很复古对吧?N-gram可是前深度学习时代的老技术了。但DeepSeek解决了它的两个致命问题:

 

存储爆炸:传统N-gram要存所有可能的词组组合,128k词表的话,光3词组合就有128k³种,根本存不下。DeepSeek用哈希函数映射,把无限可能压缩到固定大小的表里。

 

多义性问题:同一个词在不同语境下意思不同怎么办?他们加了个“门控机制”,让模型自己判断:这个查到的内容跟当前上下文匹不匹配?不匹配就自动屏蔽。

 

三、意外的发现:推理能力也变强了

 

按理说,加个记忆模块,应该只是让模型记东西更牢吧?结果实验数据让团队自己都意外了。

 

知识类任务提升是预期之内的:MMLU提升3分,CMMLU提升4分。但推理和代码能力的提升幅度更大:BBH提升5分,代码任务HumanEval提升3分,数学题MATH提升2.4分。

 

为什么?因为模型不用再把算力浪费在“认人名”这种琐事上了。原本需要6层才能完成的识别任务,现在1-2层就搞定,省下来的4-5层网络深度,全用来干更复杂的推理。

 

这就像给学生配了本字典,他不用每次遇到生字都去查部首、数笔画,省下来的时间可以用来思考更难的数学题。

 

四、记忆和计算的黄金比例

 

团队做了个有意思的实验:固定总参数量,在MoE专家和Engram记忆之间调配资源,看哪个比例效果最好。

 

结果画出了一条U型曲线:纯MoE不是最优解,把20%-25%的稀疏参数分给记忆模块时,模型表现最好。

 

这说明一个道理:记忆替代不了计算,计算也模拟不了记忆。两者得配合着来。

 

在27B参数规模的实验里,混合了Engram的模型,在几乎所有任务上都碾压同规模纯MoE模型。更夸张的是,当他们把记忆参数扩到40B时,模型还在持续进步,说明记忆容量还没到上限。

 

不得不说,DeepSeek这篇论文,将对大模型行业有重要的影响。在工程优化方面,中国科技团队确实已经遥遥领先了,相信在春节前后,全世界将会再次惊叹于DeepSeek V4,以及深度求索公司的超凡实力。

 

神秘的东方力量,再次震撼世界,让我们拭目以待。

免费教学更多>>

原来有人兜底的感觉真好,以后用天神之眼在城区也能放心 蔚来5月交付37,705台,同比增长62.3% 情侣买车预算卡死8到9万,要省心好开还要够智能,建议看看这几款 领克10系列如何让“快”不再是电车的唯一谈资? 深港澳大湾区车展“不弯”,合资车企的\"诺曼底时刻” 广汽智造×华为乾崑联合 启境首款SUV定名GX7 奥迪E7X上市:26.98万起重塑豪华纯电新体验 不止于快!领克10&10+登场,重构中大型纯电驾控新标准 北汽极狐X卓驭丨极狐问道V9上市,卓驭首款MPV正式登场 东风奕派M8亮相大湾区车展:满配华为六件套,家庭出行黄金标准 真七座+强智能+低油耗,2026款传祺M6 MAX 把家用 MPV 卷到新高度 沃尔沃EX90与ES90上市,纯电旗舰的“安全”底色与驾控诚意 12.99万起,还有智驾兜底,这是2026年最值得购买的B级插混SUV? 周末高速巡航,911和GranTurismo的3.9秒加速,差别在哪? 直降1.8万!吉利新车上市,标配AT胎+L2智驾,仅7.59万起能掀桌? 从外观、影像到交互:nova 16如何打动年轻人? 全新奥迪E7X上市,26.98万起,中大型纯电SUV,续航超751km Luce究竟是苹果的,还是法拉利的? 宋Ultra EV爆款之后,宋Ultra DM-i又要大红大紫的五大王炸 昨晚比亚迪开了发布会,有人都打瞌睡了,但友商连PPT都没法改了 既没有Pro也没有Promini,但vivoS60也搞元气版,价格2899起! 试驾2026款海狮05 DM-i,全能家用SUV的新标杆! Oura Ring 5智能戒指发布:机身更纤薄,新增血压追踪! 定了!创想三维明日上市,12周年新品齐发 南北大众罕见同台互赠T恤,不是作秀,是给混动用户一颗定心丸 启境这次不玩虚的,GX7命名公布:从“自己爽”到“全家嗨” 别克至境L7纯电版官方谍照,续航超700km,或20万左右 全场景MPV的新选择,新款红旗HQ9 PHEV体验全解读 9000mAh巨无霸!vivo新机5月27日开售,续航太离谱了 定档5月29日!vivo S60系列全面曝光,超大电池直接封神