开源通讯

COPU会议纪要丨2026.01.06

2026-01-07 10:26:10 12
0106-1.png
0106-2.png
  • 元月6日,陆主席主持召开COPU例会。

本次会议先发布三评DeepSeek;即评《Nature》杂志发布梁文锋2025年度科技颠覆者、并评DeepSeek模型架构是否是颠覆性原创;评梁文锋团队在元旦推出“mHC全新架构


  • 下面发表三评DeepSeek文章

三评DeepSeek

陆首群2026.1.3

评《Nature》杂志发布梁文锋为2025年度科技颠覆者

评梁文锋团队推出的mHC全新架构”

一、评科技颠覆者梁文锋DeepSeek模型架构进行颠覆性原创

《自然》杂志Natures 10发表2025年度十大人物出炉,其中表彰DeepSeek创始人梁文锋和该团队的作品DeepSeekAI大模型创新颠覆者(即实现系统级创新,0→1颠覆性原创),梁文锋简要的回复。他谈及:中美在研发AI大模型方面差距有多少?DeepSeek主要采取的颠覆性技术是什么?

当记者问:中美AI差距到底有多大?梁毫不避讳一针见血地回答表面上中国AI与美国比可能仅有一两年的技术代差,但真实的差距是原创和模仿之差,如果这个差距不改变,我国永远只能是追逐者,不能做颠覆者,所以有些探索是逃不掉的。在谈到DeepSeek技术创新时,梁说:DeepSeek不是模仿,是0→1的原创,表现在低成本、高效率、高产出上。他举出由DeepSeek首创的多头注意力架构的MLA属原创,混合专家模型MoE的概念在1991年就被人提出,以后开始应用,DeepSeek的贡献在于MoE稀疏化的高效实现(如动态激活参数降至5%),显著降低成本。有人怀疑,MLA不是DeepSeek首创的。对此,我在今年224日曾过调查已发布,证明MLA确实是DeepSeek的首创。

MLA,是梁文锋团队于2023年在研发DeepSeekv2时首创的,当时硅谷首席分析师Semi AnalysisOpenAIAI专家Andrew Carr均对此评价很高,认为这是惊人的智慧。

MLA相对于当时常用的MHA架构,把显存降低了5%13%并降低了键值缓存开销,DeepSeekv2仅用2000张次品显卡就实现媲美美企16000张顶级GPU的训练效能,打破了西方高算力才能赢的范式。MLA在同类高效注意力机制中是一种创新实现。

MoE通过在大模型参数量中动态激活部分参数量,可将计算量降至全密集的一个很低的百分比5%,大大降低训练成本。DeepSeek通过MoE+MLA降低成本属实。

DeepSeekv3为例,其参数为671B,每次推理仅激活37B参数,其理论计算激活参数量/总参数量=37B激活/671B总)=5.5%1/18,实际计算量需叠加专家间通信开销DeepSeekv3的训练成本为560美元,对标GPT-4,其训练成本为7800万美元,DeepSeekv3的训练成本为GPT7%1/12

再举一例:DeepSeek-R1,其训练成本为600万美元,对标GPT-4o其训练成本为1.2亿美元,DeepSeek-R1的训练成本为GPT-4o5%1/20

MoE激活参数量和激活专家系统两种方式,DeepSeekv3参数671B为例采用MoE架构中FP8混合精度训练模型架构包含256位专家,其中每个token激活或分配8专家),这时激活参数量MoE的理论计算量为:37B激活/671B总)=5.5%( 1/185%( 1/20,而激活专家系统MoE的理论计算量为8/256=3%( 1/30,训练成本更少。

当然,DeepSeek还采取很多自创先进的核心技术:GRPO、DeepSeek-R1强化学习框架、开源生态等均属这类核心技术。GRPO(Group Relative Policy Optimization关于算法的技术,以减少训练资源的需求;DeepSeek-R1强化学习框架,以降低训练能耗开源生态建设引用Natures 10》评梁团队推出DeepSeek-R1大语言模型,功能上与美国最顶尖的模型包括ChatGPT提供支持的模型不相上下,但其训练成本远低于其他公司的模型,更重要的是DeepSeek-R1是首先以开源权重形式发布的同类模型,不仅为全球科研人士提供了便利,也促使行业其他公司效仿,发布自己的开源模型。;STEM在数学推导、代码生成推理建模、工程突破、决策能力上表现突出)。

二、评梁文锋团队推出mHC全新架构

梁文锋团队在新型神经网络(大脑皮层异步脉冲神经网络SNN)支持下的mHC架构基础上,于今年元旦在arXiv平台上,发表一篇名为《mHC:流行约束超连接的全新网络架构》论文mHCManifold-Constrained Hyper-Connections)。

2015年以来,困扰AI行业10年,在大模型训练中常见的信息在残差连接的单信道上传输,穿越各层信息平台时将出现堵塞现象。

为解决在狭窄的单信道上传输信息堵塞,以往曾采取增加信道数量的传统超连接的方法,结果反而引起信息混乱现象,导致超连接结构梯度崩溃,显存压力过大,使模型变得很不稳定。

梁文锋团队研发的mHC架构,用以解决残差连接对在狭窄的单信道上出现传输堵塞问题,并解决单纯增加信道的传统超连接在传输中出现信息混乱问题。mHC架构的核心是将超连接的残差连接矩阵,投影至双随机矩阵流形,并借助其天然半径为1的特性,从根源上遏止梯度的爆发,如果对全架构重整与约束,可使大模型效率提高30~70%

关于mHC架构也可用如下描述:为解决残差连接中传输的信息堵塞,和传统超连接中传输的信息混乱,梁文锋团队不走老路,采用几何流形投影方法(即mHC),把那些杂乱连接整理到一个几何结构(强制投影)上,治理在并行信道(超连接)信息传输时信号乱窜现象,使超连接传输变得有序,同时保持其性能显著增益,促使全球AI产业发生重大变化。

mHC架构是由解振达(Zhenda Xie)、韦毅轩(YiXuan Wei)和曹焕琦(HuanqCao)共同运算完成,梁文锋也署名。这个设计并非追求参数规模层数增加(即不追求单纯增加信道)DeepSeek团队用数学重构AI底层架构,他们的底层创新可能已把握下一代通用人工智能AGI的钥匙。

应该指出,最近在报道大模型AI排行榜时,西方顶尖模型均在争第一。而DeepSeek-R1并未登场,似乎DeepSeek系列与上述美顶尖品牌相比差距还拉大了!国内外有一些有识之士今天还在赞扬DeepSeek系列产品的颠覆性技术创造的价值!

不要忘记:上述西方顶尖品牌10年来至今还沿用残差连接的方式,可能导致其大模型变得不稳定,DeepSeek将采用mHC架构,确保其大模型稳定运行,这时谁能真正居于排行前列可能还是未定之数。

本评论的某些项目尚缺引用论文、开源代码、基准测试等可验证资料,而依赖于某些信源,其中也不免评论者的主观评价,本评论仅供讨论参考。


  • 下面在COPU例会范围内传达梁文锋最近发表的一些言论

主要谈中美在发展AI方面的差距,中国如何与美国在AI方面竞争,DeepSeek发展AI的目标

摘录梁文锋一些言论

陆首群,2026.1.4

2026.1.2今日头条(发现)》刊登,仅在COPU例会上传达

这些言论与我在DeepSeek两文中的很多观点建议吻合

  • 谈到中国AI落后于美国的原因

有人认为:因为显卡被禁,算力不足等硬件原因

梁认为:根本原因是缺乏信心和不知道如何组织人才进行有效创新。

创新首先是一个信念问题。DeepSeek选择了开源,这是一种具有大格局的做法。

英伟达的领先,是整个西方技术、社区和产业共同努力的结果,中国AI要发展,也需要建立自己的技术生态,只有大家共同努力,才能推动整个行业的发展。

  • 在谈到中国AI如何与美国进行竞争?

梁认为:中国AI表面上可能仅有一两年的技术代差,但实质上的差距是原创和模仿之差,真正差距不是一两年。

梁团队在AI模型底层架构上曾进行一系列颠覆性创新原创能力,与行业内普遍采用的主流架构不同。

今年元旦梁文锋团队发布AI大模型底层原创的“mHC全新架构,以解决10年来顶级AI大模型一直沿用的在残差连接上出现信息传输堵塞而导致大模型运行不稳定问题;也解决在传统的超连接出现信息传输混乱,导致大模型运行不稳定问题。

梁提出:我们要保护自己的好奇心,这是人类独有的特质,它能驱使我们不断地探索未知,发现新的机会。

  • 在谈到如何颠覆硅谷的干货?

梁提出DeepSeek锁定通用人工智能(AGI)的目标。要全力进军通用人工智能领域,这一目标为DeepSeek发展指明了坚定的方向。

他认为,语言大模型是通往AGI的必经之路,已初步具备AGI的特征。

当下热门的AI应用,无论是智能对话,还是文本创作,背后都离不开语言模型的强大支持。DeepSeek暂不涉足应用,DeepSeek不会过早地去设计基于模型的应用。

预测:通用人工智能AGI可能在今后2~10年内实现。

他押注数学和代码、多模态、自然语言本身这三个方向上。

  • 在谈到算力意识觉醒时,

梁认为2012AlexNet带来的冲击开启了一个新时代,尤其是2020OpenAI发布GPT-3后,我们意识到需要大量算力(为技术研究提供强大的动力),没有足够的算力,再好的算法也以高速运行。

  • 在谈到高新技术的护城河问题时,

梁认为,在颠覆技术面前,闭源形成的护城河是短暂的,应把价值沉淀在团队那样的组织上,团队是最好的护城河。摒弃KPI


  • 下面摘录施密特与李飞飞最近一次硅谷对话,他们讨论了5问题。

最近谷歌前CEO施密特与斯坦大学AI大师李飞飞进行了一次硅谷对话

讨论AI真正的发展方向,影响未来10年的AI研究课题

在双方对话中擦出了强烈的火花,可说是火花四溅!

他们讨论了5个课题,简录如下:

1.AI人们想象的那么

施:AI发展很快,目前人类正在创造超级人工智能(ASI······

李:AI在记忆、计算、语言上很强,超越人类,但AI不会发现规律,不能创造知识,只能模仿知识,不会发现牛顿定律。

2.机器离成熟还要走很长的路

李:机器人要做到像人类那样的身段,起码还要10年以上。目前机器人只能完成抓杯子、上楼梯那样简单的动作,就这样的简单动作也需要上百个自由度。

3.AI使底线更低、使上线更远

李:AI底线是为人类大众服务,起点公平、底线平权,AI上线将放大差距、不平等,不是每个人都有机会,只有掌握技术和算力的人才能做到。

4.人类财富差距将拉大

李:只有拥有技术和工具的人才拥有世界变得更大更强,不是分蛋糕而是重新定义烤蛋糕,赢家通吃!

5.AI必须以人类为中心,理解人类、服务人类,而不取代人类。

施:AI发展愈来愈像人类,真假难分

李:除非我们(人类)要放弃在地球上存在人类这个物种,否则AI不会消灭人类。


参会人员:陆首群、宋可为、陈越、安泱、谭中意、王珊、孟迎霞、唐小引、张侃、鞠东颖、陈钟(线上)、陈伟(线上)、陈道清(线上)、程海旭(线上)、胡宇(线上)、隆云滔(线上)、Anna.AI(线上)。

图片关键词


首页
秘书处
开源通讯
开源活动