COPU会议纪要丨2026.01.13

1月13日,陆主席主持召开COPU例会。
本次会议发布了“三评DeepSeek”文章,并对DeepSeek将在春节前后重磅发布DeepSeekV4、选择mHC(Emgram+mHC)全新架构、突破长编程能力、开启多模态的“信息动力学”,以及采用mHC架构的流行约束消除残差连接传输信息堵塞问题和传统超连接/残差连接传输信息混乱问题进行解释。
三评DeepSeek已由秘书处在网上发布,今天我不会宣读全文,主要解释DeepSeekv4、mHC、多模态、Agent时代、AGI等DeepSeek发展中的主要问题。
1.DeepSeek的重大贡献就是走出一条“低投入、高效率、高产出”发展AI的一条新路。自主开发的多头注意力架构MLA比当时常用的MHA,把显存降低了5-13%,并降低键值缓存开销。
MoE通过总数量中的动态激活部分参数量,可将计算量降低到一个很低百分比,约5%(1/20)
在混合专家模型MoE进行稀疏高效实现,通过大模型架构的专家总数中的每个token激活专家数,可将计算量降至一个更低的百分数,约3%(1/30)
这次将推出的流行约束超连接mHC新架构,可将计算量进一步降至一个更低的百分数约2%(1/50)
2.我在“一评DeepSeek”曾向他们建议考虑某些发展方向,在“二评DeepSeek”中提到他们研发中的不足;DeepSeek团队在研发多模态和研发通用人工智能方面晚了一步!这次梁文锋在推出DeepSeekV4和mHC时似乎作出了响应,他指出:梁文锋在谈到mHC时说,这次DeepSeek团队将开启多模态“信息动力学”的新范式。梁谈到他们已锁定AGI目标,要全力进军通用人工智能领域的这个目标,这为DeepSeek的发展指明了坚定方向。
(梁预测AGI可能在2~10年内实现)
在有人提出DeepSeek应该主抓应用,不要把力气放在研发AGI上,这种建议我当即提出批评,梁文锋也说DeepSeek团队不会过早设计基于模型的应用。
3.推动大模型的发展(扩大模型规模,提高其智能和性能)
有两种思路:
① 靠大模型外部要素,如不断增加参数量+算力(不断堆叠将达天花板)
② 靠大模型内部要素,如MoE改进参数的激发方式,提取效率要素,又如mHC架构就是改善在残差连接信道上传输信息的流动性,这是改变力量型的堆砌方式,为知识型、效率型、数学的、智慧的方式。
在单信息道残差连接上,由于信道狭窄,引起传输信息堵塞
在传统超连接上(扩大残差连接信道数量)在传输信息时又出现信息混乱现象。
采用mHC架构,改善大模型信息流动方式,即在超连接上给其多条残差连接信道中注入约束机制,约束其传输的信息进行有序流动。
所以也叫mHC是流动约束连接,可使大模型提高效率30-70%。
4.梁文锋宣布将在春节前后重磅发布DeepSeek V4(以mHC为其全新架构)
DeepSeek V4 的主要任务:
①大大发展编程能力(特别是突破长编程能力),使编程任务处理效率提高30%、代码生成准确率提高25%,争取超越Athropic的Claude和OpenAI GPT的编程能力
②全力发展多模态,通过研发“信息动力学”,创造多模态发展新时期
③以mHC全新架构支持大模型建立在效率上的大发展,特别提高扩大大模型和稳定性以及为发展通用人工智能进行预研。
④ 直指agent时代,重点放在写代码和处理编程任务上。
三评DeepSeek
陆首群,2026.1.3
评《Nature》杂志发布梁文锋为2025年度“科技颠覆者”
评梁文锋团队推出的“mHC全新架构”。
一、评科技颠覆者梁文锋,评DeepSeek模型架构进行颠覆性原创
《自然》杂志(Nature’s 10)发表2025年度十大人物出炉,其中表彰DeepSeek创始人梁文锋和该团队的作品DeepSeek为AI大模型创新颠覆者(即实现系统级创新,或0→1颠覆性原创),梁文锋简要的回复。他谈及:①中美在研发AI大模型方面差距有多少?②DeepSeek主要采取的颠覆性技术是什么?
当记者问:“中美AI差距到底有多大?”梁回答“表面上中国AI与美国比可能仅有一两年的技术代差,但真实的差距是原创和模仿之差,如果这个差距不改变,我国永远只能是追逐者,不能做颠覆者,所以有些探索是逃不掉的。”在谈到DeepSeek技术创新时,梁说:DeepSeek不是模仿,是0→1的原创,表现在“低成本、高效率、高产出”上。他举出由DeepSeek首创的多头注意力架构的MLA属原创,在谈到混合专家模型MoE时,MoE的概念在1991年就被提出,以后开始应用。
DeepSeek的贡献在于MoE稀疏化的高效实现(如动态激活参数降至5%),显著降低成本。有人怀疑,MLA不是DeepSeek首创的。对此,我在去年2月24日曾做过调查(已发布),证明MLA确实是DeepSeek的首创。
MLA是梁文锋团队于2023年在研发DeepSeekv2时首创的,当时硅谷首席分析师Semi Analysis和OpenAI的AI专家Andrew Carr均对此评价很高,认为这是惊人的智慧。
MLA相对于当时常用的MHA架构,把显存降低了5%~13%,并降低了键值缓存开销,DeepSeekv2仅用2000张低级显卡就实现媲美美企16000张顶级GPU的训练效能,打破了所谓高算力才能赢的范式。MoE通过大模型总参数量中的动态激活部分参数量,可将计算量降至全密集的一个很低百分比,约5%(1/20),或者,通过大模型架构包含的专家总数中每个token激活的专家数,可将计算量降至全密集的一个更低的百分比,约3%(1/30)。
DeepSeek大模型系列的训练成本与其他大模型的降比取决于DeepSeek模型计算量的降比。这里大模型的训练成本指的是一次性测试的理论训练成本,并不是实际训练成本。DeepSeek相对于其他对标的大模型在训练成本对比方面,其对比性缺乏对齐!但MoE+MLA大大降低训练成本,提高训练效率,是确实的!
上述理论计算量需叠加专家间通信开销和人力成本等才能构成实际计算量。
当然,DeepSeek还采取很多自创先进的核心技术:GRPO、DeepSeek-R1强化学习框架、开源生态等均属这类核心技术。如GRPO(Group Relative Policy Optimization)关于算法的技术,以减少训练资源的需求;DeepSeek-R1强化学习框架,以降低训练能耗;开源生态建设,引用《Nature’s 10》评说:梁团队推出DeepSeek-R1大语言模型,功能上与美国最顶尖的模型(包括ChatGPT提供支持的模型)不相上下,但其训练成本远低于其他公司的模型,更重要的是DeepSeek-R1是首先以开源权重形式发布的同类模型,不仅为全球科研人士提供了便利,也促使行业其他公司效仿,发布自己的开源模型。;STEM(在数学推导、代码生成、推理建模、工程突破、决策能力上表现突出)。
二、DeepSeek又一次底层创新,推出的mHC(Emgram+mHC)全新架构
梁文锋团队在新型神经网络(大脑皮层异步脉冲神经网络SNN)支持下的mHC架构基础上,于今年元旦在arXiv平台上,发表一篇名为《mHC:流行约束超连接的全新网络架构》论文(mHC:Manifold-Constrained Hyper-Connections)。
有人认为,在传统的残差连接狭窄的单信道上传输信息可能因堵塞影响到大模型运行的稳定,还有一些人认为,从目前顶尖的大模型运行表现来看,从未看到因残差连接信道堵塞影响到大模型的运行稳定,部分研究者关心的是,当模型规模向万亿参数甚至超大规模发展时,在残差连接上传输信息出现拥堵问题,或在传统超连接上传输信息出现混乱问题,影响到超大规模模型运行稳定时,如何提供一个解决方案?mHC似可为此提出解诀方案而努力。还有部分研究者关心,传统依靠增加参数和提高算力来提高大模型的智能/性能(特别是大模型工作在多模态状态时),这种途径已逼近天花板,研究者也开始注意到模型内部信息的流动方式。同时,学术界与产业界都在积极寻求通过底层架构的根本性创新来突破这一瓶颈,其中改善模型内部残差连接传输信息流动效率,被视为一个重要方向,而mHC架构正是为了改善残差连接传输信息流动方式的研究成果,这可能是一个探索AI发展前沿科学之一的问题。
mHC架构的核心是将超连接的残差连接矩阵,投影至双随机矩阵流行,并借助其天然半径为1的特性,从根源上遏止梯度的爆发,如果全架构重整和约束,可使大模型效率提高30~70%。
关于mHC架构也可用如下描述:为解决残差连接中传输的信息堵塞,和传统超连接中传输的信息混乱,梁文锋团队不走老路,采用几何流形投影方法(即mHC),把那些杂乱连接整理到一个几何结构(强制投影)上,治理在并行信道(超连接)信息传输时信号乱窜现象,使超连接传输变得有序,同时保持其性能显著增益,促使全球AI产业发生重大变化。
mHC架构是由解振达(Zhenda Xie)、韦毅轩(YiXuan Wei)和曹焕琦(HuanqiCao)共同运算完成,梁文锋也署名。这个设计并非追求参数规模或层数增加(即不追求单纯增加信道)。DeepSeek团队用数学重构AI底层架构,实行颠覆性创新。
应该指出,最近在报道大模型AI排行榜时,某些西方顶尖模型均在争排行第一。而DeepSeek-R1并未登场,似乎DeepSeek系列与上述西方顶尖品牌相比差距还拉大了!国内外有一些有识之士今天还在赞扬DeepSeek系列产品的颠覆性技术创造的价值!
可是不要忘记:上述西方顶尖品牌为在发展超大规模模型时,如还沿用残差连接的方式,可能导致其大模型在运行中变得不稳定,而DeepSeek将采用mHC架构,可确保其大模型稳定运行,这时谁能真正居于排行前列,可能还是未定之数。
本评论的某些项目尚缺乏引用论文、开源代码、基准测试等独立验证和透明资料,而依赖于某些信源,可能难以具备可验证和可复原的特性,其中也不免评论者的主观评价,本文作为技术进展的积极报导而非最终结论,仅供讨论参考。
【补充说明】:
梁文锋团队宣布DeepSeek v4将在春节前后重磅发布,但v4的架构是什么?他们没有说(虽然我们当时猜测可能是mHC)。最近梁文锋透露V4的架构选择mHC,这就明确了!他还谈到发展V4,关键是突破长编程能力(使编程任务处理效率提高30%,代码生成准确率提高25%,多模态交互延时降低40%),他还说将以mHC+OCR开启多模态“信息动力学”新模式。他说真正给V4代码能力背书的是2025《mHC:流行约束连接》的论文,选择mHC作为V4的架构是正确的,代码生成逻辑深、上下文跨度大,要消耗太多参数和网络结构,可传统超连接做大容易使信号增益失控,使训练直接崩溃。DeepSeek团队为了约束杂乱信号,用了mHC这个全新架构,产生了稳定有效的后果。
本次会议听取谭中意汇报“深化与沙特及中东地区开源合作”
2025年,是落实共建“一带一路”倡议与沙特“2030愿景”深入对接的关键年份,也是开源软件推进联盟(以下简称“联盟”或“COPU”)积极践行开源国际化战略,深化与中东地区,特别是与沙特阿拉伯王国开源生态合作取得突破性进展的一年。继2023年COPU首次参加沙特开源峰会 2023,2024年邀请沙特开源领袖参加COPU峰会 2024之后,2025年度,联盟紧密围绕国家数字经济发展与科技外交大局,以开源软件为纽带,成功组织并参与了两项具有里程碑意义的重大活动,有效推动了中国开源技术、项目与生态在中沙合作框架下的深度融合与务实落地。现将主要工作回顾如下:
一、主要工作与成果
(一) 成功参与2025年沙特开源峰会,精彩推介中国开源AI创新成果
2025年2月,联盟代表团应邀出席在沙特利雅得举办的“2025沙特开源峰会”(Saudi Open Source Summit 2025)。本次峰会主题为“驱动创新:加速数字未来”,是中东北非地区最具影响力的开源盛会之一。

1. 主题演讲,彰显中国AI开源实力: 联盟常务副秘书长谭中意在峰会主论坛发表了题为“DeepSeek 开源 AI:解锁未来”的专题演讲。演讲系统介绍了中国开源大模型项目DeepSeek的核心优势,包括其领先的混合专家(MoE)架构、卓越的性能表现以及相较于国际同类产品的显著成本优势(训练成本仅为GPT-4o的1/20,API成本为1/30)。演讲特别强调了DeepSeek采用MIT开源许可证所带来的开放性与普惠性,向国际开源社群清晰传递了中国在人工智能前沿领域坚持开放创新、贡献全球科技治理的坚定立场与发展模式。演讲引发了沙特、埃及、巴基斯坦等多国开发者的高度关注与热烈反响,为DeepSeek生态在中东地区的拓展奠定了良好基础。
2. 展示合作进展,夯实双边合作基础: 峰会期间,联盟代表还向与会国际同仁介绍了COPU与沙特程序员协会(Parmg)既有的合作成果,重点展示了双方联合成立的“AI桌面特别兴趣小组(SIG)”及其首个成果——基于deepin、集成DeepSeek能力的本地化AI桌面操作系统DEOMOS的开发进展。此举充分体现了中沙开源合作已从交流对话步入实质性的项目共建阶段,展示了开源协作在满足区域市场特定需求、促进数字基础设施建设的实际价值。
(二) 成功主办2025沙中开源与AI科技峰会,推动中沙开源生态共建迈入新阶段
2025年11月11日,由沙特程序员协会(Parmg)和COPU等单位联合组织的“2025沙中开源与AI科技峰会”在沙特利雅得国家创新孵化中心成功举办。此次峰会是继2月峰会后的又一次高层级、务实性合作推进,标志着中沙开源合作实现了从“战略握手”到“生态共筑”的进步。

1. 战略互信升级,建立高层协作新机制: 峰会取得了突破性制度成果。COPU与Parmg宣布实行高层“互聘顾问”,联盟常务副秘书长谭中意受聘为Parmg顾问,Parmg主席Eng. AbdulAziz AlOrai受聘为COPU顾问。这一举措极大地提升了双方的战略互信层级,为后续全方位、深层次的合作提供了坚实的顶层设计与沟通保障,开创了中外开源组织合作的新模式。
2. 聚焦核心领域,成立首个专业技术协作组: 双方共同宣布发起成立“中沙开源数据库特别兴趣小组(DB SIG)”。该SIG以开源数据库技术的深度协作、标准互鉴、人才共育和项目落地为宗旨,吸引了浪潮瀚高、中国PostgreSQL分会等中方核心力量作为首批成员。DB SIG的成立,是双方战略合作框架下首个聚焦具体技术领域的务实抓手,标志着合作进入了专业化、精细化、可交付的新阶段。
3. 持续推广生态,展示中国开源发展规模: 联盟代表在峰会上再次向沙特及国际业界介绍了DeepSeek项目自年初以来的最新技术进展与生态建设成就,强调“DeepSeek生态已实现规模化发展”,有力展现了中国开源AI社区强大的迭代能力与旺盛的生态活力,进一步增强了沙方与中国开源力量长期合作的信心。
4. 汇聚产业力量,搭建多元化交流平台: 峰会汇聚了浪潮、中兴、中国移动、openEuler、MindSpore等众多COPU成员单位及社区代表,与沙特本土科技力量同台交流,分享了中国在开源操作系统、AI框架、企业数字化等领域的产业化实践经验,实现了“中沙协同、经验互鉴”的峰会主旨。
二、工作意义与展望
2025年度两次重要活动的成功举办,具有深远的战略与实践意义:
其一,有力推动了中国优秀开源项目“走出去”。特别是DeepSeek大模型在国际舞台的亮相,展现了中国在AI开源领域的创新实力与开放态度,提升了中国开源的国际影响力。
其二,创新了国际合作模式。“互聘顾问”机制与“AI Desktop SIG“,”DB SIG”的建立,为国际开源协作提供了可复制、可深化的合作范式,将双边关系稳固在共同治理、共建生态的深层轨道上。
其三,紧密服务了国家战略与产业需求。活动有效对接了沙特数字化转型的市场需求,为中国开源软件企业、技术服务商进入中东市场搭建了官方与民间双重认可的桥梁,促进了数字丝绸之路的建设。
展望2026年,开源软件推进联盟将继续巩固和深化与沙特及中东地区开源同道的伙伴关系。计划积极组织成员单位参与2026年沙特开源峰会、LEAP科技展等重要活动,并筹办更高水平的“中沙开源峰会2026”。联盟将全力支持已成立的AI桌面SIG和DB SIG产出更多务实成果,并探讨在更多关键技术领域成立联合兴趣小组,持续将中沙开源合作推向纵深,为构建包容、活跃、共赢的全球开源生态贡献中国智慧与中国力量。联盟组建中国开源推进联盟国际创新中心,落地香港,将进一步服务中国开源创新企业出海中东沙特。
本次会议听取了木兰社区杨丽蕴的关于翻译《开源法律、政策与实践(第2版)》的汇报。

《开源法律、政策与实践(第2版)》(英文原名:Open Source Law, Policy and Practice)由国际知名开源法律专家Amanda Brock编著,木兰开源社区翻译。本书系统整合开源生态中的法律规则、政策导向与落地实践,兼具理论深度与实务指导价值。
全书以开源的哲学基础、方法论演进及商业逻辑为脉络,深入剖析开源社区的多元治理模式,以及其与企业战略的融合路径。在合规维度,本书针对主流开源许可证,详解其核心条款、适用场景与兼容性边界;同时结合软件物料清单标准,构建了可直接落地的合规管理操作框架。在开源标准化建设层面,本书立足开源标准制定的实践场景,重点分析标准制定过程中开源知识产权规则的适配要点,为技术团队与法务人员参与标准化工作提供了合规指引。针对企业实践需求,书中重点阐述开源项目办公室的建设逻辑,涵盖代码引入管控、贡献策略设计、全链路风险管理等实操要点。此外,本书覆盖开源与知识产权的交叉议题:既解析专利授权机制、商标使用边界、出口管制合规等核心风险点,也延伸至区块链协议的开源治理、开源硬件的许可挑战、开放数据与AI模型的法律适配等新兴领域,呈现开源一切(Open Everything)的行业前沿趋势。
本书清晰阐明开源并非无规则领域,而是一套结构严谨、规则明确的创新协作生态系统,作为具有国际视野的权威著作,《开源法律、政策与实践》为企业制定开源战略、构建合规体系、安全参与全球开源协作,提供了系统、可靠且可落地的专业指引。
本次会议发表英伟达CEO黄仁勋在“CES2026”上的主题演讲:
一、行业变革:双重平台转移与计算重构
大约每十到十五年,计算机行业就会经历一次重置。平台会发生一次根本性的转变,从大型机到个人电脑,再到互联网、云计算、移动设备。每一次,应用生态都会瞄准一个新的平台,这就是所谓的“平台转移”。但这一次,事实上,有两个平台转移在同时发生。
当我们迈向人工智能时代时,应用程序将构建在AI之上。起初,人们认为AI本身就是应用,事实也确实如此。但未来,你将要在AI之上构建应用程序。除此之外,软件的运行方式和开发方式也发生了根本性改变。
计算机工业的整个基础技术栈正在被重新发明。你不再“编程”软件,而是“训练”软件;你不再在CPU上运行它,而是在GPU上运行它。过去的应用程序是预先录制、预先编译并在你的设备上运行的,而现在的应用程序能够理解上下文,每一次、每一个像素、每一个token都是从零开始生成的。由于加速计算,由于人工智能,计算已经被彻底重塑。那个“五层蛋糕”(指技术栈)的每一层如今都在被重新发明。
这意味着,过去十年积累的价值约十万亿美元的计算机基础设施,现在正被现代化改造,以适应这种新的计算方式。每年有数千亿甚至上万亿美元的风险投资正在涌入,用于现代化改造和发明这个新世界。
这也意味着,一个百万亿美元规模的产业,其研发预算中有几个百分点正在转向人工智能。人们问钱从哪里来?这就是来源。从传统AI到现代AI的现代化改造,研发预算从经典方法转向现在的人工智能方法,海量投资正涌入这个行业,这解释了为什么我们如此忙碌。
二、2025年AI技术五大突破
过去这一年也不例外。2025年是不可思议的一年。似乎所有重大进展都同步发生——事实上,可能的确如此。让我们一同回顾这五项改变AI游戏规则的关键技术突破。
扩展定律持续有效
自2015年BERT模型崭露头角,到2017年Transformer架构诞生,再到2022年点燃全球的ChatGPT时刻,AI的发展在很大程度上遵循着一个核心定律:投入的计算资源越多,模型就越智能。
ChatGPT发布一年后,一个重要进展出现了——作为首个真正的推理模型,GPT O1引入了“测试时扩展”的概念。它将AI的学习与应用过程划分为三个阶段,每个阶段都需要巨大的计算能力,而扩展定律在每个阶段持续有效。
预训练:模型通过海量数据学习,获取基础知识。
后训练:通过强化学习等技术,模型学习特定技能,使其行为与人类期望对齐。
测试时扩展:一个更通俗的说法是“思考”。面对具体问题时,AI不再瞬间给出答案,而是可以花费更多时间进行实时推理,从而找到更优解。
AI走向智能体化
智能体系统的概念于2024年兴起,并在2025年迅速普及,这标志着AI角色的重大转变。AI不再仅仅是被动回答问题的工具,而是进化为能够主动执行复杂任务的“智能体”。这些智能体模型具备推理、获取信息、开展研究、使用工具、规划未来以及模拟结果的能力。我最喜爱的智能体模型之一是Cursor,它彻底改变了英伟达内部的软件编程方式。智能体系统将真正从这里腾飞。
物理AI实现飞跃
AI不仅在数字世界发展,也开始与物理世界深度融合。我将这种能够理解自然法则、并与物理世界互动的AI称为“物理AI”。我进一步区分了两个相关但不同的概念:
物理AI:指能够与物理世界交互的AI,例如控制机器人。
AI物理学:指能够理解物理世界规律的AI,例如学习流体力学、材料科学等。
AI学习自然法则
AI应用正深入基础科学领域,开始学习并理解物理世界的基本规律。在宇宙中存在信息和结构的任何地方,我们都可以教导模型去理解这些信息,解读其表征,并将其转化为AI的能力。这使得AI能够在生物学、化学、药物研发等领域,通过分析海量数据发现人类难以察觉的模式,从而加速科学发现。
开源模型达到前沿水平
去年发生的最重要事件之一,就是开源模型的显著进步。我们现在认识到,当开源、开放创新以及全球每个行业、每家公司的创新力被同时激活时,AI将无处不在。
事实上,去年我们见证了首个开源推理系统DeepSeek R1的进展。它令世界瞩目,如今全球已涌现出各种类型的开源模型系统。开源模型已达到前沿水平,虽然它们仍落后于最顶尖的模型大约六个月,但每隔六个月就有新模型出现,并且这些模型正变得越来越智能。
正因如此,我们看到开源模型的下载量呈爆炸式增长,因为初创公司、大型企业、研究人员、学生乃至几乎每个国家,都希望参与这场AI革命。智能——数字形式的智能——怎能将任何人拒之门外?因此,开源模型在去年真正变革了人工智能,整个行业也将因此而重塑。
三、Vera Rubin算力平台发布
今天,我怀着激动的心情宣布Vera Rubin平台——这是一场全栈革命,它打破了英伟达自己定下的规则:“任何新一代产品,都不应有超过一两款芯片的改动”。
在常规迭代中,当GPU更新时,其他芯片可以沿用或稍作修改。但Vera Rubin打破了这条规则——Vera CPU、Rubin GPU、NVLink 6交换机、ConnectX-9 Supernic、BlueField-4 DPU、Spectrum-X以太网光子交换机,这六款芯片全部重新设计,累计投入了相当于15000“工程师年”的工作量。
为何如此?摩尔定律已然放缓。Rubin的晶体管数量仅比Blackwell多1.6倍,但我们面临的却是模型规模每年增长10倍、生成标记数量增加5倍的压力。如果仅遵循常规的芯片迭代速度,我们完全无法跟上步伐。因此,在这一代产品上,我们别无选择,只能彻底重新设计每一颗芯片。
硬件架构与集成创新
Vera Rubin平台的硬件集成度达到了全新高度。全新的液冷计算托盘完全摒弃了电缆和软管,所有芯片通过定制基板紧密互联,将系统组装时间从数小时缩短至几分钟。每个托盘集成了2颗Vera CPU、4颗Rubin GPU、1颗BlueField-4 DPU和8颗ConnectX-9网卡,构成了一个100 Petaflops的AI计算单元。多个托盘通过NVLink交换机在单个机架内构成Rubin Pod,再通过Spectrum-X交换机在数据中心规模上实现横向扩展。每颗Rubin GPU由两颗物理GPU芯片通过封装内NVLink互联,其芯片间带宽较传统的多芯片设计提升了1.2倍。
上下文内存池突破
在演讲中,我花了大量篇幅阐述AI推理面临的独特挑战——不断增长的上下文记忆。随着模型支持更长的对话、存储更多的临时知识,传统的GPU高带宽内存已无法容纳。Vera Rubin的解决方案是:在每个机架内,通过四颗BlueField-4 DPU直接管理一个高达150TB的共享、持久、高速的上下文内存池。该内存池通过超低延迟的机架内网络(采用与GPU互联相同的技术)与所有GPU直连,可动态地为每个GPU分配高达16TB的专用上下文空间。这相当于为每个GPU配备了一个容量扩大16倍、且速度远超传统网络存储的“外部大脑”,从而彻底解决了长上下文AI应用的核心瓶颈。
能效与安全创新
尽管性能飙升,Vera Rubin平台仍坚持使用45摄氏度温水冷却,无需依赖高能耗的冷水机组。这一设计预计能为全球数据中心节省约6%的总电力消耗。Vera Rubin平台还首次实现了全路径硬件加密的机密计算。从GPU到GPU,从CPU到DPU,所有内部总线数据均经过加密,为多租户AI云服务提供了芯片级的安全隔离。此外,系统级的动态功率平滑技术能有效吸纳AI计算特有的瞬时功率尖峰,使数据中心能够以更接近平均功耗的容量来配置供电系统,避免了基础设施上的巨额过度投资。
量产与交付计划
今天,我十分高兴地宣布,Vera Rubin平台已进入全面量产阶段,并将于2026年下半年开始交付。Vera Rubin代表了极致的协同设计——六颗芯片完美协同工作,可实现相较于Blackwell平台5倍的推理性能和3.5倍的训练性能提升,同时将推理成本降至其十分之一。
四、物理AI核心技术与产品
机器人技术生态
物理人工智能指的是能够在物理世界中感知、推理并行动的AI。为加速其发展,我们推出了人形机器人系统Groot,该系统能够实现全身协调与端到端训练。
我们还发布了用于机器人学习与推理的全新NVIDIA Cosmos开放模型及数据,推出了用于机器人评估的Isaac Lab-Arena,以及简化机器人训练工作流程的Osmo端到云计算框架。从移动机械臂到人形机器人,波士顿动力、卡特彼勒、Franka Robotics、LG电子和Neura Robotics均首次推出了基于NVIDIA技术的全新AI驱动机器人。
人形机器人不再仅仅是实验室的演示品,而是具备了实际商业潜力的产品。通过数字孪生和仿真训练,大量机器人学习任务可在虚拟世界中完成,随后快速部署到现实场景,应用于制造、物流和服务业。随着成本持续下降和能力快速提升,机器人将像过去的个人电脑和智能手机一样,逐步走向普及,成为下一个万亿美元级市场。
自动驾驶AI:Alpamayo
在自动驾驶领域,我们推出了Alpamayo——全球首款具备推理能力的视觉-语言-动作模型,它能让汽车进行思考、推理并解释其决策。Alpamayo R1已开源,其仿真蓝图和数据集向所有汽车制造商开放。
Alpamayo将于2026年第一季度首次应用于梅赛德斯-奔驰CLA车型,提供增强型L2+级驾驶辅助功能。这是自动驾驶系统首次获得全面的安全认证,每一行代码都经过了可靠性验证。搭载Alpamayo的梅赛德斯-奔驰CLA已在拉斯维加斯完成了时速120公里的高速并线测试,证明了其在复杂驾驶场景下的可靠性能。我们将于2026年第一季度启动Robotaxi道路测试,我们的下一代车载计算平台Drive AGX Thor售价约为3500美元,这将使高性能自动驾驶技术更易普及。
物理AI三大技术支柱
今天,我们首次提出“物理AI”的三大技术支柱:
牛顿物理引擎:专为机器人设计,响应速度低于0.01秒,实现超高动态控制。
Cosmos基础模型:千亿参数规模,推理延迟仅1毫秒,破解实时决策难题。
混合算力架构:效率提升100倍,成本降低90%,重塑工厂自动化。
五、多领域开源模型矩阵
今天,我们将开放模型生态扩展至六大领域:智能体AI(Nemotron)、物理AI(Cosmos)、自动驾驶(Alpamayo)、医疗健康(Clara)、机器人技术(Groot)以及科学计算(Earth-2)。
生物医药与医疗:Clara
人工智能正在为医疗健康领域带来革命性变化。我们全新的Clara模型,包括用于蛋白质设计的La-Proteina和用于药物合成的Reasyn V2,可将药物发现周期缩短数年。Kermt能在研发早期预测药物相互作用,从而提升安全性并降低成本。OpenFold 3用于理解蛋白质结构;Evo 2用于理解和生成多种蛋白质;同时,我们还推出了开源细胞表征模型的雏形。
科学计算:Earth-2
Earth-2 AI是能够理解物理定律的人工智能。我们在ForecastNet和Cordiff方面的工作,真正改变了人们进行天气预报的方式。
智能体AI:Nemotron
Nemotron是我们当前进行开创性工作的领域。它是首个混合Transformer-SSM模型,速度惊人,因此既可以进行长时间思考,也可以快速思考。
开源数据与生态
我们不仅开源模型,更开源用于训练这些模型的数据。这包括10万亿个语言标记、50万条机器人轨迹、45.5万个蛋白质结构以及100TB的车辆传感器数据。若不清楚AI的来源,便无法真正信任它。
六、AI应用与产业落地
AI智能体正在改变我们的工作方式。在英伟达,我们使用Cursor来编写代码——它具备自主性、情境感知能力,并能对复杂问题进行推理。如今,我们不再仅仅是编写软件,更是在训练软件。我们正与ServiceNow、Snowflake、Palantir以及CrowdStrike合作,将AI智能体集成到他们的平台中。您的AI既可以高度定制化——学习您公司的独特技能——同时又能始终保持技术领先地位。
未来的“AI工厂”正在成形。Omniverse平台与机器人开发深度融合,实现虚拟训练闭环。Alpasim框架加速了机器人的学习与验证过程。人形机器人将主导物流、制造等领域。在汽车制造领域,优必选、特斯拉等公司已实现小批量部署,预计到2028年需求量将达到73.64万台。物流行业正通过智能化升级提升运营效率。杭叉集团、井松智能等头部企业已推出具备高负载、多场景适应能力的产品,预计到2028年需求量将达到5.91万台。在康养领域,松霖科技、三晖电气等企业正推动机器人在康复理疗、失能失智照护等场景的应用,其产品具备柔性力控、多维感知等技术优势。
结尾
人工智能的未来是物理化的。它关乎能够理解物理定律、与世界互动并让世界变得更美好的AI。我们正在打造实现这一愿景所需的工具、平台与生态系统。加速计算和人工智能已经从本质上重塑了计算。价值十万亿美元的传统计算基础设施正在进行现代化改造,数千亿美元的资金正涌入这场革命。开源模型激活了全球创新活力,而物理AI正将智能带到物理世界的每一个角落。机器人、自动驾驶汽车、医疗健康、科学研究——人工智能正在改变每一个行业。这场征程才刚刚开始——让我们携手共建。非常感谢大家!
参会人员:陆首群、章文嵩、谭中意、安泱、杨丽蕴、孟迎霞、张侃、宋可为、鞠东颖、刘澎(线上)、袁怿(线上)、陈道清(线上)、胡宇(线上)、韩宪平(线上)、Anna.AI(线上)。
