COPU会议纪要丨2026.02.03

2月3日, 陆主席主持召开COPU例会。
一、 会上发表了《中国AI大模型崛起之旅》和DeepSeek 颠覆性开发AI大模型。
中国AI大模型崛起之旅
(DeepSeek 颠覆性开发AI大模型)
陆首群 2026.1.29
2024年12月、2025年1月,DeepSeek相继发布DeepSeek-v3和DeepSeek-R1,走出了一条“低成本、高效率、高产出”AI发展新路径,震惊硅谷(当时的《Nature》杂志刊载DeepSeek R1)。
2025年11月COPU转发了美国硅谷发表的一篇文章:“硅谷大厂集体‘倒戈’起用中国大模型”,文中历数DeepSeek、Qwen、Kimi、GLM等中国开源四大模型,受到硅谷大厂“倒戈”选用的青睐。日本《经济新闻》报道:通义千问大模型Qwen已成为日本二次开发本土AI大模型的基座。 DeepSeek最近发布的OCR2,Kimi推出的K2.5,通义千问推出的Qwen3-Max-Thinking和智谱最近发布的GLM-4.7,多项开源的性能指标已超越OpenAI的GPT-5.2、谷歌的Gemini 3pro和Anthropic的 Claude Sonnet4.5这些顶尖的闭源模型。
近来除中国上述开源四大模型崛起外,字节豆包、腾讯混元、MiniMax、百度文心、蚂蚁百灵也已全面开源,部分开源,开、闭源二元配置和主题闭源的范式相继崛起,并开始冲击国际排行榜前列的位置。
中国开源大模型“领头雁”DeepSeek已经制定第二波对AI大模型进行颠覆性开发和创新高潮,论文于去年年底发表在先,实物成果拟于今年2月发布。
2025年是中国开源AI大模型发展关键性的一年,各厂商在技术迭代的技术能力上,头部模型已接近国际一流水平,性价比更是超一流的;在商业化上,企业级应用成为主要收入来源,云端API和订阅服务快速增长;在生态上,开源策略与行业合作成为差异化竞争的焦点。它正在改写全球AI大模型的市场版图,已拿下全球15%的市场份额(而一年前的2024年,其市场份额只有1%)。除占领国内市场外,在美国,一批硅谷大厂集体“倒戈”起用中国的开源AI大模型;在日本,选择中国的开源AI大模型作为基座进行二次开发,以发展日本本土的开源大模型;中国开源大模型并将市场触角延伸向中东和发展中国家。
目前中国AI开源大模型处于什么发展水平?国际上的共识是中国AI大模型开始登上全球发展的前列,正在从“外围追赶者”提升为“平行竞争者”,在开发某些核心技术上,如最近《Nature》杂志在封面报道:DeepSeek的梁文峰成为科技颠覆创新者的角色!
谈到中美发展AI的差距,梁文锋认为:中国AI与美国可能仅有一两年的技术代差,但真实差距是原创和模仿之差。
最近英伟达创始人兼CEO黄仁勋谈到中美开发的AI大模型的差距时大约6个月,但中国(尤其是华为)发展很快。斯坦福大学发布的《2025年人工智能指数报告》显示:中美在AI大模型的性能差距已经缩小到仅仅0.3%!在报告中还指出:中国开发的大模型发展这么快,得益于他们的开源路线(自2002年以来已开源了200多款模型)。谷歌的AI企业DeepMind的联合创始人兼CEO Demis Hassabai说,中国的AI模型和美国的差距就差几个月,他还列举斯坦福2025年12月发布的《AI指数报告》,中美顶级AI模型的性能差距从2023年的17.5%一路缩小到2025年的0.3%。
全球AI行业“年度风向标”《State of AI Report 2025》首次将“中国AI体系”从“外围追赶者”提升为“平行竞争者”。
说到硅谷大厂“倒戈”选用中国开源AI大模型的例子,简述如下:
2025年10月22日,美国Airbnb CEO Brian Chesky在接受采访中说,Airbnb的客户AI由13个模型组成,并且公司很大程度上依赖阿里巴巴的Qwen,因为Qwen比OpenAI的产品更好更便宜。
在11月,硅谷著名“投资人(Soual Capital)公司”的创始人Windsurf说,他们这家头部公司选择AI编程产品,近期选上了新的神秘模型。是专门为了提高速度和Agentic而设计的模型,这家美国公司选用了GLM4.6模型。
Chamath Palihapitiya直言不讳道:我们在Groq上已经开始用Kimi-k2了,open AI和Anthropic的模型虽好,但太贵了!
面对美国大厂纷纷倒戈,起用中国大模型的现状,有一位知名的AI研究者尖锐提问:“硅谷是建立在通义千问之上的吗?”这背后是越来越多的美国企业不再掩饰使用中国AI事实的事。
中国AI大模型正在加速占领美国市场。
爱彼得CEO表态最具代表性,他直接指出通义千问Qwen“更好更便宜”的核心优势。这种认可,是在硅谷高层中弥漫开来。
去年5月英伟达CEO黄仁勋在财报电话会议上点名表示:“阿里通义千问的模型是开源AI模型中最好的。推特联合创始人杰克·多尔西发文点赞了Qwen系列的代码模型Qwen-3-Coder。甚至马斯克(Elon Musk)在看到基于通义万向Wam2.2训练生成的图片后,也表示效果很好。这种影响真正转化为实打实的商业之用。
电商巨头亚马逊被爆在其机器人操控系统中采用阿里通义千问模型。在研究者工具和平台层,智谱GLM的渗透同样迅速!更重磅的价值93亿美元的美国公司Vercel近日宣布已与智谱达成合作,在其平台上提供GLM-4.6的API服务。其老板Guillermo Rauch更是转发称赞GLM 4.6很好(在http://nextis.org/evals 上排名第三,还是前五名里唯一做开源的)。
2025年12月10日,DeepSeek创始人梁文锋入选著名《Nature》杂志封面并受到“年度十大人物”(之一)“科技颠覆者”的表彰。表彰他率领团队进行DeepSeek系统性原创,对AI发展具有0→1颠覆性开发的性质。
2024年底~2025年初,梁文锋团队相继发布了DeepSeek v3和DeepSeek-R1,这时他们以对AI发展颠覆者的创新姿态,提出了一条“低成本、高效率、高产出”发展AI的新路径,震惊硅谷。当时他们开发了一批颠覆性的核心技术和infra,特别采用了MLA和MoE。具有高效推理能力的多头潜在注意力结构(MLA)是他们的原创,与原来标准的MHA架构比,可把显存占用率降低5%~13%,并可减少链值缓存开销,提高大模型运行效率。
混合专家模型MoE并非他们首创(早在1991年便有人提出了MoE概念),DeepSeek对MoE最大的贡献在于使MoE基于异步脉冲生物神经网络(SNN),并对MoE稀疏化的高度实现。
DeepSeek采用MLA+MoE的核心技术,可大大提高AI大模型的训练效率,以及大大减少其训练成本,从而使其开发的AI大模型产生“低成本、高效率、高产出”那样大幅提高大模型性价比的爆发性开发成果。
特别是实现稀疏化结构的MoE,其减少计算量(导致减少训练成本)的效果还在不断发展中:在激化参数量的情况下,可将其计算量下降至5%或1/20,在激化专家系统情况下,可将其计算量下降至更低的3%或1/30。
随着生成式自回归语言大模型规模化发展(可能出现超大规模的模型),西方传统的建模方式是堆叠万亿token(或更多)参数而导致资源(能源、资金、参数、算力)供应无限增长,出现难以为继的状态,在2025年底至2026年初(至2月),梁文锋DeepSeek团队掀起以“减供、增效、高产出”为目标的第二波 对AI颠覆性创新高潮。
1)他们提出以“流行约束”机制为核心的mHC新架构,使在残差连接和在超链接中传输的信息有序流动,解决在残差连接中信息堵塞、在超链接中信息混乱现象,确保大模型(尤其是特大模型)运行稳定。
2)他们基于异步脉冲类脑神经网络中连结在一起的计算模块和记忆模块强行将记忆模块剥离出来,建立“条件记忆”机制(及Engram架构),Engram相当于给大模型装上一个可扩展的像字典那样外挂记忆库模块,把记忆交给外挂专用模块,并开辟第二条稀疏化路线,凭借哈希检索与上下文门控核心技术,实现静态知识0(1)高效查表,破解N-gram存储爆炸难题,还可以节省算力,提高大模型信息查询快速反应能力。这时条件记忆的MoE+条件计算的MoE,将以更低成本、更高效率、更高产出面世,发展动态路由MoE,可将大模型的计算量降至2%~1.7%或1/50~1/60,不但更大幅度降低训练成本,而且还提高了大模型的产出(提高其推理能力和运行稳定性),还解决了Transformer信号衰减问题。
3)开发OCR-2。OCR也是DeepSeek技术路线的延伸,它将改变人类与机器打交道方式,它正在向全模态前进,可用以处理非结构文本。对于OCR-2,用极少token(如256个token)可读懂复杂文档中的图形、表格、数学公式,甚至还能理解声音、视频的内容,并能自动化编辑,将全部内容按需对其项目进行优先排队。
4)开发MODEL1。其实由DeepSeek的官方GitHub仓库推出的MODEL1也是DeepSeek技术路线的延伸,MODEL-1这波操作,不仅凸显中美AI竞争路径的分野,更是重塑全球产业与资本对智能技术的价值认知。
全球AI领域长期被美国发展全能型大模型主导,不拘企业能力大小,资源供给状况如何?生产能力如何?技术攻关能力如何?如何突破场景落地?未来同质商业竞争态势如何?以及预测未来企业可能出现的发展前景如何?一味追求全模态、全场景、全能型大模型的单一模式。
MODEL1建议广大中小企业、独角兽式智能化初始企业可利用极少数开源企业的大模型基座的优势进行本地化专业化二次开发,发展不同行业的垂直模型,发扬专业化协作,抓好在模型训练和运行中的效率、效益问题(解决大模型推理内存高效率低的痛点),降低在建模中的大量资源(能源、资金、参数、算力)消耗,开展差异化竞赛/竞争,解决企业成本高企和推理落地模糊等难题。
据DeepSeek透露的一些信息来看,其推出的MODEL1藏于更新的114个Flash MLA文件中,其重构底层架构依托其独创的Flash MLA算法构建核心算力、聚焦长文本处理,优化键值缓存,支持两层稀疏MoE机制,支持FP8解码,可高效应对文档理解、代码分析等复杂任务,精准匹配一些行业的刚需场景,契合2026AI行业从“拼参数”到“拼推理落地”的趋势。DeepSeek欢迎有关中企合作借鉴。
国内字节豆包、腾讯混元、MiniMax、百度文心、蚂蚁百灵的崛起
2025年是中国大模型竞相崛起的关键年份。除我们过去广为介绍的大模型:深度求索的DeepSeek系列、阿里通义千问的Qwen系列、月之暗面的Kimi系列、智谱的GMP系列,正在顺利发展中,并在国内外AI市场上与同行的顶级大模型竞争全球排榜的前列位置外,去年以来,国内字节豆包(Dou bao)、腾讯混元(Hun yuan)、Minimax、百度文心(ERNIE)、蚂蚁百灵(Ling & Ring)也相继崛起。
对五大模型简要综评
技术层面:各模型在多模态、Agent能力、推理效率上持续突破,技术差距逐渐缩小,在原生全模态(百度)、混合专家架构(腾讯、MiniMax)、编码能力(智谱)上形成差异化竞争。
商业化层面:企业级应用成为主要收入来源,云端API服务快速增长。
生态层面:开源策略分化明显,智谱、MiniMax 开源,百度开源/闭源二元配置,生态完善,腾讯相对保守,字节生态封闭但流量强大。
挑战共性:所有厂商均面临算力成本高企、盈利压力大、国际竞争加剧等问题。未来竞争将从单一模型能力转向“技术+生态+商业化”的综合实力比拼。
各模型平台发展概述
字节豆包:在多模态、Agent能力和视频生成方面大幅升级,日均Token使用量突破50万亿,多模态agent能力突出,在Browser Comp等智能体测评中全球领先,C端流量优势明显,依托抖音、今日头条等超级APP,月活用户超1.5亿,支持256K上下文窗口。
腾讯混元:混元图像3.0在文生图榜单排名第一,3D生成模型在多项任务中领先。生态协同优势:深度绑定微信,覆盖超10亿用户潜在需求。
MiniMax:MiniMax-M2在Artificial Analysis榜单上占全球前五、开源第一。在编码能力、Agent表现上实现突破,算法创新领先,编码能力突出,在SWE bench、live code bench等编程评测中达到开源SOTA水平。
百度文心:文心大模型5.0在LMarena文本排行榜排名全球第二,国内第一。全栈技术自主可控,从芯片(昆仑芯)、框架(飞浆)到模型的全链路布局。
蚂蚁百灵:蚂蚁集团开发的Ring-1T大模型是全球首个开源的万亿参数级的思考模型,在1T级总参数量、50B激活参数量的Ling-1T-base基座上进行训练,支持128k上下文窗口,开源。
二、应开放代理式人工智能基金会的请求:希望COPU秘书处代发我们(OAAIF)成立的简报如下:
开放代理式人工智能基金会(OAAIF)正式成立:推动智能体时代开放协作与生态共建
01.背景
模型到智能体的AI重塑
02.分析
智能体生态的结构性风险
03.选择
开源与开放协作是必然
04.成立
OAAIF应运而生
05.共建
欢迎你的加入
06.鸣谢
发起与支持机构
参会人员:陆首群、陈伟、宋可为、袁怿、张侃、安泱、章文嵩、王珊、谭中意、孟迎霞、鞠东颖、刘澎(线上)、陈钟(线上)、陈道清(线上)、陈越(线上)、靳虹博(线上)、程海旭(线上)、胡宇(线上)、韩宪平(线上)、Anna.AI(线上)。
