开源通讯

COPU会议纪要丨2026.02.03

2026-02-09 14:32:57 79

图片关键词

23日, 陆主席主持召开COPU例会。

一、 会上发表了《中国AI大模型崛起之旅》和DeepSeek 颠覆性开发AI大模型。

中国AI大模型崛起之旅

DeepSeek 颠覆性开发AI大模型)

陆首群 2026.1.29

202412月、20251月,DeepSeek相继发布DeepSeek-v3DeepSeek-R1,走出了一条低成本、高效率、高产出”AI发展新路径,震惊硅谷(当时的《Nature》杂志刊载DeepSeek R1)。

202511COPU转发了美国硅谷发表的一篇文章:硅谷大厂集体倒戈起用中国大模型,文中历数DeepSeekQwenKimiGLM等中国开源四大模型,受到硅谷大厂倒戈选用的青睐日本《经济新闻》报道通义千问大模型Qwen已成为日本二次开发本土AI大模型的基座。 DeepSeek最近发布的OCR2Kimi推出的K2.5,通义千问推出的Qwen3-Max-Thinking和智谱最近发布的GLM-4.7,多项开源的性能指标已超越OpenAIGPT-5.2、谷歌的Gemini 3proAnthropic的 Claude Sonnet4.5这些顶尖的闭源模型。

近来除中国上述开源四大模型崛起外,字节豆包、腾讯混元、MiniMax、百度文心、蚂蚁百灵全面开源,部分开源,开、闭源二元配置和主题闭源的范式相继崛起,并开始冲击国际排行榜前列的位置。

中国开源大模型“领头雁”DeepSeek已经制定第二波AI大模型进行颠覆性开发和创新高潮,论文于去年年底发表在先,实物成果拟于今年2月发布。

2025年是中国开源AI大模型发展关键性的一年,各厂商在技术迭代的技术能力上,头部模型已接近国际一流水平,性价比更是超一流的;在商业化上,企业级应用成为主要收入来源,云端API和订阅服务快速增长;在生态上,开源策略与行业合作成为差异化竞争焦点。正在改写全球AI大模型的市场版图,已拿下全球15%的市场份额(而一年前2024年,其市场份额只有1%)。除占领国内市场外,在美国,一批硅谷大厂集体倒戈起用中国的开源AI大模型;在日本,选择中国的开源AI大模型作为基座进行二次开发,以发展日本本土的开源大模型;中国开源大模型并将市场触角延伸向中东和发展中国家。

目前中国AI开源大模型处于什么发展水平?国际共识中国AI大模型开始登上全球发展前列,正在外围追赶者提升平行竞争者,在开发某些核心技术上,如最近《Nature》杂志在封面报道:DeepSeek的梁文峰成为科技颠覆创新者的角色!

谈到中美发展AI的差距,梁文锋认为中国AI与美国可能仅有一两年的技术代差,但真实差距是原创和模仿之差。

最近英伟达创始人兼CEO黄仁勋谈到开发的AI大模型的差距时大约6个月,但中国(尤其是华为)发展很快。斯坦福大学发布的《2025年人工智能指数报告》显示:中美在AI大模型的性能差距已经缩小到仅仅0.3%在报告中还指出:中国开发的大模型发展这么快,得益于他们的开源路线(自2002年以来已开源200款模型)。谷歌AI企业DeepMind联合创始人兼CEO Demis Hassabai说,中国的AI模型和美国的差距就差几个月,他还列举斯坦福202512月发布的《AI指数报告》,中美顶级AI模型的性能差距从2023年的17.5%一路缩小到2025年的0.3%

全球AI行业年度风向标State of AI Report 2025首次将中国AI体系外围追赶者提升为平行竞争者

到硅谷大厂倒戈选用中国开源AI大模型的例子,简述如下:

20251022日,美国Airbnb CEO Brian Chesky在接受采访中Airbnb的客户AI13个模型组成,并且公司很大程度上依赖阿里巴巴的Qwen,因为QwenOpenAI产品好更便宜

11月,硅谷著名投资Soual Capital公司创始人Windsurf说,他们这家头部公司选择AI编程产品近期选上了新的神秘模型。是专门为了提高速度和Agentic而设计的模型,这家美国公司选用了GLM4.6模型。

Chamath Palihapitiya直言不讳道:我们在Groq上已经开始Kimi-k2了,open AIAnthropic的模型虽好,但太贵了!

面对美国大厂纷纷倒戈,起用中国大模型的现状,一位知名的AI研究者尖锐提问:“硅谷是建立在通义千问之上的吗?”这背后是越来越多的美国企业不再掩饰使用中国AI事实的事。

中国AI大模型正在加速占领美国市场。

爱彼得CEO表态最具代表性,他直接指出通义千问Qwen“更好更便宜的核心优势。这种认可,是在硅谷高层中弥漫开来

5月英伟达CEO黄仁勋在财报电话会议上点名表示:阿里通义千问模型是开源AI模型中最好的推特联合创始人杰克·多尔西发文点赞了Qwen系列的代码模型Qwen-3-Coder。甚至马斯克Elon Musk在看到基于通义万向Wam2.2训练生成的图片后,也表示效果很好。这种影响真正转化为实打实的商业之用。

电商巨头亚马逊被爆在其机器人操控系统中采用阿里通义千问模型。在研究者工具和平台层,智谱GLM的渗透同样迅速更重磅的价值93亿美元的美国公司Vercel近日宣布已与智谱达成合作在其平台上提供GLM-4.6API服务。其老板Guillermo Rauch更是转发称赞GLM 4.6很好http://nextis.org/evals 上排名第三,还是前五名里唯一开源的

20251210日,DeepSeek创始人梁文锋入选著名《Nature》杂志封面并受到年度十大人物(之一)科技颠覆者的表彰。表彰他率领团队进行DeepSeek系统性原创,对AI发展具有0→1颠覆性开发的性质。

2024年底2025年初,梁文锋团队相继发布了DeepSeek v3DeepSeek-R1,这时他们以AI发展颠覆者的创新姿态,提出了一条低成本、高效率、高产出发展AI的新路径,震惊硅谷。当时他们开发了一批颠覆性的核心技术和infra,特别采用了MLAMoE。具有高效推理能力的多头潜在注意结构MLA是他们的原创,与原来标准的MHA架构比,可把显存占用率降低5%13%,并可减少链值缓存开销,提高大模型运行效率。

混合专家模型MoE并非他们首创(早在1991年便有人出了MoE概念)DeepSeekMoE最大的贡献在于使MoE基于异步脉冲生物神经网络SNN),并MoE稀疏化的高度实现

DeepSeek采用MLA+MoE的核心技术可大大AI大模型的训练效率及大大减少其训练成本,从而使其开发的AI模型产生低成本、高效率、高产出那样大幅提高大模型性价比的爆发性开发成果

特别是实现稀疏化结构的MoE,其减少计算(导致减少训练成本)的效果还在不断发展中:在激化参数量的情况下,可将其计算量下降至5%1/20,在激化专家系统情况下,可将其计算量下降至更低的3%1/30

随着生成式自回归语言大模型规模化发展(可能出现大规模模型),西方传统的建模方式是堆叠万亿token(或更多)参数而导致资源(能源、资金、参数、算力)供应无限增长,出现难以为继的状态2025年底至2026年初(至2月),梁文锋DeepSeek团队掀起以减供、增效、高产出为目标的第二波 对AI颠覆性创新高潮。 

1)他们提出流行约束机制核心mHC新架构,使在残差连接和在超链接传输的信息有流动,解决残差连接中信息堵塞超链接中信息混乱现象,确保大模型(尤其是特大模型)运行稳定。

2)他们基于异步脉冲类脑神经网络中连结在一起的计算模块和记忆模块强行将记忆模块剥离出来,建立“条件记忆”机制(及Engram架构)Engram相当于给大模型装上一个可扩展的像字典那样外挂记忆库模块把记忆交给外挂专用模块,并开辟第二条稀疏化路线,凭借哈希检索与上下文门控核心技术,实现静态知识01)高效查表,破解N-gram存储爆炸难题,还可以节省算力,提高大模型信息查询快速反应能力这时条件记忆的MoE+条件计算MoE,将以低成本、更高效率、更高产出面世发展动态路由MoE可将大模型的计算量降至2%1.7%1/50~1/60,不但更大幅度降低训练成本,而且还提高了大模型的产出(提高其推理能力和运行稳定性),还解决了Transformer信号衰减问题。

3)开发OCR-2OCR也是DeepSeek技术路线的延伸,它将改变人类与机器打交道方式,它正在向全模态前进,可用处理非结构文本对于OCR-2,用极少token(如256token可读懂复杂文档中的图形、表格、数学公式甚至还能理解声音、视频的内容,并能自动化编辑,将全部内容按需对其项目进行优先排队。

4开发MODEL1其实由DeepSeek官方GitHub仓库推出MODEL1也是DeepSeek技术路线的延伸,MODEL-1这波操作,不仅凸显中美AI竞争路径的分野,更是重塑全球产业与资本对智能技术的价值认知。

全球AI领域长期被美国发展全能型大模型主导不拘企业能力大小,资源供给状况如何生产能力如何技术攻关能力如何如何突场景落地?未来同质商业竞争态势如何?以及预测未来企业可能出现的发展前景如何?一味追求全模态、全场景、全能型大模型的单一模式。

MODEL1建议广大中小企业、独角兽式智能化初始企业利用极少数开源企业的大模型基座的优势进行本地化专业化二次开发,发展不同行业的垂直模型,发扬专业化协作,抓好在模型训练和运行中的效率、效益问题(解决大模型推理内存高效率低的痛点)降低在建模中的大量资源(能源、资金、参数、算力)消耗,开展差异化竞赛/竞争,解决企业成本高企和推理落地模糊等难题。

DeepSeek透露的一些信息来看,其推出的MODEL1更新的114Flash MLA文件中,其重构底层架构依托其独创的Flash MLA算法构建核心算力、聚焦长文本处理,优化键值缓存,支持两层稀疏MoE机制,支持FP8解码,可高效应对文档理解、代码分析等复杂任务,精准匹配一些行业的刚需场景,契合2026AI行业拼参数“拼推理落地”的趋势。DeepSeek欢迎有关中企合作借鉴。

国内字节豆包、腾讯混元、MiniMax、百度文心、蚂蚁百灵的崛起

2025年是中国大模型竞相崛起的关键年份。除我们过去广为介绍的大模型:深度求索DeepSeek系列、阿里通义千问的Qwen系列、月之暗面的Kimi系列、智谱GMP系列,正在顺利发展中,并在国内AI市场上与同行的顶级大模型竞争全球排榜的前列位置外,去年以来,国内字节豆包Dou bao、腾讯混元Hun yuanMinimax、百度文心ERNIE蚂蚁百灵(Ling & Ring)也相继崛起。

对五大模型简要综评

技术层面:各模型在多模态、Agent能力、推理效率上持续突破,技术差距逐渐缩小,在原生全模态(百度)、混合专家架构(腾讯、MiniMax)、编码能力(智谱)上形成差异化竞争。

商业化层面:企业级应用成为主要收入来源,云端API服务快速增长。

生态层面:开源策略分化明显,智谱、MiniMax 开源,百度开源/闭源二元配置,生态完善,腾讯相对保守,字节生态封闭但流量强大。

挑战共性:所有厂商均面临算力成本高企、盈利压力大、国际竞争加剧等问题。未来竞争将从单一模型能力转向“技术+生态+商业化”的综合实力比拼。

各模型平台发展概述

字节豆包:在多模态、Agent能力和视频生成方面大幅升级,日均Token使用量突破50万亿,多模态agent能力突出,在Browser Comp等智能体测评中全球领先,C端流量优势明显,依托抖音、今日头条等超级APP,月活用户超1.5亿,支持256K上下文窗口。

腾讯混元:混元图像3.0在文生图榜单排名第一,3D生成模型在多项任务中领先。生态协同优势:深度绑定微信,覆盖超10亿用户潜在需求。

MiniMaxMiniMax-M2Artificial Analysis榜单上占全球前五、开源第一。在编码能力、Agent表现上实现突破,算法创新领先,编码能力突出,在SWE benchlive code bench等编程评测中达到开源SOTA水平。

百度文心:文心大模型5.0LMarena文本排行榜排名全球第二,国内第一。全栈技术自主可控,从芯片(昆仑芯)、框架(飞浆)到模型的全链路布局。

蚂蚁百灵:蚂蚁集团开发的Ring-1T大模型是全球首个开源的万亿参数级的思考模型,在1T级总参数量、50B激活参数量的Ling-1T-base基座上进行训练,支持128k上下文窗口,开源。


二、应开放代理式人工智能基金会的请求:希望COPU秘书处代发我们(OAAIF)成立的简报如下:


开放代理式人工智能基金会(OAAIF)正式成立:推动智能体时代开放协作与生态共建



AI Agent背景

随着推理模型能力的持续突破,人工智能正在经历一次根本性的范式跃迁。AI 不再仅仅是“对话式工具”或“内容生成系统”,而是逐步演进为能够理解目标、进行规划、调用工具并执行复杂任务的智能体(AI Agent)。这一变化,标志着人工智能正在从“生成信息”走向“参与行动”,从“辅助决策”迈向“直接执行”。


01.背景


模型到智能体的AI重塑


在这一新阶段,AI 系统开始深度介入真实业务流程、企业软件体系以及跨组织协作网络,成为影响现实世界运行的重要力量。智能体不只是大模型能力的延伸,更是一种新的软件形态和系统架构范式,其发展将对产业结构、组织方式和社会运行机制产生深远影响。

与以往以模型调用为核心的应用模式不同,智能体强调“目标导向”和“持续执行”。一个智能体往往需要在复杂环境中完成任务分解、状态感知、工具选择和多轮决策,这使其天然具备跨系统、跨平台协作的特征。

在企业场景中,智能体正在进入研发、运维、客服、供应链管理等关键环节;在产业层面,智能体正在推动软件系统从单体应用走向高度模块化、可组合的协作网络。这一趋势意味着,未来的软件竞争不再仅仅围绕单一产品或模型能力展开,而是取决于系统之间能否高效协同、是否具备可扩展与可治理的基础能力。


02.分析


智能体生态的结构性风险


智能体快速发展的同时,也暴露出一系列亟需正视的结构性问题。

首先是接口与协议的碎片化风险。不同平台、框架和工具体系各自演进,缺乏统一的互操作机制,正在显著抬高系统集成与迁移成本。其次是事实标准被少数主体主导的风险,一旦关键接口或运行环境高度封闭,将可能导致生态锁定,抑制创新活力。第三是安全、可审计与合规挑战,智能体具备自主执行能力,其权限边界、行为可追溯性和责任划分问题尤为复杂。

这些问题表明,智能体并非单纯的技术创新,而是一项需要从基础设施和治理层面系统应对的长期工程。


03.选择


开源与开放协作是必然


回顾基础软件的发展历程就能发现,真正支撑长期创新与规模化应用的技术体系,往往诞生于开放协作的生态之中。对于智能体这样高度依赖互操作、可组合和可治理能力的系统而言,开源与开放协作并非可选项,而是实现可持续发展的必然路径。

通过开放源代码、开放接口和开放治理机制,可以降低重复建设成本,增强系统透明度,促进不同主体之间的信任与协作,为智能体在复杂场景中的落地提供坚实基础。开放并不意味着缺乏秩序,而是通过共识与协作,构建更加稳健和可演进的技术生态。


04.成立


OAAIF应运而生


在上述背景下,开放代理式AI基金会(The Open Agentic AI Foundation,简称“OAAIF”)于2026年1月正式成立。OAAIF致力于面向智能体基础设施领域,推动以开源为核心的开放协作,促进智能体技术的互操作、规模化与高质量落地。

OAAIF将以中立、开放的方式,汇聚来自产业、学术界和开源社区的多方力量,围绕智能体相关的软件、协议与工程实践,构建面向未来的协作平台。


我们的使命/OAAIF

>>>

OAAIF的使命,是通过中立平台机制,促进开放、互操作和可信的智能体生态建设。基金会将以真实工程实践为导向,支持和连接相关开源项目,推动关键技术能力的协同发展,并在此基础上参与和促进标准共识的形成。

通过降低智能体系统的构建与部署门槛,提升生态整体的可审计性与安全性,OAAIF希望为产业创新和社会应用提供更加稳健、可持续的技术基础。


我们的定位/OAAIF

>>>

OAAIF立足中国丰富的应用场景和工程实践土壤,同时面向全球智能体技术的发展趋势。基金会将积极连接不同区域的开发者、企业和研究机构,推动跨区域的经验交流与协作创新。

通过开放参与机制和长期主义的生态建设,OAAIF致力于成为连接多元创新力量的重要纽带,为全球智能体基础设施的发展贡献力量。


05.共建


欢迎你的加入


智能体时代刚刚开启,其基础设施和生态建设仍处于关键窗口期。OAAIF未来将逐步实现欧洲(瑞士)、中国双总部,中东、东盟、北美三大区域中心的布局,借助联合国在全球人工智能开源治理中的重要作用,为全球智能体技术及生态提供服务。我们诚挚欢迎来自产业界、学术界和开源社区的更多伙伴参与共建,共同探索开放、可信、可持续的智能体发展路径。

通过协作与共识,我们期待与各方一道

迎接智能体时代的到来!


06.鸣谢


发起与支持机构


联合发起单位(排名不分先后,按字母顺序排序):

百度、中国信通院、电子四院、中国数联、华中科技大学、Intel、英飞流、沐曦股份、龙蜥社区、北京大学、Red Hat、腾讯、中兴通讯

指导机构(排名不分先后):

天工开物开源基金会、开放智算产业联盟(COIA)、开源软件推进联盟(COPU)

合作社区(排名不分先后):

ANP社区、CO-SIGHT社区、CO-TAP社区、OpenTenBase社区、RAGFlow社区、WeOpen社区

参会人员:陆首群、陈伟、宋可为、袁怿、张侃、安泱、章文嵩、王珊、谭中意、孟迎霞、鞠东颖、刘澎(线上)、陈钟(线上)、陈道清(线上)、陈越(线上)、靳虹博(线上)、程海旭(线上)、胡宇(线上)、韩宪平(线上)、Anna.AI(线上)。

图片关键词



首页
秘书处
开源通讯
开源活动