COPU会议纪要丨2025.07.30

2025-07-31 12:00:15 338

图片关键词

7月30日陆主席主持召开COPU例会。

上次例会（7月22日）由陈钟教授、刘澎秘书长牵头的两个小组针对全球权威评测机构发布的大模型排行榜，分析了中外顶尖大模型的竞赛态势，随后参加上次例会全体人员围绕中国研发的三大开源大模型：深度求索的DeepSeek-R1、阿里巴巴通义千问Qwen-3和月之暗面的Ontex-2，作为中国品牌是否进入世界排行榜的先进行列？展开热烈讨论。会议还要求陈、刘两个小组对上次在例会上的发言进一步完善。写出书面报告；要求刘澎小组针对国内“六小虎”（也有人称“六小龙”的）写出分析报告。在上次例会上，当讨论到衡量大模型先进性的基本条件时，陈钟组提出取决于算法、算力和数据，其实这也是国内早期的提法，希望陈组对此还要进行深入分析，在完善化报告中的所体现。陈、刘两小组完善化的书面报告要求于8月2日前交物。

在本次会议上，将发表陆主席写的一份报告：“中国DeepSeekR1、Qwen3、Ontex2开源大模型在世界排行榜中是否进入先进行列？”

会议要求：陈渝、宋可为率领的小组抓紧写出AIOS的书面报告，争取在8月份第一周的COPU例会上作出汇报。

中国DeepSeekR1、Qwen3、Ontex2开源大模型

在世界排行榜中是否进入先进行列

COPU陆首群

2025.7.29

在7月22日COPU例会上讨论的主题是：中方三个开源大模型DeepSeek-R1、Qwen-3和KimiK2-Ontex 2进步很大，是否可作为中方进入世界排行榜先进行列的中国品牌？会上，由陈钟教授和刘澎秘书长牵头的两个小组，以全球权威的评测平台发布的排行榜为基础进行了带头发言，随后引发了大家热烈的讨论，一致同意中方的三大模型已在排行榜登顶或进入前10先进行列的姿态，已经跻身于世界先进的大模型行列。

在7月22日COPU例会上，陈、刘两个小组列举了如下几个评测平台和排行榜：

LM arena评测平台（发布开源、闭源混合的排行榜）

1.LMSYS Chatbot Arena (用户盲测排名)前列模型

(2025年7月10日发布)

（1）Grok-4 (XAI)

（2）Claude 3.5 Sonnet/Opus 又一处曾提claude 4 opus（ Anthropic）

（3）GPT-5 (Open AI)

（4）Gemini 1.5 pro/Flash (Google)

（5）03 (Open AI)

（6）DeepSeek-R1 (深度求索)

（7）Mistral Large 2 (Mistral AI)

2.LMSYS Chatbot Arena (用户盲测排名)前列模型

(2025年6月2日发布)

（1）Grok-3 (XAI)

（2）Gemini 2.0 Flash Thinking (Google)

（3）Gemini 2.0 pro (Google)

（4）Chat GPT-4o (Open AI)

（5）DeepSeek-R1 (深度求索)

（6）Gemini 2.0 Flash (Google)

（7）o1 (Open AI)

（8）o1 preview (Open AI)

（9）Qwen 2.5-Max (阿里巴巴)

3.LM arena开源大模型AI评测平台（用户首测排名）

（2025年7月21日发布）

（1）Kimi-K2-Ontex2（月之暗面/Moon Shot）

（2）Qwen3（阿里巴巴）

（3）DeepSeek-R1（深度求索）

（4）Gemma 2.9B（Google）

（5）Llama370B（Meta）

下面我们再来谈谈国际上对中国三大模型的评论：

首先谈谈DeepSeek，自2024年底DeepSeek V3向全球发布以来震撼硅谷震撼世界。DeepSeek创造性地走出一条“以低投资、低成本、有限资源的投入，通过高效率运作，实现产品高性能（或对等性能）产出”发展人工智能的新路。我在DeepSeek发布之初就提出：如把现行产品性能进行排行榜，DeepSeek与其他顶尖大模型的产出性能相比是对等的，如以更科学的性价比产出对比，DeepSeek肯定天下第一。DeepSeek正在改变世界人工智能发展的格局，正在引发全球人工智能白热化的竞争。

有人说DeepSeekR1的应用尚有欠缺，我赞成。我不赞成有些人把大模型的问答和评说看作其主要应用，因为在无法消除幻觉的情况下，很难说每次问答或评说都能达到正确完美的结论。我曾著文赞成李开复老师的意见：即包括DeepSeek在内的标准、普惠的基础模型缺少太大的商业价值，其原因是他们对企业/产业缺乏深刻理解，没有掌握企业/产业运作的数据，他们对这一大块重要的应用是短板，理应进行补课。

我在这里必须指出，如果依靠产出性能的排行榜来给中国顶尖的大模型DeepSeek进行排队，存在不公平的问题。

昨天（7月28日）我获悉，最近在巴黎召开的AI大会上，在美西方操纵下，纠集60个联合国会员国，以所谓窃取别国安全数据为由，赞成屏蔽DeepSeek，即禁止其在本国使用，这完全是对DeepSeek的政治打压！

国际市场研究机构Omdia于2025年7月发布最新生成式AI的报告，它在谈到通义千问Qwen3时说：中国通义千问的出现，在以大模型为代表的AI关键底层技术赛道得到全球的认可。通义千问系列模型全球下载计算量突破4亿，千问衍生模型超过14万个，是全球第一的开源模型。

斯坦福大学于2025年4月10日发布的《2025年人工智能指数》报告中报导：阿里云通义千问开发的系列开源大模型：Qwen2、Qwen2.5（+2025.6.13发布的Qwen3）均居全球排行榜前列（其6个大模型入选6个在重要性和代表性上都曾获得排名第一的大模型！）

该报告曾指出，中美在AI大模型的性能差距已经缩小到仅仅0.3%！

英伟达创始人兼CEO黄仁勋最近（于7月24日）谈：通义千问和DeepSeek都是世界顶级的开源大模型，中国在开源方面做得很出色。

下面再介绍阿里通义千问最近的三次亮剑：①7月22日，阿里推出非思考模式旗舰版：千问Qwen3-235B模型，新模型通用能力显著提升，在众多测评中脱颖而出，超过了Claude-Opus4等一众领先的闭源模型。②7月23日，阿里又发布了千问Qwen3-Coder，性能超越GPT-4.1等顶级模型，登顶全球开源大模型榜首，成为近期全球热度最高的开源模型。③7月26日阿里AI发布思考式千问Qwen3-235B，在复杂推理方面实现突破，一举成为当前全球最强的开源推理模型，Qwen3-Coder AI编程模型性能超越DeepSeek-R1，Hugging face CEO Clement Delangue认为，Qwen3-Coder写代码的能力超过GPT-4.1，与Anthropic的Claude 4有一拼！但售价只有美西方的1/2~1/3。

DeepSeek V3于2024年12月26日发布，发布后震撼硅谷和世界，DeepSeek-R1是于2025年1月20日发布的，DeepSeek R1推理大模型，是当时DeepSeek系列中智能水平最高的，DeepSeek-R1训练成本只有OpenAI-o1, o3的1/20，但输出性能可与-o1，-o3对等。

2025年2月20日，在LMSYS Chatbot Arena 排行榜上：

（1）Grok-3（XAI），Gemini 2.0 Flash Thinking (Google)，

（2）Gemini 2.0 Pro(Google)，Chat GPT-4o (Open AI)

（5）DeepSeek-R1 (深化求索)，Gemini 2.0 Flash, o1(Open AI)

（8）o1-preview(Open AI)，Qwen2.5-Max(阿里巴巴)

AI大师Geoffrey Hinton是如此评论DeepSeek的：DeepSeek的问世将改变全球AI的发展轨迹。

谈到月之暗面(Moon Shot AI)开发的KIMI K1.5大模型，也是与-R1同时（2025年1月20日）发布的，发布当时是闭源的，后来改为开源，性能也与R1相当。

2025年7月21日发布了Kimi-K2-Ontex2开源大模型，在LM arena开源大模型AI评测平台发布的排行榜中荣登榜首，超越Qwen3，DeepSeek-R1，Gemma2.9B(Google)，Llama370B(Meta)。

随后会议热烈讨论这些先进的中国品牌的优点与不足，大家赞成由陈钟教授推出衡量大模型先进性的基本条件：取决于算法、算力和数据，算法要好，算力要跟上，数据不但规模大而且质量要高。在讨论中大家认为，中方在算法问题上有创新，算力有进步但步伐还小，对于中方是否拥有数据的优势，在热烈讨论中，有人认为，特别在数据质量上还大有文章可做。在中方的算法创新方面，很多人举出了一系列例证：如涉及多头潜在注意力架构（由MHA升级至MLA），采取混合参数和专家架构MoE（由激活参数量至激活专家数），发挥强化学习目标函数的影响（GRPO），发挥数学、物理建模技术和工程突破能力（STEM）的优势等；国内有关单位通过总线互联实行架构改革，以及内存池化，可进一步提高算法创新的优势（或提高算力集成的效率）。