开源通讯

COPU会议纪要丨2025.07.22

2025-07-23 11:23:45 78

图片关键词

722日陆主席主持召开COPU例会。


本次例会主要听取陈钟教授和刘澎秘书长关于开源大模型排行榜形势的汇报,随后进行了热烈讨论。

陈教授提出,负责提出大模型排行榜的国内外基准测试机构有:LM Arena,LiveBeanch,SuperClue,Huggingface,ML Perf等。


7月10日LMarena公布的排行榜为:

1、GPT-4.5/GPT-5(Open AI),闭源

2、Grok-4(XAI),闭源,

3、Claude3.5Sonnet/opus(Anthropic),闭源,

4、Genmini1.5Pro/Flash(谷歌),闭源,

5、Mistral Large(MistralAI),开源。

7月21日LMarecna发布开源大模型榜单(AI评测平台)

1,Kimik2Ontex2(月之暗面),

2,DeepSeek-R1(深度求索),

3,Qwen (阿里巴巴),

4,MiniMax,

5,Llama 370B(Meta),

6,Mistral(MistralAI),

7,Gemma2.9B(谷歌)。


陆主席提出,中方三个开源大模型DS-R1,Kimik2-Ontex2和Qwen近年来进步很大,是否可作为中方进入世界排行榜先进行列的中国品牌?大家经过热烈讨论后,基本上同意这个出发点。


陈教授在谈到中方列入世界排行榜先进行列的大模型优缺点时,大家经过热烈讨论,基本上同意陈、刘二位提出的观点,即关键取决于算法,算力和数据,其中算法要好,中方在算法上取得了进步和优化,算力要跟上,数据要求规模大质量高。在中方数据优劣问题上,争论很激烈。最终大家认为,中方在算法问题上有创新,如DS由原来标准的多头注意力架构MHA至MLA,把显存占有率降低5%~13%,采取混合专家语言模型MoE,激活参数量,使DSV3或R1的训练成本降至8.3%(1/12),更采取混合专家模型MoE激活专家,使DSV3、R1训练成本降至5%(1/20)。华为更采用CloudMatrix384实行架构改革(通过总线互联和内存池化)又提高算力集成的效率67%。其中算力提高有进步,但步伐扩大还需挖潜,在数据质量上也大有文章章可做!


下面为陈钟教授汇报的PPT示意图:

图片

陆主席要求,刘、陈两位领导的小组要在一周内提出更深入的点评排行榜的报告。下周例会,将听取清华大学陈渝老师领衔的研究AIOS的小组汇报,希望做好准备,像刘、陈两小组那样,事前提出书面报告。


参会人员:陆首群、刘澎、陈钟、章文嵩、程海旭、靳虹博、安泱、谭中意、陈越、宋可为、张侃、王珊、袁怿、鞠东颖、陈伟(线上)、孟迎霞(线上)、陈道清(线上)、韩宪平(线上)、胡宇(线上)、Anna.AI(线上)。

图片关键词


首页
秘书处
开源通讯
开源活动