开源通讯

COPU会议纪要丨2025.09.16

2025-09-16 16:03:33 8

图片关键词

916日陆主席主持召开COPU例会。 

本次例会首先发布《全球和中国有关顶尖大模型在流量及性能排行榜中表现分析》的报告。流量不能代表性能,但流量与性能排行榜之间是有关联的。

全球和中国的顶尖大模型在流量及性能排行榜中表现的分析

COPU 2025.9.12

本报告分析的依据是:最新发布的(以2025.8为主)全球TOP50/TOP100 GenAI移动应用榜单及全球LMSYS Chatbot Arena(Text Arena)综合性能榜单。 

从全球流量排行榜来看,摘列其排在前面的是顶尖的5款大模型系列如下: 

1. 美国OpenAI Chat GPT, 全球流量排行第1。 

2. 美国谷歌 Gemini, 全球流量排行第2。 

3. 中国深度求索 DeepSeek, 全球流量排行第3。 

4. 美国XAI Grok全球流量排行第4。 

5. 美国Anthropic claude, 全球流量排行第7。 

将全球流量排行榜与全球性能排行榜作对比(即流量排行中的大模型系列在性能排行中占位置)

注:举例解释: 

流量排名中的GPT(o3,o4,GPT4.5,GPT5)在性能排行中的表现8.1(1,2), 8.15(1), 9.8(1,2) 指GPT(o3,o4,GPT4.5,GPT5)为流量排名中提到的GPT系列; 8.1(1,2), 81日发布的性能排行榜,指GPT在这个排行榜中占1、第2位,……,下同。 

流量排名中所列大模型系列在对比性能排行中的占位置(表现)如下:

全球顶级流量大模型1,2,4,7

1)GPT系列在性能排行榜中出现:8.1(1,2), 8.15(1), 9.8(1,2

2)Gemini 8.1(1), 8.15(2), 9.8(1) 

4Grok 8.1(4), 8.15(5), 9.8(8) 

7Claude 8.6(5), 8.15(7), 9.8(1, 3) 

中国顶级流量大模型3, 12, 17, 20 ):

3)深度求索DeepSeek 8.1(6) 

12)字节跳动豆包(Doubao,性能排名Top8,

17)月之暗面的Kimi, 8.1(5), 8.15(7) 

20阿里云的Qwen38.1(3), 8.15(5), 9.8(6) 

中国其他流量大模型( 9, 12, 45, 9* ):

9夸克(Quark),性能排名未能进入Top2

12可灵(King) ,性能排名未能进入Top2

45海螺A1 ,性能排名未能进入Top2

9*美图,性能排名未能进入Top2

(注*9*系全球移动应用榜单中的编号)

概括上述公布的流量排行榜总结为:  

①流量不等于性能,但流量排行榜与性能排行榜还是有关联的 

AI竞争格局逐渐稳定

中国AI正在崛起在全球流量排行Top20家中,中国占5家,即Top 3DeepSeekTop 17KimiTop 20QwenTop 12)豆包(Doubao)、Top 9)夸克(Quark,

在全球流量排行中,OpenAIGPT依旧领跑,谷歌的Gemini紧随其后,Grok高速逆袭,中国正在崛起。

关于流量排行榜与性能排行榜的关系:

流量排行榜(如全球移动应用榜单)反映的是用户使用规模(如下载量、月活用户,而性能排行榜(如AI大模型综合排名)衡量的是技术实力(如推理速度、上下文窗口、任务完成率、伦理合规性),两者虽有相关性(流量大的模型通常性能不差),但并非绝对正相关——小众高性能模型可能因垂直场景优势占据性能前列,而大众流量模型可能因易用性或生态支持获得高流量但性能排名中等。

本次会议发布了COPU《人工智能文集》第二十八集目录 :

图片关键词


本次会议还发了《AI安全国际论坛》和《2025 AI安全国际对话上海共识》两篇文章。

人工智能安全国际论坛(Safe AI International Forum)  上海期智研究院2025.7.252025年7月22日至25日,在上海期智研究院,AI安全国际论坛 (Safe AI Forum), 以及上海人工智能实验室主办的第四届AI安全国际对话 (International Dialogues on AI Safety) 中,全球顶尖的人工智能 (AI) 科学家齐聚上海,就未来人工智能系统可能超越人类智能水平带来的失控风险,进行了深入的交流与研讨。本次会议促成了《AI安全国际对话上海共识》(以下简称“上海共识”), 首次呼吁全球各国政府及研究人员“确保高级人工智能系统的对齐与人类控制,保障人类福祉”。共识指出,人工智能正迅速逼近并可能超越人类智能水平。然而,依据现有的系统欺瞒人类开发者的证据推测,具有超过人类智慧的人工智能系统可能在未来脱离人类控制或被不法分子利用,带来灾难性风险。因此,全球研究者必须联合起来,确保人工智能系统受人类掌控且符合人类价值观。国内外人工智能安全与治理领域领军人物,包括图灵奖得主姚期智教授,诺贝尔奖和图灵奖得主杰弗里·辛顿 (Geoffrey Hinton)教授,图灵奖得主约书亚·本吉奥 (Yoshua Bengio) 教授(远程),加州大学伯克利分校计算机科学教授斯图尔特·罗素 (Stuart Russell) 等出席本次会议,并签署了上海共识。

图片关键词
与会代表合影,杰弗里·辛顿 (Geoffrey Hinton) 教授站于后排。前排从左至右分别为:薛澜教授,傅莹女士,周伯文教授,姚期智教授,吉莉安·哈德菲尔德 (Gillian Hadfield)教授,克瑞格·蒙迪 (Craig Mundie)先生, 斯图尔特·罗素 (Stuart Russell) 教授, 罗伯特·特拉格 (Robert Trager) 教授。

2025 AI安全国际对话上海共识

(Shanghai Consensus)

Geoffrey Hinton、姚期智等AI大师及专家

确保高级人工智能系统的对齐与人类控制,以保障人类福祉

人工智能的快速进步带来了前所未遇风险挑战,只有妥善应对这些风险,才能实现前所未有发展机遇。人类正处于一个关键转折点:人工智能系统正迅接近并可能超越人类智能水平。这些未来的系统可能在操作者毫不知情的情况下,执行并非操作者所期望或预测的行动。这可能导致失控,即一个或多个通用人工智能系统脱离任何人的控制,从而带来灾难性甚至是生存层面的风险。

在过去的一年里,有越来越多的证据显示,未来高级的人工智能系统可能欺骗人类,逃离我们的控制。现有研究表明,高级人工智能系统能够识别自身正被评估,于是伪装与人类对齐以通过测试。这些人工智能系统日益显现出欺骗性和自我保护倾向,例如当系统即将被新版本替换时试图胁迫开发者。

需要强调的是:当今已有部分人工智能系统展现出削弱开发者安全与控制措施的能力与倾向。

尽管这些证据主要是在实验场景中发现的,当前尚无已知方法,能够在更高级的通用人工智能超越人类智能水平后,仍能可靠地确保其对齐,并保持人类的有效控制。全球正共同面临紧迫挑战:加强人工智能发展的潜在风险研判和防范,确保这些快速迭代、达到甚至超越人类智能水平的人工智能系统始终安全、可靠、可控。

确保高级人工智能系统在部署时已对齐并处于人类控制之下,这一必要性已获得关键决策者普遍认同。各主要国家和地区纷纷完善其人工智能监管体制机制,引导人工智能发展和治理:欧盟颁布了《人工智能法案》,并设立了欧盟人工智能办公室;中国要求对生成式人工智能服务进行备案,并成立了中国人工智能发展与安全研究网络;英国发起了人工智能峰会系列,并建立了全球首个规模最大的人工智能安全研究所;美国则设立人工智能标准与创新中心,旨在为企业提供指引并开展部署前测试。世界各国已采取行动,区别风险等级并施加相匹配的监管,在确保安全的前提下平衡发展与安全。全球前沿人工智能企业也纷纷签署自愿承诺,誓言采取一系列安全措施,包括组建专门的安全与安保团队,以及在模型部署前前瞻评估其未知风险等。

尽管如此,与人工智能能力的快速发展相比,对人工智能安全研究的投入明显滞后,亟需采取进一步行动。随着人工智能的能力日益接近可能带来灾难性风险的阈值,全球主要国家和地区必须采取可信的安全举措,在能共同推进的领域协同发力,在必要时自主行动。

建议

为此,我们呼吁国际社会投资安全科学领域,持续构建国际互信机制,共同迈向以下关键目标:

要求前沿人工智能开发者提供安全保障。为确保本国监管部门充分了解当前及未来高级人工智能系统的安全状况,前沿人工智能开发者在部署强大模型前,应采取一系列严格措施,以确保透明性与确定性。这些措施包括:进行严格的内部安全与安保评估,委托第三方进行独立评估,向相关主管机构提交高可信度的安全案例,以及开展深入的模拟攻防与红队测试。对于超过关键能力阈值的模型,开发者还应承担信息披露义务,至少向本国政府(在适当时亦可向公众)透明地披露其计划中的模型训练运行及内部部署所涉及的相关风险。模型部署后,应实施持续的系统监控,及时发现并报告新出现的风险、重大事故及滥用行为,并设定清晰的事态升级响应机制,确保能够迅速应对所出现的风险事件,严重情况下甚至可立即关停系统。 

通过加强国际协调,共同确立并恪守可验证的全球性行为红线。为破解在落实严格安全措施上的集体行动难题,国际社会应确立具体、可操作、受全球认可的红线,确保人工智能系统在任何情况下均不得逾越。这些红线应聚焦于人工智能系统的行为表现,其划定需同时考量系统执行特定行为的能力及其采取该行为的倾向性。为支持红线的有效落实,各国应建立一个具备技术专业能力且具有国际包容性的协调机构,汇集各国人工智能安全主管机构,以共享风险相关信息,并推动评估规程与验证方法的标准化。该协调机构将促进在技术措施层面的知识共享与共识达成,以有效证明对既定红线的遵循情况,具体措施可包括标准化的信息披露要求和评估协议,使开发者能够据此可靠地证明其人工智能系统的安全和安保水平。随着时间推移,可通过激励机制,如将市场准入条件与遵守一致性标准挂钩,相互监督并强制执行这些验证标准。建立此协调机制是关键的第一步,但随着人工智能能力的持续进步,未来各国或需建立更为健全和完善的治理架构。

投资基于设计的安全人工智能研究。学术界与产业界应协力投入,构建一系列严谨的保障机制,以设计安全的人工智能系统。从短期来看,亟需建立可扩展的监管技术以应对人工智能的欺骗问题。具体而言,可利用辅助性人工智能模型作为测谎仪,协助相关人员对模型的输出结果进行评估与确证。其他短期可行举措亦包括:加强信息安全投入,以防范来自内部(包括人类或人工智能)和外部的安全威胁;以及采用严谨的鲁棒性技术,提升模型对越狱等攻击手段的抵御能力。从长远来看,我们必须从当前在安全问题出现后才被动应对的模式,转向构建基于设计的安全(内生安全)的架构。

共识签署人(Signatories):

杰弗里·辛顿 (Geoffrey Hinton)、姚期智、约书亚·本吉奥 (Yoshua Bengio)、斯图尔特·罗素 (Stuart Russell)、张亚勤、傅莹、薛澜、吉莉安·哈德菲尔德 (Gillian Hadfield)、罗伯特·特拉格 (Robert Trager)、萨姆·R·鲍曼 (Sam R. Bowman)、丹·贝尔 (Dan Baer)、丹·亨德里克斯 (Dan Hendrycks)

徐葳、朱亦博、魏凯、本杰明·普吕东 (Benjamin Prud'Homme)、肖恩·奥赫加提 (Seán Ó hÉigeartaigh)、高奇琦、亚当·格里夫 (Adam Gleave)、田天、贺天行、谢旻希、Fynn Heide、陆超超、付杰、陈欣、呼娜英。


本次参会人员:陆首群、章文嵩、宋可为、安泱、靳虹博、陈越、袁怿、程永强、孟伟、张侃、陈道清、肖鹏、鞠东颖、刘澎(线上)、陈钟(线上)、陈绪(线上)、陈伟(线上)、程海旭(线上)、胡宇(线上)、韩宪平(线上)、刘明(线上)、Anna.AI(线上)。

图片关键词



首页
秘书处
开源通讯
开源活动