开源通讯

COPU会议记要丨2025.04.01

2025-04-02 13:49:39 40

图片关键词

41日陆主席主持召开COPU例会。

一、首先发布一则信息:328日阿里巴巴宣布与中国联通签下战略协议:联通元景与阿里云通义千问两大巨头联手将中国AI产业推入“智算合作”引爆倒计时,联通元景与阿里云“通义千问”两大国产大模型首次深度联姻组成算力革命中的关键联合体——青海16000卡绿色算力集群已投产,国产GPU性能碾压英伟达1.2倍的技术突破,这场合作将打破美西方技术垄断的天花板。

今天智算基建深度融合,从2017年云计算资源互通开始,双方用八年时间编织覆盖智慧城市、自动驾驶、智慧物流的产业天网、特别在文旅领域已率先落地万卡算力项目。三江源大数据基地正蜕变为绿色智算新地标。联通元景大模型刚刚以开源姿态杀入战场,其思维链技术已在35个行业落地,性能碾压GPT-4o的硬核实力让全球侧目。 形成了三大颠覆逻辑:①算力网络与AI大模型的系统重构产生生态 ②央企资源与民生创新力深度耦合开创混改新模式 ③绿色算力与国产化技术双轮驱动正改写全球AI竞赛规则。当16000张国产算力会在青海高原轰鸣之时,我们看到的不仅是数字技术不落的星辰大海,而是中国第四次科技革命的起步。

二、下面发表一篇文章:《DeepSeek在当前AI白热化竞赛中应解决纠偏转轨的严重任务》,这是一篇与以前发表的《如何正确看待梁文锋团队首创的人工智能DeepSeek?》文章的姐妹篇。 

DeepSeek在当前AI的白热化竞赛中应解决纠偏转轨的严重任务

陆首群  2025.3.28

我在319日写的一篇文章《如何正确看待梁文锋团队首创的工智能DeepSeek?》,在文中提出:中国人工智能(AI)的代表作——DeepSeek正在改变世界AI发展的格局;“DeepSeek引发当前全球AI的白热化竞赛。我在325COPU例会上进一步阐述:建议DeepSeek 发展的重要任务似应解决纠编转轨问题,力争在全球AI白热化竞赛中制胜。

所谓纠偏转轨问题,我是这样谈的:当前世界现阶段的AI(包括DeepSeek在内)都是生成式自回归语言大模型(LLM),都属于ANI(弱人工智能)范畴。由于语言的描述不能代表世界,不理解物理世界,语言大模型掌握的知识有限,不能产生新知,无法真正理解物理世界,加上语言不等于思维,它在运行时自然限制了思维深度,当然也限制最终的智能水平。语言大模型训练架构的自回归机制是基于Token的一个在信号处理和统计学概念,这是产生幻觉的根源。DeepSeek当然也不能幸免,同样将生成像幻觉那样的负面缺陷(削弱其在严肃场景中的实用性),所以DeepSeek在机遇与挑战并存的形势面前,也面临纠偏转轨的严重任务(事实上梁文锋也已提出了发展或转轨AGI的任务,他的主要竞赛对手奥特曼也提出了同样任务), 研发直指真实的、先进的AIAGI;而欲达AGI先要研发其过渡阶段的AI(诸如多模态大模型、具身大模型、世界模型等) 

AGI是一个具有高度自主系统的AIAGI正处于AI的智能是否可能超越人类的十字路口,这关乎到是否影响人类的安全甚至影响到人类能否在地球上生存的严重问题,所以在研发AGI以保障人类安全的预防措施时,还应要求全球各国统一行动,不留缺口,并实行技术、监管并举,任务十分艰巨! 

昨天(327日)看到《今日头条》摘录《纽约时报》一位专栏作家托马斯·弗里德曼的一篇文章:《一件惊天动地的大事即将来临通用人工智能的诞生》,与我的观点有相似处,现附录于下,供大家参考: 

美国和中国是两个最接近实现通用人工智能的超级大国。通用人工智能系统将和最聪明的人类一样聪明,甚至更聪明,并且能够自主学习和行动。其中最关键的一点是,能否合作创建一个针对新兴的超级智能计算机的全球信任与管理架构,以使人类能够最大限度地从中受益,并缓解它带来的最坏影响。

后记:
杨立昆(Yann LeCun)大师321日在美国2025年联合数学会议上就AI的发展现状和未来方向发表了演讲(由于他在会上的万字实录演讲,我们不便在本会议纪要上发表,只能选录他的部分精彩论述),拟在《人工智能文集》第二十五集上全文发表。我在本文中谈到DeepSeek存在的问题,与大师阐述语言大模型存在的问题是相似的,我给DeepSeek提出纠偏转轨的发展建议,似乎可获大师支持而增强信心!

下面是杨立昆部分阐述要点:

他深入分析了当前AI技术,他说大语言模型并非AI的全部,特别是自回归大语言模型存在的根本局限,如幻觉问题和它无法真正理解物理世界。

他指出,语言大模型的自回归预测机制是基于Token的一个在信号处理和统计学领域非常古老的概念,一个典型的现代大语言模型大约是在20万亿个Token上进行训练(每个Token大约相当于3字节,因此数据总量接近60TB,我们近似看作100TB,这是极其庞大的训练数据量)。

杨立昆在GTC大会万字实录中指出,为什么仅靠Token无法实现人类水平的AIToken是离散的。当我们讨论Token时,通常指的是一个有限的可能性集合。在典型的大语言模型中,可能的Token数量大约在10万个左右。当你训练一个系统来预测Token时,永远无法训练它准确预测文本序列中下一个Token,但你可生成一个概率分布,而且我们并不知道如何处理视频数据,及那些多维度且连续的自然数据。而且Token预测机制有局限性、产生幻觉的必然性。

杨立昆说,我的预测是自回归LLMs注定要被淘汰。几年后,理性的人们可能将不再使用它们,这也就是为何经常产生幻觉的现象,它们有时会生成不合逻辑或与事实不符的内容,其根本原因在于这种自回归预测机制。问题在于应当采取何机制来代替它?仅仅依靠在更大的数据集上训练更大的语言模型,永远无法实现通用人工智能。

事实证明,物理世界远比语言复杂得多,仅靠文本训练,我们无法实现人类水平的AI

物理世界蕴含的信息,特别来自视觉、触觉和听觉的感官输入,其信息量远超人类有史以来产生的所有文本。如果我们不能让AI系统通过观察世界来学习其运作规律,我们将永远无法达到人类水平的AI的智能。感官输入所能提供的信息,远比文本丰富得多。我们需要能够通过观察和感官输入学习世界模型的系统,而不仅仅像以前的AI系统那样通过微调实现安全可控。

三、本次例会介绍零一万物CEO、创新工场董事长李开复博士于320日接受彭博社专访时的谈话,这篇谈话的主题是如何补充DeepSeek基座大模型缺失的行业/企业的应用场景(为了阐明论点,我们将他的同期讲话参插进来稍作补充)。

如何补充DeepSeek基座大模型缺失的企业应用场景

他在接受彭博社的专访时的谈话要点如下:

他表示,在DeepSeek 热潮之后,中国经历了自己的“DeepSeek”时刻。他认为OpenAI是一款很优秀的大模型,但它并非是DeepSeek的对手。2024OpenAI的运行成本为70亿美元,企业亏损,而DeepSeek 的运行成本只有其2%OpenAI如此下去还能持续吗?我想奥特曼身上是有压力的,可能入夜难眠!

DeepSeek是一款非常优秀的大模型取得了创新突破,但它像其他标准的、普惠的基座模型一样,尚得提升其暂时缺失的商业价值。我们每个人用ChatGPTDeepSeekKimi都可以解决很多问题,但是它们对企业行业是缺乏深度理解的,它们真的要落入行业(如金融、制造、医疗等),要产生行业价值,必须把行业数据抓起来,进行企业/行业应用补缺。以DeepSeek基座模型的应用为例,其基座模型目前尚缺少连接企业/行业的知识库、搭建应用中间件,尚未深刻理解企业/行业的应用,如此DeepSeek优质基座模型还难以直接转变为企业/行业的优质生产力。他说,作一个比喻,DeepSeek相当于操作系统的内核,如果缺少操作系统、应用程序、UI界面,操作系统的内核就无法发挥其真正的价值。他强调,AI需要市场,市场也需要AI,要真正发挥DeepSeek大模型的价值,需要对其进行应用补缺(当然应用补缺不只是企业/行业应用,还有消费应用、AI-FirstBC端应用等等)。

彭博社提出零一万物于本周发布的产品万智企业大模型一站式平台是否专门为DeepSeek大模型补缺企业应用服务的?李开复作答我们看好DeepSeek惊艳业界的技术创新,其开源模式更具压倒性优势,我们愿为其补缺企业/行业应用出力,我们推出的万能企业大模型一站式平台,不仅提供安全模型部署方案、模型微调方案,还封装了联网搜索、知识库RAGAgent搭建等工具,助力DeepSeek等优质基座模型赋能企业应用场景。鉴于各地对大模型展现出浓厚的兴趣,都在积极探索如何将AI应用到当地优势传统产业中,用产业大模型打造新质生产力,进而促进实体经济的增长,零一万物目前也积极与地方政府及垂直产业展开紧密的合作探索。除此之外,李开复还谈到:鉴于AI底层模型很难直接转化为商业模式,这时我们为DeepSeek进行企业应用补位,是否也供其他底层模型转化商业模式的攻关作参考。

四、本次会议还对预定于613~14日召开的《第20届开源中国开源世界高峰论坛》和《圆桌会议》的筹备工作进行了讨论。

参会人员:陆首群、宋可为、章文嵩、李弘博、刘夏、安泱、袁怿、谭中意、李德豪、孟伟、张侃、倪贤豪、武力、鞠东颖、陈钟(线上)、陈伟(线上)、宁固(线上)、王劲男(线上)、胡宇(线上)、Anna.AI(线上)、韩宪平(线上)。

图片关键词


首页
秘书处
开源通讯
开源活动