开源通讯

COPU会议纪要丨2025.02.11

2025-02-11 16:04:42 61

COPU开源联盟 2025021115:06 北京

图片关键词

图片关键词


211日,陆主席主持召开COPU例会。

一、会议开始时传达:

 

(1) 深度求索梁文峰团队发布开拓AI新路的DeepSeek(DeepSeek是开源的),开源为世界带来一股强力的冲击波。

 

(2) 《人民日报》连续发文谈到:Deep Seek的胜利是开源战胜闭源 (Open AI开始是开源的后来变成闭源)。

 

    中国的进步是建立在开源之上的

 

    以前说要有一定的资本才能干成什么大事,这是资本的逻辑。

 

(3) 人工智能大师杨立昆指出:“DeepSeek的成功是开源模型正在超越专用模型模型(即闭源模型)

 

(4) 人工智能大师李飞飞说:“开源社区更是人工智能创新的重要力量,许多优秀的AI算法和模型都诞生于开源社区的创新和协作”。

 

(5) DeepSeek的冲击波冲向OpenAI,使坚持闭源策略的奥特曼罕见地表态:“OpenAI在开源人工智能软件方面,一直站到在历史的错误一边”,他决心在近期作出改正。据讯,他已在GPTo3-mini上推出开源推理模型。

 

 

二、本次例会发布陆主席的文章:《我为什么写支持DeepSeek的文章》

我为什么写支持DeepSeek的文章

陆首群  2025.1.30, 2.9

 

梁文锋团队作出了国运式的贡献

 

AI初创公司深度求索梁文锋研发团队推出 DeepSeekDS)以来,震撼硅谷继而震撼世界,好评如潮。国内有两件重要的正面反应:有人认为这是一件国运式贡献,还有人认为这是自 1840 年以来我国自主研发创新的技术首次冲击全球舆论。

 

美国权威专家驳斥所谓DS抄袭OpenAI平台上的数据

 

近来也听到一些负面的反应、质疑之声,使有些人无所适从:有人说 DeepSeek 是窃取 OpenAI 平台的数据,这个说法出自奥特曼和极少数 AI 专家之口,他们认为 DeepSeek 采用蒸馏技术偷师 OpenAI,为此我曾引述全球最大的开源社区 Stability AI 创始人 Emad Mostaque 的谈话,他说 DeepSeek 没有抄袭,不要再质疑了!他从 DeepSeek 发表的论文中抓到依据,表示那些指责的原因,简直是对强化学习的侮辱!这相当于 AlphaGo 棋局中自己和自己下棋而已,根本不需要偷师一样,那些说抄袭的人恐怕自己都没见过强化学习暴走模式。

 

近日奥特曼已不再指责 DS,而是赞扬有加,但随着专家退场政府上阵,白宫人工智能政策特别顾问戴维・萨克斯(David Sacks)发言,有证据表明DS 盗窃 OpenAI 的知识,指责深度求索公司通过非法手段获取 OpenAI 的专有数据用于模型训练。我不明白 OpenAI 的当事人(专家)不再质疑了,而这位没有信誉不懂业务的政府高官跳出来指责,不感到奇怪吗?!

 

讨论纽约大学的教授对DS点评的意见

 

纽约大学名誉教授 Gary Marcus 在《Fortune》杂志上发文对 AI 聊天机器人DS提出 8 项点评意见,我觉得他并不怀疑DS的测试数据,也不怀疑其以低成本、高效率、高智能走出一条发展AI的新路,但他表示 “虽然 DS进步快,但这并不意味着中国的 AI 在技术上已超过了美国,还存在很大差距”,这是对的!说明年轻的 DS还需要坚持创新进步提高大模型的智能(从另一个角度讲 DS还有发展潜力)。我曾向他们建议,要对计算架构关键技术进行深度研发创新(研发跨时代、颠覆性01的创新成果)。而该教授还提出美国想投资 5000 亿美元建设星际之门计划可能没有太大意义,他是对的!他也知道美国对相关研发花巨资可能产生浪费?!他对英伟达的霸主地位受到威胁,认为是市场的合理调整,他似乎也担心美国是否会失去 AI 行业内的领先地位。

 

华为、腾讯与深度求索进行AI大模型发展的战略合作

 

他们三家组成战略合作的 “铁三角”,变 “单兵作战” 为 “军团作战”。

 

① 开启 “铁三角” 合作时代,互补性资源,构建闭环生态。

 

华为具有硬件底座优势,腾讯具有扩大生态及场景入口价值,深度求索深耕 DeepSeek 效应。

 

② 大胆设想,铁三角联手,提高研发通用人工智能专业赛道的竞争力。

 

我祝贺他们合作事业成功!

 

回复马斯克的怀疑

 

关于马斯克怀疑 DeepSeek-V3 只花 600 万美元很低的成本,其训练后大模型的智能却能达到 ChatGPT 最新版本同等的水平。

 

我在一篇文章中是如此协助 DS 作出解释的:其实这个怀疑很容易解决,从硅谷独立测评机构的测试报告中便可获知。

 

后来我看到梁文锋回答马斯克的疑问为什么 DeepSeek 能以低成本、低投资,进行高效率训练,并能获得如此高智能输出?梁文锋回答是:一般AI 大模型训练费用高昂,原来与语言差异密切相关!英语冗长繁琐,而汉语简洁明了,学习成本更低。在专业词汇方面,汉语造词能力更是令人惊叹:通俗易懂,助力科技发展。梁文锋一语惊人,马斯克恍然大悟。

 

如何看待李飞飞等研发 S1 推理模型的目的

 

李飞飞大师等斯坦福大学、华盛顿大学的研究人员,于 2 6 日,仅用不到 50 美元的云计算费用,训练出一个名为 S1 AI 推理模型,该模型在数学和编程测试中表现与 GPTo1 DeepSeek-R1顶尖的推理模型相似的水平,它是从谷歌的 Gemini2.0Flash Thinking Experimental 模型中提炼出来的,使用16个英伟达的 H100 GPU,训练 26 分钟。

 

S1是不是碾压了 DeepSeek?不是!S1只是验证DeepSeek 所开创的低成本发展 AI 之路是成功的,并且还有很大发展潜力,同时它也与DS一样打脸以数千亿美元的巨额投资训练 AI 模型来发展 AI 之路是不可取的!

 

(注:有人说李飞飞叫板梁文锋,S1仅用 50 美元及更短时间蒸馏出类似 DeepSeek-R1 的推理模型?我如上已说,S1是验证 DeepSeek,不是竞争!为此在注解中说明 S1的细节,与 DeepSeek 不具竞争的可比性。原来他们训练出新的只有推理能力的1000个样本是从谷歌模型中提炼出来的,然后在中国阿里云 Qwen 2.5MAX 大模型基础上进行微调而已。)

 

李飞飞公开说明,她训练S1不是从0开始,数据取自谷歌,训练是在阿里云Qwen大模型上进行微调,S1无意与DS竞争,而是验证DS开创的一条发展AI的新路是成功的。

 

引入类脑算力可进一步提升 DS低成本高效率发展 AI新路

 

发展AI一般采用投入巨资、堆叠算力,在低效率下,争取提升大模型智能水平之路。这里的算力是基于数字化的。

 

而从提高效率的角度来看,效率是按如下路线呈梯度提升的:数字化算力 → 类脑算力 → 大脑算力。因此,类脑(即神经拟态计算系统)算力如果取代单纯的数字化算力,完全可能进一步提升由 DeepSeek 展示的以低成本发展 AI 过程中的效率。

 

以算力驱动推理,而推理是生成的基础,在发展生成式大模型过程中,提高效率是实现低投入高产出的关键。

 

重点针对计算架构核心技术实行跨时代颠覆性(从01)的变革创新

 

我曾建议深度求索公司针对计算架构核心技术实行颠覆性创新,以提高大模型的智能水平。

 

坚持开源创新,可以构建具有 “基于知识社会的创新2.0” 机制的现代创新引擎。为充实创新引擎,要建设具有交互作用的两个空间:即现实的物理空间(physical space)和虚拟的数字空间(Cyberspace)。前者是适应现实的低阶社会,将储存表征计算架构的业态,后者为设计中的虚拟的高阶社会,储存用以改造计算架构的超级动能。实现计算架构业态变革的操作步骤为:将虚拟的数字空间中的超级动能作用于现实的物理空间中的计算架构业态,促使其发生数字化转型或智能化重构。

 

创建通用人工智能

 

在梁文锋的多次发言中谈到,他发展人工智能目标的重点是创建通用人工智能(AGI)。

 

通用人工智能的演化路径为:语言大模型 → 多模态大模型 → 具身大模型 → 世界模型 → 通用人工智能。

 

建议深度求索公司要制定发展规划。

 

美国企图封杀 DeepSeek 行将破灭

 

美国候任商务部部长卢特尼克在美国国会听证会上作证时,针对深度求索公司研发的DeepSeek,无端定性为中方窃取美方技术。这与美国之前启动的国家安全调查前后呼应,妄图一举封杀DeepSeek

 

但是一个更大的噩耗传来:中国知名的大型科技企业阿里云发布了与DeepSeek同等的Qwen2.5-Max旗舰大模型(其性能还超越DeepSeek-V3,以及OpenAIGPT-4oMetaLlama 3.1-40B)。而且字节跳动也推出与DeepSeek同等性能的豆包1.5pro,它们在知识、编程、基准测试等方面全面超越美国生成式大模型。这样,在现时中方有比AI初创企业研发的DeepSeek单一模型更多的由几家企业研发的同等性能的大模型,对美方来说是一个更大的噩耗,将宣告其封杀DeepSeek的破产。

 

由深度求索梁文锋团队独创的 DeepSeek 其重大意义是开辟了一条以低投入(低成本、低资源),通过高效率导致高产出(高智能)研发人工智能的新路。

 

28日特朗普下令不准再打压 DeepSeek,《纽约时报》揭谜:因为在华经营多年的美国汽车巨头福特公司 CEO 吉姆・法利的报告:中方在电动汽车电池技术方面已领先美国约 10 年(而白宫认为目前 DeepSeek 只与美国 AI 大模型技术水平持平或至多领先 3 - 6 个月),白宫如果想让美国汽车产业 “再次伟大”,就必须与中国合作,从而获得授权许可(电动汽车电池的知识产权)。如此,白宫收到一个更大的噩耗,迫使特朗普作出如此决定。

 

(中方对特朗普这次放弃对DeepSeek 的打压政策并不可信,并要听其言观其行!) 

 

 

三、本次会议还发布李飞飞大师向巴黎人工智能大会提出的AI政策建议

 

《李飞飞向巴黎人工智能大会提出制定AI政策的三原则》

 

COPU摘录2025.2.10

 

1)基于科学而非科幻

 

决策者应将目光聚焦于当下AI的实际状况,清楚认识到目前聊天机器人等AI产品并非具有意图、自由意志或意识的智能体,只有这样才能避免被不切实际的幻想分散注意力,集中精力解决AI发展过程中面临的真正问题,如数据隐私保护、算法偏见消除等。

 

2)务实而非意识形态化原则

 

要求政策设计者目标在激励创新的同时,尽可能减少A1可能带来的危害。AI技术发展日新月异的今天(指新的应用与AI创新),如果政策过于僵化或被意识形态左右,可能会阻碍技术进步,合理的政策应在保障安全和公平的前提下,为AI创新提供宽松环境,鼓励企业和科研机构积极探索,推动AI技术更好服务于社会。

 

3)为整个生态系统,政策要赋予开源社区和学术界在内整个AI生态系统更多自由,大模型和计算工具的开放访问,对于AI进步至关重要。

 

在当前AI发展格局中,私营部门往往拥有更丰富的资源和强大的研发能力,但学术机构和研究人员在基础研究和理论创新方面有着不可替代的作用。如果对这些资源的访问设置更多的限制,学术机构和研究人员将难以开展前沿研究,技术突破速度也会减缓。开源社区更是AI创新的重要力量,许多优秀的AI算法和模型都诞生于开源社区的协作。政策应鼓励这种开放和共享的精神,促进整个AI生态系统的繁荣发展。

 

四、本次会议还由IBM专家袁怿发表《实践AI Agent自动化扫描代码库的思考与总结 

 

参会人员:陆首群、宋可为、陈伟、程海旭、宁固、陈越、安泱、章文嵩、谭中意、袁怿、王珊、陈道清、张侃、鞠东颖、陈钟(线上)、李弘博(线上)、韩宪平(线上)、Anna.AI(线上)、胡宇(线上)、孟迎霞(线上)。

图片关键词