COPU会议纪要丨2025.07.01

2025-07-01 14:02:39 142

7月1日，陆主席主持召开COPU例会。

本次会议重点讨论了具身智能和世界模型，以下附上陆主席的《谈谈具身(Embodiment)和世界模型(world-based models)》文章。

谈谈具身(Embodiment)和世界模型(world-based models)

陆首群 2025.06.26

目前，从生成式自回归语言大模型向通用人工智能（AGI）或先进机器智能（AMI）转轨发展时，必不可少的还要跨越两个过渡发展阶段（或发展模式），即具身智能和世界模型。

2019年我的同学张钹AI大师对我说，在后深度学习时代，需要发展以知识工程为主体的AI，而真正把知识推理与数据结合起来研发知识工程，IBM“沃森健康（Watson Health）”是做得最好的，他建议我去访问他们。不久我访问了他们研发的核心团队得益匪浅。可惜他们在与安德森癌症中心合作的6年间（2011~2016），接受该所授予的医疗经费6200万美元，对该所635个案例的医疗效果不佳，合作为此破裂。这个团队也给世人留下了一些东西，他们是全球最早探索的具身智能，便是其中之一。

我在这里介绍的具身是IBM早期的具身概念，他们是这样介绍它的：

所谓具身智能是将医学科学家的医学理论与临床医生的医疗实践经验结合起来，两者在医疗治理上取得共识。

据沃森健康团队介绍，他们在美国和泰国分别推行具身智能治疗，后者效果较好，前者效果一般。

2023年5月28日，时任科技部副部长的吴朝晖院士以《科技部新一代AI发展研究中心》名义参加《中关村AI大模型发展论坛》，作了《中国AI大模型研究报告》，并谈到具身智能问题。

他说：ChatGPT依据统计数学，在大模型的背景下，形成很强的人机对话能力和逻辑推理能力，而具身是比自然语言大模型更高级的多模态具身智能。具身智能将是未来AI形态，AI下一个浪潮，是通向通用人工智能的序幕。

具身的概念从早期到当前的演变：由于追求人群经验的共识存在随意性和分散性，致以稳定性高的机器人代之，并将其经验扩展为感知、行动和与外部环境的交互能力。

因此具身智能也可理解为由“大脑（LLM）”+“身体（机器人）”的联合行动（并与外部世界直接交互），实现机器智能（理解、推理、生成），以完成各种任务。

吴朝晖并提出四点倡议：

①坚持开源协作，②坚持场景驱动（医疗、机器制造、电力三大场景），③坚持技术向善，④坚持开放理念。

接着，英伟达CEO黄仁勋又谈到具身智能。他说，人工智能的下一个浪潮是具身智能。所谓具身智能是将智能算法与机器人的感知、行动和环境交互能力相结合，使机器能够以更自然、更智能的方式与环境进行交互，并完成各种任务。

在具身系统中，“大脑”（LLM）（生成式大模型LLM作为大脑，汇聚科学理论和智能算法于大脑）与“身体（机器人）”联合运作，并能从外部世界获得知识和经验，在实践中逐步改进自身能力。具身感知多模态信息即视觉、听觉、触觉、嗅觉等信息。多模态具身智能可让机器人像人类那样感知丰富多彩的外部世界，为大模型“大脑”配备智能化“身体”。由人、物理世界、机器人、虚拟世界组成四元世界。2023年6月，李飞飞团队谈具身智能取得新成果：机器人接入大模型直接听懂人话，把复杂指令转化成具体行动规划，无需额外数据和训练。“O”训练就能完成更复杂指令，“O”样本控制机器人。

下面谈谈世界模型。语言大模型未来发展路径为：发展到多模态模型，再迈向世界模型，在技术上往具身智能方向走，往机器人上面走，肯定要走理解、推理和生成统一起来的道路。世界模型目前尚未形成一个标准的定义。OpenAI推出Sora模型，引起业内对世界模型的探讨（OpenAI曾将其视为能够理解、推理和模拟现实世界的模型的基础），Sora虽然做得非常好，但还不够强大，里面的物理性质是不能保证的，做不到一个世界模型。杨立昆大师也是谈世界模型较早的专家，他找到的世界模型要以智能体为主体，即以各种智能体（智能代理、智能助手、智能工具等，或智能群体/Agents、智能体网络/Agent net）为主体；智能群体或智能体网络还分主管Agent和执行Agent两类：主管Agent负责指挥调度，执行Agent负责执行行为各司其职；世界模型的智能体群体或网络必须符合四个条件：：①理解物理世界（理解世界知识、本地知识），②拥有持续记忆能力（记忆知识数据库），③具备推理能力，④可以进行分层规划。他在谈到建立的智能体为主体的世界模型时，重点思考和定义人机关系，人机交互新方式指“AI与IA”的融合共进，IA即Intelligent Augmentation/智能增强，代表一种以人为本的AI发展路径，聚焦于运用技术提升人类的智能，而非取代人类，强调人类与AI之间的协作关系而非对抗关系。他思考的世界模型的主要功能是：保证人类+智能体的综合智能始终大于AI，以保证人类对AI保持控制和协作关系。

今年6月2日，杨立昆在谈话中认为，迄今为止世界模型尚未完全成熟。

一则简讯：

陆主席的两篇文章《评“Deep Seek”》、《共建人工智能时代的开源生态共建基于开源的人工智能》已在Gitcode上刊登。

链接如下：

https://news.gitcode.com/news/a1e909ed5d8f5110140c7da774c4a334
https://news.gitcode.com/news/19a933b29f84bd5c2a4cc993dfef489b

参会人员：陆首群、刘澎、章文嵩、袁怿、陈越、安泱、谭中意、张侃、鞠东颖、陈伟（线上）、韩宪平（线上）、靳宏博（线上）、胡宇（线上）、Anna.AI（线上）。

图片关键词

开源通讯

COPU会议纪要丨2025.07.01

7月1日，陆主席主持召开COPU例会。

本次会议重点讨论了具身智能和世界模型，以下附上陆主席的《谈谈具身(Embodiment)和世界模型(world-based models)》文章。

谈谈具身(Embodiment)和世界模型(world-based models)

关于联盟

开源通讯

开源活动

开源研报