COPU会议纪要丨2025.11.18

11月18日,陆主席主持召开COPU例会。
在上次例会上,袁怿作了关于Agent发展问题的汇报,陆主席在会上提出“Agent十二问”,在本次会议上邀请DeepSeek(DS)回答,以供大家讨论。
DS答“Agent十二问”
Q1:Agent作为人类智能工具、人类助手、人类智能代理,以及具有自主规划、管理、执行的智能体,有何区别?
DS:智能工具,被动响应,如搜索引擎,依赖用户直接输入。智能助手,如语音助手,能简单交互和任务执行,但自主性有限。智能代理,代表用户行动,如自动预订系统,有较高代理权,但仍受用户约束。自主智能体,能独立规划、管理和执行复杂任务(如自动驾驶),具有高度自主性。
区别主要在于自主级别,从工具到自主体,自主性递增,人类控制递减。
Q2:Agent的发展是否一直必须尊重人类的主体性?
有人认为,人类+Agent的综合智能体可永远大于人类制造的AI的智能,如此人类可永远控制AI,你是否同意?
DS:是,Agent发展必须尊重人类主体性,这是AI伦理的核心,确保人类保留最终控制和决策权。
部分同意人类+Agent可增强智能(如人机协作提升效率),但“永远大于”不绝对;AI智能可能超越人类的特定领域,且控制依赖设计(如值对齐),并非必然永恒,需谨慎看待技术不确定性。
Q3:Agent是一个具有文明意义的强大工具吗?
DS:是,Agent如同历史工具(如印刷机、互联网),能推动生产力、社会变革和文明进步,但需要负责任使用以避免风险。
Q4:具有管理职能的Agent是具有自主性吗?
DS:是,管理职能(如规划、协调)要求一定自主性,但程度不同;可能基于规则(低自主)或学习适应(高自主)。自主性是其核心特征。
Q5:Agent网络可以由负责管理的Agent和一群担负协作执行的Agent组成吗?还是只能由人类管理?
DS:是,Agent网络可完全由Agents组成,包括管理Agent(自主规划协调)和执行Agents(协作完成任务),无需人类实时介入。例如多Agent系统。人类通常设定目标或监督,但非必须直接管理。
Q6:在GPT4/5开发过程中,作为三大颠覆性进化之一的是Agent的觉醒,是指什么?
DS:指AI从被动工具变为主动代理,能自主理解上下文,规划并执行任务(如GPT系列增强交互性和任务完成能力)。但具体细节未公开,基于行业趋势推测。
Q7:Agent与机器人关系的要点是什么?
DS:Agent是智能“软件”,机器人是物理“硬件”;Agent可作为机器人的控制核心,提供决策和认知,机器人提供物理交互和环境感知。
Q8:Agent与具身关系的要点是什么?
DS:具身(embodiment)指Agent拥有物理身体(如机器人),通过传感器和执行器与环境交互,增强学习和适应能力。要点是具身能提升Agent的智能和现实世界应用。
Q9:Agent与世界模型关系的要点是什么?
DS:世界模型是Agent对环境的内在表示;Agent使用世界模型预测行动后果,规划任务(如强化学习中的模型基方法)。要点是世界模型是Agent智能的基础。
Q10:Agent与通用人工智能关系的要点是什么?
DS:Agent是AGI的要素之一(代理,agency),但AGI还需要其他要素:涌现(复杂行为)、功能可见性(环境交互)、具象(具身)。Agent提供自动行动能力,是AGI核心组成部分。
Q11:为什么如Anthropic所说,以“上下文工程”为核心,如何支持Agent技术发展框架?
DS:上下文工程通过设计提示和上下文,使Agent框架by改善决策、减少幻觉、并确保任务在安全范围内执行。
Q12:为什么说AI Agent从技术上讲是应用程序?从业务上讲是用户使用大模型的入口?
DS:技术上:Agent是应用程序,集成AI模型(如LLM)、感知、决策和执行模块,提供具体功能。
业务上:Agent作为用户接口(如聊天机器人),简化大模型使用,降低技术门槛,或为服务入口,提升可访问性和商业化。
由于我们在COPU例会上发表了一批点评大模型及AI发展要素的重磅文章,引起了微信公众号及有关朋友的关注,微信公众号在我们会议纪要之后发表留言,最新的留言是:
中国在开源多模态大模型领域的活跃进展
留言提供了很多素材,并根据所描述的模型基本特性:如参数规模、核心功能、架构等,都与官方发布的技术报告、论文和开源仓库中的说明相符,经我们初步核对,其信息的准确性度较高。留言未计及排行榜,并注明这些多模态大模型的活跃进展截止于2025年10月)
中国多模态大模型进展情况
① 阿里Qwen3-VL系列,开源:
其支持图像、文本、视频多模态,以及128K的超长上下文,是核心亮点。在多个基准测试(MMMU、MathVista、DocVQA多模态评测基准上),Qwen2-VL系列(Qwen3-VL前身)曾取得顶尖成绩。
② 蚂蚁集团Ming-Univision,开源:
蚂蚁集团发布了该模型,相关论文和代码已公开(16B参数、MoE架构是其公开的技术规格),连续且统一的视觉分词器是其技术创新的核心,旨在解决传统VQ-VAE等离散分词方式带来的量化误差问题。
③ DeepSeek-V3.2,开源
DeepSeek-V3是一个真实发布的巨型模型,671B参数和MoEj架构是其标志性特征。在LMArena文本榜排名国产第三(排名是随时间动态变化的),编程得分高、可分析10万行代码库、推理成本低(具有低成本推理的特点)。
④ 百度PaddleOCR-VL(尚需与百度官方核实定名),开源
多模态大模型定位非常垂直,专注于文档解析(如表格识别、公式识别、版面分析,而非通用的图像理解),在这个细分领域,其精度和效率均处于行业领先地位,并有大量产业落地案例。
⑤ 腾讯HunYuan World Mirron,开源
(混元大模型系列面向3D和视觉世界的分支),其支持视频、多视角图等3D表示形式,旨在构建数字孪生和虚拟世界。
⑥ 美团LongCat-video,开源
美观技术团队发布了LongCat系列模型,其中包含视频生成版本。
13.6B的参数规模、支持文生/图生视频、720P分辨率以及?视频生成与续写。
请谭中意团队进行深入调研和深刻点评。
留言还发表:
中国AI开源模型排行榜
根据2025年10月及近期公开信息,中国AI开源模型在多个领域表现出色,以下是一些性能领先、生态成熟的开源模型介绍:
(1)Minimax M2
开发商:上海稀宇极智(Minimax)
特点:总参数量230B,激活参数量10B,Artificial Analysis评测全球前五、开源第一(61分)。编程能力对标Claude Sonnet 4.5,Agent任务规划准确率89%,推理速度为Claude 3.5 Sonnet的2倍。支持稀疏MoE架构,每秒可处理上千token,适合复杂任务开发。
(2)智谱GLM-4.6
开发商:北京智谱AI
特点:3550亿总参数,200K上下文窗口,支持40万字长文本处理。Humaneval代码测试得分82.3%,多语言覆盖107种,低资源语言翻译质量超行业平均40%。动态推理路径规划提升数学证明效率35%,支持国产芯片适配。
(3)DeepSeek-V3.2
开发商:杭州深度求索
特点:671B总参数MoE架构,LMArena文本榜国产第三。LiveCodeBench编程得分1394,支持HTML/CSS/JS全流程开发,128K上下文可处理十万行代码库分析。稀疏注意力机制降低50%推理成本,API输出费用仅3元/百万token。
(4)阿里Qwen2-72B
开发商:阿里云
特点:720亿参数纯密集模型,Hugging Face Open LLM Leaderboard榜首。MMLU得分78.6%,超越LLaMA 3-70B,支持128K上下文及多模态理解(图文音视频)。全尺寸模型开源(0.5B~72B),适配消费级GPU,安全性对标GPT-4,多语言有害响应率<0.3%。
(5)Moonshot Kimi-7B
开发商:北京月之暗面
特点:70亿参数轻量模型,SuperClue中文榜单Top3。长文本摘要准确率85%,支持200K上下文。量化版本可在单张RTX 4090运行,中文医疗/法律垂直领域微调模板开源,推理速度比同规模模型快40%。
以上模型均通过第三方盲测验证,性能接近闭源顶级模型,且在开源协议、成本控制、生态适配等方面表现突出。具体选择可根据应用场景(如编程、多模态、长文本处理等)及硬件资源灵活匹配。
请谭中意团队调研最近发表的全球AI开源及综合排行榜。
会议听取谭中意汇报在沙特举办的沙中开源与AI科技峰会的情况。并带回沙特程序员协会感谢陆主席对沙特开源支持的奖牌。


