COPU会议纪要丨2026.05.12

2026-05-17 10:00:15 444

图片关键词

5月12日，陆主席主持召开了COPU例会。

本次会议发表了COPU《四评DeepSeek》（DeepSeek v4可能改变全球AI发展格局）的文章。

四评 DeepSeek

（DeepSeek v4 可能改变全球 AI 发展格局）

陆首群 | 2026.5.7

在 DeepSeek v4 公布前，我们于4月21日提前发表了《评 DeepSeek v4》的文章。4月24日，DeepSeek 发布了《DeepSeek v4 预览版》，4月29日，发布了《DeepSeek v4 发行版》。如果将我们的《评论》与 v4《预览版》和 v4《发行版》对照来看，我们的《评论》还是相当精准的，其中一位 DeepSeek 的 AI 专家认为：这篇评论具有前瞻性。

我们在《评论》中指出：DeepSeek v4 最大的优势在于高性价比，最大的贡献便是实现算力国产化。

随着 AI 大模型不断扩大规模或向万亿级 tokens 超大模型发展，美西方采取资源（Tokens）、能源、资金以堆砌的方式建设 AI 大模型，造成 Tokens 供给、能源消耗、资金投入的巨大增长，影响到 AI 大模型发展步履维艰或难以为继的地步。而中国 DeepSeek 走出一条低成本、有限资源、高效率、高性价比发展AI 大模型的路径，把训练成本降到极致，但对照美西方建设 AI 大模型的高高在上的价格变成了“白菜价”，势将改变全球 AI 的发展格局，再次引起美西方的关切。5月1日美国官方对 DeepSeek v4 进行评估：① DeepSeek v4 是美国迄今为止评估过最强大的中国 AI 模型，② 它实际性能与美国目前发布的 GPT-5 类似（技术差距不超过 8个月），③ DeepSeek v4 比最低价的 GPT-5 还便宜；美国顶级 AI 企业之一的 Meta 表态：Meta 将以 DeepSeek 的研究方向为榜样；美国主流媒体认为：DeepSeek v4 的开源策略极大地激发全球开发者的创新活动；COPU 评论：这将推动 AI 进入普惠、自主、可控的新阶段。

DeepSeek v4 将推动降本或提高性价比做到极致！

DeepSeek v4 降价的核心是：技术升级 + 国产算力 + 开源战略 + 市场扩张四大因素。

一）技术升级

*DeepSeek v4 采用其首创的多头注意力架构 MLA，

*在采用混合专家模型MoE及其演进时，不断改进其稀疏化机制，

*随后采用混合路由和支持百万 token 超长上下文时，继续降本。

以编程为例：

DeepSeek v4 在最近的编程测试中 (SWE bench Verified)：其性能虽然未能登顶，但也跻身于排行榜前列，这时 Claude Opus 4.6/4.7 编程登顶得分为 1503，DeepSeek v4 pro 得分为 1463，其得分为最高分的 97.3%。

DeepSeek v4 的高性价比是在其对等的相当高性能的背景下出现的。

*下面讨论 MoE 及其演进的降本路线：

从激化参数量→激化专家数→协同 Engram→协同（动态路由），其降本效果为：1/20 → 1/30 →1/60→（1/100）。

* DeepSeek v4 pro 支持百万 token (M) 超长上下文，长文本 / RAG 场景性价比碾压其他竞品，v4训练成本约为 560万美元，与GPT-4 对标，价格只有其1/70。

下面讨论 DeepSeek v4 混合路由实现情况：

这时我们将 DeepSeek v4 分成两部分，即v4 Flash (高性价比) 和v4 pro (高性能)。v4 Flash 适用于成本极低、简单任务的场合；v4 pro 适用于复杂推理能力强的场合，适用于多步 Agent 任务，优势明显。

核心目标：90% 以上常规状态取 v4 Flash，仅在必要时升级取 v4 pro。

关键数据备查：

指标：* **输入价格 (标准)：** v4 Flash：0.14 美分 / M token，v4 pro：1.74 美分 / M token

* **输出价格 (标准)：** v4 Flash：0.28 美分 / M token，v4 pro：3.48 美分 / M token

* **总参数：** v4 Flash：284B，v4 pro：1.6T

* **激活参数：** v4 Flash：13B，v4 pro：49B

*关于 v4 pro 成本计算 (并与 GPT-5.5 进行降价对比)：

v4 pro (缓存命中场景)，输入价格 0.025 元 / 百万 token 超长上下文。

GPT-5.5 输入价格 30 美元 (约 216 元人民币)。

v4 pro (缓存命中) 降价 216 / 0.025 = 近 9000 倍，这个 0.025 元是 v4 pro 在限时2.5折叠加缓存命中后的价格（而常规缓存命中价格为1元/百万token）。

v4 pro (缓存未命中场合)，输入价格 12 元 / 百万 token (超长上下文)。

GPT-5.5 输入价格 30 美元 (约 236 元人民币)。

v4 pro (缓存未命中) 降价 12/ 236 = 1 / 18`(约 5.6%)。

如此：MoE 及其稀疏演进降价 + 混合路由降价（与GPT5.5对比）：1/60 x 1/18 = 约1/100。

我们再来讨论v4 Flash VS GPT-5.5 的降价情况：

v4 Flash 输入价格 (标准) = 1 元 / 百万 token；

而 GPT-5.5 输入价格为 30 美元 (折合 216 元人民币) / 百万 token，降价超 200 倍。

下面我们再来讨论v4pro输出价格：

v4 pro 输出：24 元 / 百万 token；

GPT-5.5 pro 输出：180 美元 (折合 1296 元人民币) / 百万 token。

v4 pro 输出降价约为 GPT-5.5 pro 的 1/54。

* 在百万 Token(M) 极端测试场景中，v4 将单 Token 计算量压低降价到其上一代 (v3.2) 的 27%，显存占用骤减至 90%。

* V4 抢滩 Agent 与上下文市场，V4 Pro 在 Agent Coding 评测中获开源榜单第一。在 Human Eval 评分时突破 90%，在SWE bench Verified 测试中达80.6%

二）算力国产化

DeepSeek v4 适配华为昇腾 950 PR 算力卡运行，摆脱英伟达H100/H200 算力卡高价垄断，使算力全栈从英伟达的CUDA迁移到华为的 CANN上来，立足于华为昇腾 950 PR 和超节点 Atlas 950 Super PoD 集群系统，实现成本腰斩。昇腾 950 单卡7万元是英伟达 H100 / H200 倍价的1/3，单位 token 的算子与电费双下降，推进成本下降 40%，能耗下降 60% 。智源研究院推出FlagOS 研发成果，使国产算力都能兼容，并都能与 DeepSeek v4 适配，可进一步下降了国产算力成本。

三）开源战略

DeepSeek v4 采用 MIT 开源许可证，实行开源零授权费，打破海外“授权费 + Token费”模式，本地部署还实行零费用和无限使用。缓存命中打 1 折，限制 2.5 折。实行开源：做到开源创新、完善维稳、扩大生态，推动数字化转型、智能化重构，推出一条普惠、便民降价 (或零价) 之路。

四）关于 DeepSeek v4 尚待克服发展中的局限性问题

DeepSeek 在发展中取得了重大成果的同时，在克服其短板的进程中，迄今尚有待处理好其发展中的局限性问题：

①多模态正在起步，尚未臻完善，v4 是纯文本模型，视觉版本在开发中，时间表尚未公布。

②复杂工程落地仍存差距，完整的游戏引擎构建等任务，与 GPT 5.5 / Claude 4.6/4.7 比，差距明显。

③中文能力不如 Claude 4.6/4.7（评测明确指出 Claude 在中文任务方面优于 v4 pro）。

④推理吞吐有限：官方认承v4 pro版受高端算力限制，下半年昇腾 950 上市后有望取得改善。

⑤第三方权威基准测试有待验证：目前 DeepSeek 提出的 v4 基准测试为自报，独立榜单尚未全面覆盖。据DeepSeek宣布，将于下月发布DeepSeekv4.1，提升自己多模体图形、视频、音频的理解能力。欢迎DeepSeeK增强多模态的努力！

本次会议发表了袁怿的文章：面向长时自主运行智能体上下文工程调研。

随着人工智能的持续演进，应用层的智能体（Agent）领域正快速迭代。本次调研以上下文工程为统一评价基线，从长时间自主运行的视角出发，对开源智能体（及智能体框架）进行结构化分析与比较。

图片关键词

（图片说明：2026年初我们观察到的三大技术趋势——上下文工程、Harness工程与编码智能体，三者高度重叠，并与主流大模型评测场景形成呼应。）

如上图所示，2026年初行业的核心趋势与技术焦点正集中在上下文工程、Harness工程和编码智能体这三个方向的交汇处。这一趋势图谱也与当前多数大模型评测数据集所模拟的真实场景高度吻合，构成了本次调研的宏观背景。

评价角度：面向长时间自主的上下文工程

即便进入2026年，我们仍无法忽视模型底层能力对智能体最终表现的支配性作用。但同样值得关注的是，随着Harness工程成为新的热点，在智能体侧实现业务场景与模型能力对齐的探索正系统性地展开。本文将以如下维度展开分析：

规划推理——“思维”
对于生成式语言模型，规划与推理能力以文字序列的形式承载其“思维”。上下文工程的目标，正是让模型在恰当的时间获取恰当的信息。它涵盖了将大语言模型与企业数据连接的策略、架构与工具，以实现对特定领域内容的精准推理。面向长时间自主运行场景，为更有效地利用上下文窗口中的注意力机制，我们需要对窗口内容进行精细管理，以最大化注意力密度与有效信息占比。在实践中，这主要依赖三种手段：上下文压缩、上下文切换（委派子任务）以及记忆管理。

智能体协作——“团队”
以上下文切换和子任务委派为例，面向长时间自主运行，多智能体间的协作能力不可或缺。更深一层看，由于LLM的请求处理逻辑天然支持思维树、回退等机制，任何会改变对话历史的行为，都可以广义地视为一种多智能体协作。其形态可能包括回退、压缩、新建对话分支、自代理等不同形式。

工具调用——“手脚”
Agent通过工具调用与外部信息系统交互。在业务场景中，工具调用能将外部系统的数据载入上下文窗口，或向外部系统发送指令以实现自动化任务闭环。常见的实现方式包括function call、MCP（模型上下文协议），部分技能编排亦可达到类似效果。考虑到不少Agent框架支持以插件形式动态加载第三方工具，本文对Agent的考察将重点聚焦其默认工具列表。

长时间运行能力与触发机制
区别于上下文工程中由指令或特定信号驱动的执行模式，长时间运行能力体现的是智能体与协同信息系统之间的持续交互方式。以OpenClaw为例，其通过定时任务或心跳机制自主触发工作，使得智能体可以在无人值守下保持运行。因此，我们将专门考察Agent如何实现长时间驻留与触发机制。

工程实践与状态管理
工程实践中还需额外关注：错误机制与分类策略、追踪与可观测性、重试策略与降级决策。在长时间自主运行中，错误与异常不可避免，智能体能否有效捕捉、分类并从异常中恢复，直接决定了其长期可靠性。

智能体（框架）分析

基于上下文工程和长时间自主运行的统一评价基线，本节依次剖析七类代表性智能体及框架，选取参考了https://openrouter.ai/ 这个最大的大模型供应商代理网站上agent消耗token排名中靠前的智能体（或框架）。LangChain作为传统工作流基线，代表“原始上下文堆积”模式；AutoResearch以最小可控原则演示单智能体整夜自主实验；OpenClaw引入网关平面将触发与对话解耦；Pi以极致精简实现可定制终端编码框架；Hermes将压缩、记忆、子代理委派和错误恢复做进一级架构；Claude Code（基于泄露代码推测）展现了商业编码Agent的密集上下文工程；Kilo Code则代表了开源编码Agent的工程整合思路。

测试集批判：审视我们用来评价的尺子

面向长时间自主运行的智能体场景，我们需要让智能体实现自我评估过程，减少人工评估和干预。我们参考斯坦福HAI 2026报告对于各个主要大模型测试集合进行了分析和调研。希望从这部分的调研工作中，对智能体自评估过程有所启发。进而为长时间自主运行场景下的自评估提供启发，从而完成自我评估和自我演进。

本次会议来自openKylin 社区朱晓红和李卓珩工程师与会做了汇报。

openKylin 围绕社区版本发行迭代、海内外社区运营工作进行专项汇报，明确了 openKylin 开源社区与银河麒麟商业发行版上下游赋能、技术同源共建的核心关系，重点介绍了 openKylin 在自主技术创新、系统原生特性方面的优势成果，并着重阐述了 openKylin 面向RISC-V 机器人场景的适配落地、RISC-V架构生态深度布局，以及RVA23版本适配发布等相关工作，持续夯实全架构、多场景国产化操作系统生态根基。

图片关键词

参会人员：陆首群、张侃、章文嵩、朱晓红、李卓珩、安泱、王珊、谭中意、袁怿、孟迎霞、鞠东颖、陈连虎、刘澎（线上）、陈越（线上）、陈伟（线上）、胡宇（线上）、靳虹博（线上）、韩宪平（线上）、李春燕（线上）、Anna.AI（线上）。

图片关键词

开源通讯

COPU会议纪要丨2026.05.12

关于联盟

开源通讯

开源活动

开源研报