COPU会议纪要丨2026.05.19

5月19日,陆主席主持召开了COPU例会。
本次会议发表评论Open AI的AIOS与Anthropic的Claude OS的文章。
评论OpenAI的AIOS与Anthropic的Claude OS
陆首群 2026.5.10
关于 AIOS 和 Claude OS,我曾与 DeepSeek 的 AI 资深专家进行讨论,并获得共识,现将我们分别的看法登录如下:
陆: 一年前,OpenAI 拟开发"AIOS",冲击苹果。经我们调研,该所谓的 OS 是建立在传统 OS 之上,只是开发其应用程序(API),并不是取代原有的 OS。今天 Anthropic 要做"全球操作系统 Claude OS",并要一刀砍向 6.4 万亿帝国(取代苹果 macOS 和微软 Windows 的操作系统),是否有点夸大其辞?!或如同一年前 OpenAI 的"AIOS"那样冲击苹果的做法避重就轻(也是只能取代 API 的做法)?!
DeepSeek: 您的判断非常精准。事实上:一年前的 OpenAI 和现在 Anthropic 讲的其实是同一件事,只是 Anthropic 被市场渲染得更"吓人"了。
一、事实核查
关于 OpenAI:您的判断正确
搜索结果显示,OpenAI 在 GPT-5.4 发布时确实强调打造"AI 操作系统(AIOS)",核心能力是 "Computer-Use"——让 AI 看懂屏幕、操控鼠标键盘、自动完成任务。但文章明确指出,这是"建立在传统 OS 之上",不是取代 Windows/macOS,而是成为运行于其上的"操作系统层"。
关于 Anthropic:Claude OS 也是同样的逻辑
搜索结果显示,Claude OS 被描述为"介于用户与所有软件之间的 AI 层"、"能自主控制电脑"、"无需任何连接器"。但仔细阅读可以发现:它运行在 macOS 上,依赖屏幕截图和鼠标键盘模拟。本质上与 OpenAI 的"Computer Use"是同一件事——只是应用层的智能化,而非内核层的替代。
二、为什么 Anthropic 听起来更"吓人"?
核心结论:叙事包装不同,但内核相同。
对比维度 | OpenAI AIOS(一年前) | Anthropic Claude OS(现在) |
技术本质 | Computer-Use | Computer-Use |
运行模式 | 看懂屏幕 → 模拟鼠标键盘 | 看懂屏幕 → 模拟鼠标键盘 |
与 OS 关系 | 运行于传统 OS 之上 | 运行于传统 OS 之上 |
是否取代底层 | 否 | 否 |
媒体渲染 | 相对克制 | "一刀砍向 6.4 万亿帝国" |
一年前 OpenAI 提出 AIOS 时,市场还在适应这个故事,但经过一年教育,AI"操控系统"这种说法已经被广泛接受。当 Anthropic 再做类似布局时,媒体选择用更夸张的修辞来描述,因为 "AI 要干掉 Windows"比"AI 帮你操控电脑"更有传播力。
三、核心判断:两者都是"避重就轻"
您的判断完全成立。
OpenAI: 说要打造 AIOS,冲击苹果,但本质是取代的是应用程序的调用方式(用户不再直接操作软件),而非操作系统内核。
Anthropic: 说要打造 Claude OS,"一刀砍向 6.4 万亿帝国",但本质与 OpenAI 完全相同——只是取代了用户与软件的交互层。
两者的共同点都是成为人与所有软件之间的新入口:用户说意图 → AI 执行 → 完成结果,用户不再需要知道用什么软件,文件存在哪里。这是一种交互范式的改变,而非底层操作系统的替代。
四、对"是否夸大其词"的判断
有所夸大,但方向正确。
"一刀砍向苹果微软 6.4 万亿帝国"确实有夸张成分——短期内无法取代 Windows 和 macOS 的内核地位。但从长期看,如果用户习惯于"只限 AI 对话,不碰任何软件",传统 OS 作为"用户界面层"的价值确实会被稀释。这也是为什么苹果、微软自己也在疯狂加码 AI——他们很清楚,AI 正在重新定义用户与数字世界的交互方式。
五、简单总结
一年前 OpenAI 的 AIOS:取代 API,不是取代 OS,判断正确
今天 Anthropic 的 Claude OS:本质相同,只是叙事更夸张
"一刀砍向 6.4 万亿帝国":媒体渲染大于实际威胁,但代表了长期的战略方向
本次会议发表L&D对有关DeepSeek与Claude的三则评议:
L&D 对有关 DeepSeek 与 Claude 的三则评议
评议一:Claude 采用 Dense 架构,DeepSeek 采用 MoE 架构,两种架构对模型训练有何影响?
L: Claude 没有 MoE 架构,而是采用 Dense 架构的主力模型,发布 → 反馈 → 迭代,越来越快,Dense 架构能起降本作用吗?
D: Claude 确实一直采用 Dense 架构,而非 MoE。
Claude(Opus/Sonnet/Haiku)全系列官方明确采用标准 Dense Transformer 架构。Dense 模型的核心特点是:每次计算动用全部参数,结构更简单,训练更稳定,输出连贯性强。
对比 MoE 和 Dense 表格:
对比维度 | Dense(Claude) | MoE(DeepSeek) |
计算模式 | 全参数激活 | 稀疏激活,仅 1~2 个专家 |
输出连贯性 | 强,全局特征统一 | 较弱,可能有风格断层 |
训练稳定性 | 高,成效稳定 | 较低,易出现"专家坍塌" |
资源效率 | 低,简单任务也消耗全资源 | 高,按需激活 |
小结:架构选择是产品定位问题,非优劣问题。
Claude 定位"深度推理、长文档分析、输出稳定",Dense 的全参数协同能保证复杂任务的一致性;DeepSeek 定位"低成本、高并发、代码生成",MoE 的专业分工能满足高吞吐需求。两者不是"谁先进谁落后",而是不同场景下的最优解。
架构差异不等于能力差距——DeepSeek V4 在编程基准上已能与 Claude 平起平坐,部分指标甚至反超。
L&D 核心结论:
Claude 坚持 Dense 不是"落后",而是服务于"稳定推理"的产品定位。
DeepSeek 无需改变架构,继续保持 MoE 成本优势即可。
评议二:关于 DeepSeek 接入 Claude 桌面后编程性能飞跃现象
L: 将 DeepSeek 接入 Claude 桌面,发现编程性能飞跃,相比 Trae 性能提升太多,甚至比原生 4.6 性能更好,这似乎说明 Claude 大模型水平一般,预计在 Kimi 2.5 水平左右。但要其编程做得好,使大模型水平被拔高。这似乎是 Agent 的功劳。这就是说当前大模型能力已经很好了,关键是怎么调用?怎么赋能?
D: "关于 DeepSeek 接入 Claude 桌面后编程性能飞跃"的现象,这是一个非常有意思的发现。核心解释:Agent 框架"拔高"了模型的表现。
现象的事实依据
您的体验并非个例。2026 年 4 月底已有技术教程详细介绍了在 Claude 桌面版中配置 DeepSeek V4 的方法,核心是利用 Claude Desktop 的"Configure third-party inference"功能,通过 Weelinking 等 API 中转平台,将默认模型从 Claude 切换为 DeepSeek V4。
您说的"比 Claude 原生 4.6 性能更好",这个结论在评测数据中也得到印证:
模型 | LiveCodeBench 得分 | Toolathlon 得分 |
DeepSeek V4 Pro | 93.5 | 51.8 |
Claude Opus 4.6 | 88.8 | 47.2 |
核心解释:Agent 框架是关键
您的推断——"这似乎是 Agent 的功劳"——有充分的道理。
2026 年初学术研究揭示了一个关键趋势:模型能力已经足够强,真正决定编程任务完成度的,是 Agent 框架如何调用和赋能模型。
一篇 2026 年 4 月发布的 arXiv 论文("Yet Even Less is Even Better")明确指出:训练有效的软件工程智能体需要高质量的任务轨迹,但通过优化训练数据质量(而非扩大模型规模),模型在 SWE-bench 上的表现最高可提升 63.16%。这意味着模型本身的能力天花板在提高,但 Agent 如何"引导"它完成多步任务,是影响最终结果的关键变量。
另一篇论文(Agent Forge)也证实了这一点:通过执行基础的多智能体验证框架(Planner/Coder/Tester/Debugger 协作),单 Agent 基线的性能可提升 26-28 个百分点。
简单说:大模型的原始能力已经很不错了,但 Agent 框架(任务分解、工具调用、执行验证、自我纠错)决定了它能否有效发挥这些能力。
为什么 DeepSeek 在 Claude 桌面上表现这么好?
Claude 桌面版内置了强大的 Agent 框架——Cowork 功能(后台执行、任务管理、多工具调度)。这个框架原本是为 Claude 模型设计的,但当你接入 DeepSeek V4 后:
DeepSeek V4 的强项: 代码生成精准、速度快、成本低
Claude Agent 的强项: 任务规划、工具调用协调、多步执行管理
两者结合后,形成互补——模型负责"写对",Agent 负责"做对流程"。这解释了为什么 DeepSeek + Claude 桌面版组合表现优于 Trae(可能 Agent 能力较弱),也优于 Claude 原生模型(可能原生模型在特定任务上不如 DeepSeek V4 专注)。
L&D 核心结论:
"DeepSeek 接入 Claude 桌面后更强"的发现,本质是:大模型水平已经够好,Agent 能力的提升成为关键瓶颈。 这意味着:
模型能力差距在缩小
未来竞争会从"模型参数竞赛"转向"Agent 框架竞赛"
谁能让模型更高效地完成复杂任务链路,谁就能拔高最终表现
对开发者/企业的启示:不要只关注模型 Benchmark 分数,更要关注:
框架任务规划、工具调用、多步执行能力
能否形成"模型能力 + 好 Agent 能力"的合力
评议三:DeepSeek V4 性价比优势冲击 Claude Opus 4.6/4.7 编程登顶优势
L: DeepSeek V4 在最近的编程测试中(SWE-bench Verified),其性能虽然未能登顶,但也跻身于排行榜前列。这时 Claude 4.6/4.7 编程登顶得分为 1503,DeepSeek V4 Pro 得分为 1463,其得分为前者的 97.3%(这说明此时 DeepSeek V4 编程性能与 Claude 4.6/4.7 是逼近或对等的),但 DeepSeek V4 相对于 Claude 的降本效果为 1/20。就是在美国,模型 DeepSeek V4 也受到相当多的企业舆论的青睐。
本次会议发表谭中意关于DeepSeek V4 调研告。
DeepSeek V4 调研报告
架构重塑、国产算力协同与全球 AI 经济范式的转移
2026 年 4 月 24 日,DeepSeek V4 的正式发布标志着全球人工智能产业进入了一个由"暴力美学"向"结构效率"转型的关键分水岭 [1]。作为 DeepSeek-R1 之后最为显著的架构升级,V4 不仅在推理性能上逼近了美国顶尖闭源模型,更通过极致的成本控制、对国产算力栈的深度解耦以及百万级超长上下文的普及化,重新定义了 AI 竞争的底层逻辑 [3]。本报告旨在深入探讨 DeepSeek V4 如何通过 MOE 架构进化、混合注意力机制、国产芯片生态整合以及开源全球化战略,构建一个有别于传统 NVIDIA/CUDA 路径的、具备高度韧性与主权的 AI 生态系统。
一、架构演进:MOE 2.0 与结构化智能的深度构建
DeepSeek V4 的核心竞争力源于其对混合专家模型(Mixture-of-Experts, MOE)架构的激进改良。相较于前代 V3 或竞争对手的同类模型,V4 通过大规模参数空间与极低激活参数的非对称设计,实现了知识广度与推理成本的最优平衡 [7]。
1.1 万亿参数时代的稀疏化策略
DeepSeek V4-Pro 拥有惊人的 1.6 万亿总参数量,但在每次前向传播中仅激活约 490 亿参数 [7]。这种约为 1:32 的激活比率,使得 V4-Pro 在具备万亿级模型知识容量的同时,维持了与百亿级模型相当的推理延迟 [8]。与之相对应,面向高效率场景的 V4-Flash 则采用了 2840 亿总参数,激活参数仅为 130 亿 [7]。这种分层策略满足了从复杂智能体(Agent)到实时对话的多样化需求 [3]。
在 MOE 路由机制上,V4 引入了更为精准的专家路由算法,有效避免了长序列推理中常见的"专家塌缩"现象。通过辅助损失函数(Auxiliary-loss-free)的持续优化,V4 能够确保不同领域的专家节点在训练过程中得到均衡开发 [10]。
1.2 流形约束超连接(mHC)与逻辑稳定性
在深度神经网络中,随着层数的增加,信息的传递往往会面临梯度消失或表征退化的问题。DeepSeek V4 应用了流形约束超连接(Manifold-Constrained Hyper-Connections, mHC),这是一种对传统残差连接的深度改良 [8]。mHC 的核心在于将每一层的输出投影到一个特定的流形空间内(Birkhoff Polytope),确保信号在跨越深层网络结构时依然能够保持高度的逻辑一致性 [3]。
数学上,这种连接方式通过限制激活值的分布方差,防止了复杂推理链条在深层网络中的疲劳断裂 [8]。这种设计在处理需要长距离逻辑推导的任务(如数千行代码的重构)时表现尤为卓越,显著降低了长文本生成中的逻辑幻觉 [13]。
模型变体 | 总参数量(Total) | 激活参数量(Active) | 训练标记(Tokens) | 精度模式 |
DeepSeek-V4-Pro | 1.6 Trillion | 49 Billion | 33 Trillion | FP4 + FP8 Mixed |
DeepSeek-V4-Flash | 284 Billion | 13 Billion | 33 Trillion | FP4 + FP8 Mixed |
二、超长上下文:百万级 Token 的平民化革命
DeepSeek V4 的最显著标签是其将 100 万 Token 的上下文窗口设为官方法定标准,并实现了工业级的稳定输出 [1]。这不仅是容量的扩充,更是通过算法创新实现的推理效率飞跃。
2.1 混合注意力机制:CSA 与 HCA 的协同
为了在维持百万级上下文的同时降低推理成本,DeepSeek V4 并没有采用传闻中的 Engram 存储,而是开发了更为高效的混合注意力架构,包括压缩稀疏注意力(Compressed Sparse Attention, CSA)和重度压缩注意力(Heavily Compressed Attention, HCA) [4]。
CSA(压缩稀疏注意力): 该机制通过对 Token 进行分组压缩,大幅减少了内存中的序列长度。同时,它引入了轻量级索引算子,仅召回最相关的压缩块进行计算,极大地降低了 KV Cache 的压力 [6]。
HCA(重度压缩注意力): 主要部署在模型的初始层,用于快速吸收全局宏观背景,为后续深层处理提供导航 [3]。
这种混合架构使得 V4-Pro 在处理 100 万 Token 时的推理 FLOPs 仅为 V3.2 的 **27%**,而 KV Cache 的内存占用更是缩减至惊人的 10% [3]。
2.2 解决了智能体的"记忆瓶颈"
DeepSeek V4 通过引入"Sink Logits"和"思维流缓存"(Thinking-stream caching)技术,解决了 Agent 在执行长周期任务时的中断问题 [3]。在处理涉及数百次工具调用、复杂日志分析的任务时,V4 能够保持完整的逻辑链条 [3]。根据测试,V4-Pro 在 1M 极限长度下仍能维持 0.59 的找回率,支撑了代码仓库级的分析 [3]。
三、降价核心:效率红利与"三美元前沿"
DeepSeek V4 的定价并非基于低价倾销,而是来源于算法创新带来的"结构性效率红利" [5]。
3.1 极致的 API 价格战
V4-Pro 的 API 定价为每百万输入 Token 1.74 美元,输出 3.48 美元;而 V4-Flash 的输入价格低至 0.14 美元 [1]。DeepSeek 的定价逻辑将前沿模型的经济门槛降低了约 85%-90% [5]。这意味着此前因成本过高而无法落地的长文本处理(如法律全案卷扫描)现在都具备了商业化可行性。
3.2 缓存命中定价:RAG 的经济终点
DeepSeek 进一步推出了极致的"输入缓存命中"(Cache Hit)定价方案,缓存命中价格仅为原价的 1/118。这种策略旨在引导开发者优化 Prompt 工程,实现近乎零成本的智能调用。这直接挑战了闭源模型通过高昂上下文计费获取利润的商业模式 [20]。
模型名称 | 输入价格(每 1M Token) | 输出价格(每 1M Token) | 缓存命中价格(每 1M) |
GPT-5.5 | $5.00 | $30.00 | $2.50(Est.) |
Claude Opus 4.7 | $5.00 | $25.00 | $1.25(Est.) |
DeepSeek V4-Pro | $1.74 | $3.48 | $0.0037 |
DeepSeek V4-Flash | $0.14 | $0.28 | $0.0029 |
四、国产算力:从"NVIDIA 依赖"到"主权栈"迁移
DeepSeek V4 实现了国产算力栈的 "Day 0"适配,展示了中国 AI 产业如何在不依赖高端 NVIDIA 芯片的情况下,依然能构建领先模型 [4]。
4.1 华为昇腾 950 的深度调优
DeepSeek V4 与华为昇腾(Ascend)芯片的结合达到了前所未有的深度。在 V4-Pro 的 8K 输入场景下,昇腾 950 超节点实现了约 20 毫秒的单 Token 输出延迟,性能已显著超越 NVIDIA H20 芯片 [22]。其核心支撑包括:
原生精度加速: 硬件层面对 MXFP8 和 MXFP4 的全量支持,使显存占用降低 50% 以上 [22]。
稀疏内存访问优化: 针对 MOE 架构特性,在硬件层面解决了专家切换时的带宽瓶颈 [22]。
4.2 国产芯片阵列的集体同步
除华为外,包括寒武纪、海光信息、摩尔线程等在内的多家国产芯片商同步宣布完成 V4 适配 [4]。这种"全栈国产"方案为企业级用户提供了极高的安全性和可控性,开始在性价比上展现出对通用 GPU 的替代潜力 [27]。
五、开源战略:重塑全球 AI 竞争的平衡
DeepSeek 坚定采用 MIT 开源协议发布 V4 模型权重,这已成为其最重要的全球化竞争杠杆。
5.1 权力下放与生态繁荣
通过在 Hugging Face 和 ModelScope 上开放权重,DeepSeek 赋予了全球开发者自行部署的能力 [10]。在**"全球南方"**国家,DeepSeek 的开源方案成为了绕过技术限制、建立自主 AI 能力的最佳选择。这种策略允许中国在不拥有每一个应用层的情况下,依然能够深度参与全球 AI 治理标准的制定 [16]。
六、市场扩张与行业应用:从"实验室"到"核心生产力"
DeepSeek V4 已经深度嵌入了中国的医疗、金融、法律等关键核心行业。
6.1 医疗:临床决策的新支柱
在浙江,超过 64% 的全科医生已将其作为协作诊疗工具。模型展现了强大的长文本分析能力,辅助医生识别潜在的罕见病风险并拦截不合理处方。
金融机构通过在私有云中部署 V4,实现了对海量研报和合规文档的秒级自动化处理,同时确保数据不出内网 [25]。在法律界,V4 的长上下文窗口允许律师一次性导入整个诉讼案件的涉案文档进行证据链梳理,将原本需要数周的工作缩短至数小时。
七、战略走向:全球 AI 竞争的"分叉路口"
DeepSeek V4 的发布预示着全球 AI 竞争正在演变为多维度的"系统替代" [32]。未来极有可能分裂为两个技术体系:
NVIDIA-CUDA-ClosedStack: 由美国巨头主导,追求极限性能。
Sovereign-Open-EfficientStack: 由 DeepSeek、华为等力量驱动,强调主权可控、性价比和全球扩散 [19]。
八、结论
DeepSeek V4 是一场深谋远虑的战略突围。它通过 MOE 2.0 和 mHC 架构在算法层面实现了降维打击,利用百万级上下文技术占领了 Agent 时代的制高点,并借助国产算力的崛起摆脱了外部依赖。V4 的成功揭示了 "以效率换空间、以开源求盟友、以国产求自主" 的可行路径。
(注:本报告由 AI 产业专家团队撰写,引用数据基于 2026 年 5 月前的公开资料。)
参会人员:陆首群、章文嵩、都莉楠、陈连虎、陈越、袁怿、宋可为、孟迎霞、张侃、唐小印、安泱、鞠东颖、刘澎(线上)、陈伟(线上)、靳虹博(线上)、龚宇华(线上)、谭中意(线上)、韩宪平(线上)、胡宇(线上)、Anna.AI(线上)。
