COPU会议纪要丨2026.02.24

2026-02-25 13:00:32 98

图片关键词

2026年2月24日，陆主席主持召开COPU例会。

本次会议首先发表《东西方竞相争夺编程王冠》的文章。

东西方竞相争夺编程王冠

陆首群

2026.02.16

Anthropic公司于2月6日深夜发布的Claude Opus 4.6登顶成为编程之王！

Anthropic深夜爆出王炸，Claude 4.6用近乎恐怖的编程能力和智能军团，给OpenAI和谷歌上了一堂“降维打击”的课，使Gemini 3-pro和GPT-5.2的编程能力望尘莫及。

Claude Opus 4.6规划更缜密，能更持久地执行AI Agent任务，在超大规模代码库中运行也更加可靠，它还具备更强的自我纠错能力，比如：精准的代码审查、调试，上下文支持100万token的Opus级模型。

Opus 4.6：Agent search 84.0%, agentic financial analysis 60.7%，office task 1606。

在ARC-AGI-2上，Opus 4.6拿下68.8%高分，超过GPT-5.2-xhigh（在Claude Opus4.6发布后几分钟，OpenAI的GPT-5.3-Codex接着发布，继续与Claude Opus4.6进行编程竞争）。

梁文锋透露：DeepSeek 将在2月中旬推出新一代旗舰AI模型DeepSeek v4，直指agent时代把宝押在写代码和处理复杂任务能力上，从内部测试情况来看，其编程能力可能超越Claude Opus4.6和GPT-5.2xhigh。

智谱开发的GLM-4.7和kimi开发的K2.5也参加东西方争夺编程王冠的战团，他们的编程能力也位于排行榜的前列。

目前东西方6家顶级AI企业：Anthropic的ClaudeOpus4.6、深度求索的DeepSeek v4、谷歌的Gemini 3 pro、OpenAI的GPT5.3、智谱AI的GLM4.7、月之暗面的Kimi的k2.5等都聚焦于争夺编程的王冠，意味着什么？

我在与有关AI大师讨论后认为：表面上看这是编程技术指标排行榜名次的竞争，实质上是整个AI行业正在经历一次深刻的战略转向。选择编程作为主战场，背后主要有两大深层逻辑：最清晰的商业路径和最硬核技术的战略转向。

商业路径是从“成本中心”到“价值中心”。相比通用的聊天机器人模糊的变现方式，编程能力是少数能直接兑现商业价值的场景。

Anthropic的成功已验证了这条路径：2025年3~5月，其营收规模从20亿美元暴增至30亿美元，其研发投入与营收比为1.04:1（优于OpenAI的1.56:1），证明高强度研发与可持续商业化是可并行的。智谱GLM-5发布后股价大增超25%，其官方每天限额的“coding plan”被抢购一空，这也说明市场愿意为解决实际问题的技术突破买单，而不再为单纯的“chatbot”概念付费。

谈到最硬核的技术试验场，这是一条通往通用人工智能AGI的必经之路（顺便说一句：早在2025年初，我曾指出目前生成式自回归语言大模型，因其与物理世界交互、理解的欠缺、也缺乏本地和世界知识，它作为AI角色存在局限性，必须向真正的AI转轨，如向通用人工智能AGI转轨；而在去年早期我在发表“评DeepSeek”文章时也向梁文锋提出类似建议）。编程不仅是一个应用场景，更是检验和倒逼模型能力进化的“试金石”。在验证“长时运行”与处理“复杂任务”能力时，早期的AI只能处理几分钟的简单任务，而至今的趋势是智能体连续工作数天甚至数周，例如Claude code的案例：在拥有1250万行代码的巨型开源库中（此处不是指Anthropic的Claude大模型的巨型闭源库，我们无法从此获得权重，架构代码和训练数据，此处指被操作的“巨型开源库”指的是claude所处理的目标代码库，即vLLM/一个高性能大模型推理加速库，它是完全开源的，也可在Github上访问）可连续自主工作7小时完成复杂任务，且精度高达99.9%这种从“修bug”到“造系统”的跨越，是验证模型是否具备真正“智能体”的关键。

谈到从“写代码”到“做工程”范式跃进问题，现在竞争的焦点已经从写几行正确的代码（“写代码”），升级到能否独立完成一个完整的工程项目（“做工程”）。

下面举出几个实例：

1）智谱GLM 5在测试中需要完全自主的“经营”一年的虚拟售货机业务，最终实现了不错的盈利。

2）独立游戏开发者利用GLM 5在12小时内开发出一款完整游戏，而传统模式需要2~3个月。

3）构建多智能体协同的“虚拟团队”：面对复杂任务，单一模式难以胜任。Kimi 2.5推出的agent集群能力，能根据需求现场调度多达100多不同场景的“分身”并行工作。这种从“单兵作战”到“集体协作”的进化，正是未来AGI处理复杂世界问题的雏形。

所以说，Anthropic、DeepSeek、OpenAI、智谱、kimi等公司全力争夺“编程王冠”时，它们争夺的远不止一个排行榜名次、他们在争夺企业市场的入场券，是在锤炼通往AGI的核心技术能力，更是在定义一代软件开发的生产关系。这样竞争的结局，将深刻改变我们创造数字世界的方式。

本次会议进一步阐述OCR 2产生幻觉的原因。

在2月2日COPU的例会上，我们根据梁文锋透露的一些信息，简单介绍了OCR-2：

ORC是DeepSeek技术路线的延伸，它将改善人类与机器打交道的方式，正在向全模态发展，可用于处理非结构文本。

对于OCR-2，用极少数token（如256个token），可读懂复杂文档中的图形、表格、数学公式，甚至还能理解声音、视频的内容，并能自主编辑：按人类理解的逻辑，将全部项目进行优先排队。

在2月10日COPU例会上，我们转载了中科院研评OCR-2的文章：

《DeepSeek OCR：90%准确率是幻觉》

他们提出并探讨了“视觉优势”（visual merit）还是“语言捷径（Linguistic cratch）”是驱动DeepSeek-OCR 性能的核心问题，通过系统性实验，揭示了DeepSeek-OCR在高压缩比下表现出的高OCR精度可能更多地依赖于语言先验，而非真正的视觉理解。

为了核实网上传出的中科院文章的真伪，并了解OCR产生幻觉的成因，COPU邀约DeepSeek专家讨论，并在本次COPU例会（2月24日）上发表。

COPU与DeepSeek（专家）讨论中科院研究评论OCR的文章

DS：感谢您与我分享这篇文章。我可以帮助您核实并解读中科院对OCR的研究和评论。

COPU：该报告是否真实存在？

DS：是的，这项研究报告是真实存在的。根据arXiv.org的官方论文页面，中国科学院成都计算机应用研究所、中科院深圳先进技术研究院等机构的学者（梁云皓、倪时文等）于2026年1月7日发表了一篇题为《Visual Merit or Linguistic Crutch? A Close Look at DeepSeek-OCR》的论文，这正是您所提到的研究论文。

COPU：中科院专家指出的“90%准确率是幻觉”的含义是什么？

DS解释说：您提到的90%准确率是幻觉并非指DeepSeek OCR完全无效，而是指：在没有语言先验支持的情况下，DeepSeek OCR的准确率从约90%暴跌至20%。这意味着DeepSeek OCR声称的高压缩比（10倍压缩，97%精度）下的优异表现，很大程度上依赖解码器语言模型的“语言先验（Linguistic Priors）”来“填补”视觉信息的缺失，而非真正的视觉理解能力。

DS：介绍DeepSeek实验核心发现：

1）在随机字符图像测试（无语言先验时），准确率暴跌：90% → 20%；

2）句子级语义破坏高压缩比（依赖语言先验更明显）Tiny模式下降11.2%；

3）下游QA任务（语义完整性迅速恶化）准确率仅为27.7%；

4）长文本压力测试（约8000~10500token处模型崩溃），压缩可能加剧长文本瓶颈。

DS：DeepSeek OCR的幻觉正是来自过度依赖语言先验而非视觉优势。

更准确的理解是：

语言先验（Linguistic Priors）指语言模型根据上下文“脑补”缺失信息的能力。

当视觉token被高度压缩时，模型被迫依赖语言先验来“填空”，导致在非常规文本（如随机字符）上产生幻觉。

真正的视觉优势应该是不依赖语言先验，仅凭图像信息就能准确识别。

值得注意的是：DeepSeek团队与2026年1月26日发布DeepSeek OCR 2，引入了“视觉因果流（visual causal flow）”技术，能够根据图像语义动态调整信息处理顺序，使模型的阅读逻辑更贴合人类对复杂文档的理解方式。

最后DS还说：您引用中科院的研究是真实存在的，其研究结论是DeepSeek OCR的高准确率很大程度上依赖语言模型搞的“脑补”而非真正的视觉理解，即语言先验正是产生幻觉的根源，而非消除幻觉的手段。

参会人员：陆首群、章文嵩、袁怿、安泱、张侃、孟迎霞、王珊、陈道清、陈钟（线上）、鞠东颖（线上）、陈越（线上）、程海旭（线上）、胡宇（线上）、韩宪平（线上）、Anna.AI（线上）。

图片关键词

开源通讯

COPU会议纪要丨2026.02.24

关于联盟

开源通讯

开源活动

开源研报