开源通讯

COPU会议纪要丨2026.02.24

2026-02-25 11:25:02 12

图片关键词

图片关键词

2026年2月24日,陆主席主持召开COPU例会。


本次会议首先发表《东西方竞相争夺编程王冠》的文章。


东西方竞相争夺编程王冠

陆首群

2026.02.16


Anthropic公司于2月6日深夜发布的Claude Opus 4.6登顶成为编程之王!


Anthropic深夜爆出王炸,Claude 4.6用近乎恐怖的编程能力和智能军团,给OpenAI和谷歌上了一堂“降维打击”的课,使Gemini 3-pro和GPT-5.2的编程能力望尘莫及。


Claude Opus 4.6规划更缜密,能更持久地执行AI Agent任务,在超大规模代码库中运行也更加可靠,它还具备更强的自我纠错能力,比如:精准的代码审查、调试,上下文支持100万token的Opus级模型。


Opus 4.6:Agent search 84.0%, agentic financial analysis 60.7%,office task 1606。


ARC-AGI-2上,Opus 4.6拿下68.8%高分,超过GPT-5.2-xhighClaude Opus4.6发布后几分钟,OpenAI的GPT-5.3-Codex接着发布,继续与Claude Opus4.6进行编程竞争


梁文锋透露:DeepSeek 将在2月中旬推出新一代旗舰AI模型DeepSeek v4,直指agent时代把宝押在写代码和处理复杂任务能力上,从内部测试情况来看,其编程能力可能超越Claude Opus4.6和GPT-5.2xhigh。


智谱开发的GLM-4.7和kimi开发的K2.5也参加东西方争夺编程王冠的战团,他们的编程能力也位于排行榜的前列。


目前东西方6家顶级AI企业:Anthropic的ClaudeOpus4.6、深度求索的DeepSeek v4、谷歌的Gemini 3 pro、OpenAI的GPT5.3、智谱AI的GLM4.7、月之暗面的Kimi的k2.5等都聚焦于争夺编程的王冠,意味着什么?


我在与有关AI大师讨论后认为:表面上看这是编程技术指标排行榜名次的竞争,实质上是整个AI行业正在经历一次深刻的战略转向。选择编程作为主战场,背后主要有两大深层逻辑:最清晰的商业路径和最硬核技术的战略转向


商业路径是从“成本中心”到“价值中心”相比通用的聊天机器人模糊的变现方式,编程能力是少数能直接兑现商业价值的场景


Anthropic的成功已验证了这条路径:2025年3~5月,其营收规模从20亿美元暴增至30亿美元,其研发投入与营收比为1.04:1(优于OpenAI的1.56:1),证明高强度研发与可持续商业化是可并行的。智谱GLM-5发布后股价大增超25%,其官方每天限额的“coding plan”被抢购一空,这也说明市场愿意为解决实际问题的技术突破买单,而不再为单纯的“chatbot”概念付费。


谈到最硬核的技术试验场,这是一条通往通用人工智能AGI的必经之路(顺便说一句:早在2025年初,我曾指出目前生成式自回归语言大模型,因其与物理世界交互、理解的欠缺、也缺乏本地和世界知识,它作为AI角色存在局限性,必须向真正的AI转轨,如向通用人工智能AGI转轨;而在去年早期我在发表“评DeepSeek”文章时也向梁文锋提出类似建议)。编程不仅是一个应用场景,更是检验和倒逼模型能力进化的“试金石”在验证“长时运行”与处理“复杂任务”能力时,早期的AI只能处理几分钟的简单任务,而至今的趋势是智能体连续工作数天甚至数周,例如Claude code的案例:在拥有1250万行代码的巨型开源库中(此处不是指Anthropic的Claude大模型的巨型闭源库,我们无法从此获得权重,架构代码和训练数据,此处指被操作的“巨型开源库”指的是claude所处理的目标代码库,即vLLM/一个高性能大模型推理加速库,它是完全开源的,也可在Github上访问)可连续自主工作7小时完成复杂任务,且精度高达99.9%这种“修bug”到“造系统”的跨越,是验证模型是否具备真正“智能体”的关键。


谈到从“写代码”到“做工程”范式跃进问题,现在竞争的焦点已经从写几行正确的代码(“写代码”),升级到能否独立完成一个完整的工程项目(“做工程”)。


下面举出几个实例:


1)智谱GLM 5在测试中需要完全自主的“经营”一年的虚拟售货机业务,最终实现了不错的盈利。


2)独立游戏开发者利用GLM 5在12小时内开发出一款完整游戏,而传统模式需要2~3个月。


3)构建多智能体协同的“虚拟团队”:面对复杂任务,单一模式难以胜任。Kimi 2.5推出的agent集群能力,能根据需求现场调度多达100多不同场景的“分身”并行工作。这种从“单兵作战”到“集体协作”的进化,正是未来AGI处理复杂世界问题的雏形。


所以说,Anthropic、DeepSeek、OpenAI、智谱、kimi等公司全力争夺“编程王冠”时,它们争夺的远不止一个排行榜名次、他们在争夺企业市场的入场券,是在锤炼通往AGI的核心技术能力,更是在定义一代软件开发的生产关系。 这样竞争的结局,将深刻改变我们创造数字世界的方式


本次会议进一步阐述OCR 2产生幻觉的原因。


2月2日COPU的例会上,我们根据梁文锋透露的一些信息,简单介绍了OCR-2:


ORC是DeepSeek技术路线的延伸,它将改善人类与机器打交道的方式,正在向全模态发展,可用于处理非结构文本。


对于OCR-2,用极少数token(如256个token),可读懂复杂文档中的图形、表格、数学公式,甚至还能理解声音、视频的内容,并能自主编辑:按人类理解的逻辑, 将全部项目进行优先排队。


2月10日COPU例会上,我们转载了中科院研评OCR-2的文章:


DeepSeek OCR:90%准确率是幻觉》


他们提出并探讨了“视觉优势”(visual merit)还是“语言捷径(Linguistic cratch)”是驱动DeepSeek-OCR 性能的核心问题,通过系统性实验,揭示了DeepSeek-OCR在高压缩比下表现出的高OCR精度可能更多地依赖于语言先验,而非真正的视觉理解。


为了核实网上传出的中科院文章的真伪,并了解OCR产生幻觉的成因,COPU邀约DeepSeek专家讨论,并在本次COPU例会(2月24日)上发表。


COPU与DeepSeek(专家)讨论中科院研究评论OCR的文章


DS:感谢您与我分享这篇文章。我可以帮助您核实并解读中科院对OCR的研究和评论。


COPU:该报告是否真实存在?


DS:是的,这项研究报告是真实存在的。根据arXiv.org的官方论文页面,中国科学院成都计算机应用研究所、中科院深圳先进技术研究院等机构的学者(梁云皓、倪时文等)于2026年1月7日发表了一篇题为《Visual Merit or Linguistic Crutch? A Close Look at DeepSeek-OCR》的论文, 这正是您所提到的研究论文。


COPU:中科院专家指出的“90%准确率是幻觉”的含义是什么?


DS解释说:您提到的90%准确率是幻觉并非指DeepSeek OCR完全无效,而是指:在没有语言先验支持的情况下,DeepSeek OCR的准确率从约90%暴跌至20%。这意味着DeepSeek OCR声称的高压缩比(10倍压缩,97%精度)下的优异表现,很大程度上依赖解码器语言模型的“语言先验(Linguistic Priors)”来“填补”视觉信息的缺失,而非真正的视觉理解能力。


DS:介绍DeepSeek实验核心发现:


1)在随机字符图像测试(无语言先验时),准确率暴跌:90% → 20%;


2)句子级语义破坏高压缩比(依赖语言先验更明显)Tiny模式下降11.2%;


3)下游QA任务(语义完整性迅速恶化)准确率仅为27.7%;


4)长文本压力测试(约8000~10500token处模型崩溃),压缩可能加剧长文本瓶颈。


DS:DeepSeek OCR的幻觉正是来自过度依赖语言先验而非视觉优势


更准确的理解是:


  • 语言先验(Linguistic Priors)指语言模型根据上下文“脑补”缺失信息的能力。


  • 当视觉token被高度压缩时,模型被迫依赖语言先验来“填空”,导致在非常规文本(如随机字符)上产生幻觉。


  • 真正的视觉优势应该是不依赖语言先验,仅凭图像信息就能准确识别。


值得注意的是:DeepSeek团队与2026年1月26日发布DeepSeek OCR 2,引入了“视觉因果流(visual causal flow)”技术,能够根据图像语义动态调整信息处理顺序,使模型的阅读逻辑更贴合人类对复杂文档的理解方式。


最后DS还说:您引用中科院的研究是真实存在的,其研究结论是DeepSeek OCR的高准确率很大程度上依赖语言模型搞的“脑补”而非真正的视觉理解,即语言先验正是产生幻觉的根源,而非消除幻觉的手段


参会人员:陆首群、章文嵩、袁怿、安泱、张侃、孟迎霞、王珊、陈道清、陈钟(线上)、鞠东颖(线上)、陈越(线上)、程海旭(线上)、胡宇(线上)、韩宪平(线上)、Anna.AI(线上)。

图片关键词


首页
秘书处
开源通讯
开源活动