COPU会议纪要丨2026.02.10

2026-02-10 12:31:58 59

2月10日，陆主席主持召开COPU例会。

本次会议发布如下信息（供讨论）：

一）中国科学院证伪：DeepSeek-OCR 90%准确率是幻觉。

中国科学院著文首先明确提出并深入探讨了“视觉优势（Visual Merit）还是语言捷径（Linguistics Crutch）”驱动DeepSeek-OCR性能的核心问题？。

通过系统性实验，提示了DeepSeek-OCR在高压缩比下表现出的高OCR精度可能更多地依赖于语言先验，而非真正的视觉理解。

这项验证值得我们关注如何消除幻觉问题。

DeepSeek OCR如果采取语言先验（我理解可能是提词），则可抑制或消除幻觉。

正如中科院探索的是以视觉优势还是以语言捷径来驱动OCR，依靠前者将产生幻觉，依赖后者可消除幻觉。

二）Anthropic 于2月6日深夜开发的Claude Opus 4.6登顶编程之王！

Anthropic深夜报出王炸，Claude 4.6用近乎恐怖的编程能力和智能体军团，给OpenAI和谷歌上了一堂“降维打击”的课，使Gemini-3-Pro 和GPT-5.2的编程能力望尘莫及。

Claude Opus 4.6规划更缜密，能更持久地执行AI Agent任务，在超大规模代码库中运行也更加可靠，它还具备更强的自我纠错能力，比如：精准的代码审查、调试。上下文支持100万token的Opus级模型。

Opus 4.6：Agent search 84.0%，Agentic financial Analysis 60.7%, office tasks 1606

在ARC-AGI-2上，Opus 4.6拿下68.8%高分，超过GPT-5.2-xhigh (在Opus4.6发布后几分钟，OpenAI的GPT-5.3-Codex接着发布)。

据梁文锋透露的信息：将于春节前后发布的DeepSeek-V4，直指Agent时代，把宝押在写代码和处理任务能力上，直接与Anthropic的Claude和OpenAI的GPT系列展开竞争。

由此看来，Anthropic的Claude Opus 4.6正在与OpenAI的GPT-5.2，GPT5.3，谷歌的Gemini-3-Pro，以及DeepSeek v4展开编程王冠的激烈竞争，值得我们关注！

三）表1，最近由AI智商排行榜LM Arena文本发布的全球顶尖AI大模型排行榜

表2，在相同时期，由网络流量公布

Deepseek 在表1中没有踪影，但在表2中占第三位。

表2为网络流量与市场份额、用户量、吸金能力有关。表1与表2说明顶尖AI大模型排行并不完全取决于性能的排行榜。

四）在当前智能体（Agent）时代，为了便于国际国内交流，现将有关智能体（Agent）的标准术语或取得国际公认、通用的术语（或开始取得大家公认），公诸于下：

1）最核心的数个名词性代称：

2）多个智能体的组织：

使用Multi-Agent System(MAS,多智能体系统)或Agent Team及Agent Team Crew（智能体团队）。

3）有关说明：

参会人员：陆首群、程海旭、宋可为、安泱、袁怿、陈越、张侃、鞠东颖（线上）、靳宏博（线上）、韩宪平（线上）、谭中意（线上）、胡宇（线上）、Anna.AI线上）。

图片关键词