COPU会议纪要丨2026.02.10
2月10日,陆主席主持召开COPU例会。
本次会议发布如下信息(供讨论):
一)中国科学院证伪:DeepSeek-OCR 90%准确率是幻觉。
中国科学院著文首先明确提出并深入探讨了“视觉优势(Visual Merit)还是语言捷径(Linguistics Crutch)”驱动DeepSeek-OCR性能的核心问题?。
通过系统性实验,提示了DeepSeek-OCR在高压缩比下表现出的高OCR精度可能更多地依赖于语言先验,而非真正的视觉理解。
这项验证值得我们关注如何消除幻觉问题。
DeepSeek OCR如果采取语言先验(我理解可能是提词),则可抑制或消除幻觉。
正如中科院探索的是以视觉优势还是以语言捷径来驱动OCR,依靠前者将产生幻觉,依赖后者可消除幻觉。
二)Anthropic 于2月6日深夜开发的Claude Opus 4.6登顶编程之王!
Anthropic深夜报出王炸,Claude 4.6用近乎恐怖的编程能力和智能体军团,给OpenAI和谷歌上了一堂“降维打击”的课,使Gemini-3-Pro 和GPT-5.2的编程能力望尘莫及。
Claude Opus 4.6规划更缜密,能更持久地执行AI Agent任务,在超大规模代码库中运行也更加可靠,它还具备更强的自我纠错能力,比如:精准的代码审查、调试。上下文支持100万token的Opus级模型。
Opus 4.6:Agent search 84.0%,Agentic financial Analysis 60.7%, office tasks 1606
在ARC-AGI-2上,Opus 4.6拿下68.8%高分,超过GPT-5.2-xhigh (在Opus4.6发布后几分钟,OpenAI的GPT-5.3-Codex接着发布)。
据梁文锋透露的信息:将于春节前后发布的DeepSeek-V4,直指Agent时代,把宝押在写代码和处理任务能力上,直接与Anthropic的Claude和OpenAI的GPT系列展开竞争。
由此看来,Anthropic的Claude Opus 4.6正在与OpenAI的GPT-5.2,GPT5.3,谷歌的Gemini-3-Pro,以及DeepSeek v4展开编程王冠的激烈竞争,值得我们关注!
三)表1,最近由AI智商排行榜LM Arena文本发布的全球顶尖AI大模型排行榜
1 | Gemini-3-pro | 1487分 |
2 | Grok-4.1-Thinking | 1475分 |
3 | Gemini-3-Flash | 1471分 |
4 | Claude-Opus-4.5-Thinking | 1468分 |
5 | Claude-Opus-4.5 | 1466分 |
6 | Grok-4.1 | 1466分 |
7 | Gemini-3-Flash(minimal) | 1463分 |
8 | GPT-5.1-high | 1459分 |
9 | Ernie-5.0-0.0110 | 1453分 |
10 | Claude-Sonnet-4.5-Thinking | 1450分 |
表2,在相同时期,由网络流量公布
1 | Chat GPT | 69.5% |
2 | Gemini | 21.5% |
3 | Deepseek 3.1 | 3.7% |
4 | Grok | 3.4% |
5 | Perplexity | 2.0% |
6 | Claude | 2.0% |
7 | Copilot | 1.0% |
Deepseek 在表1中没有踪影,但在表2中占第三位。
表2为网络流量与市场份额、用户量、吸金能力有关。表1与表2说明顶尖AI大模型排行并不完全取决于性能的排行榜。
四)在当前智能体(Agent)时代,为了便于国际国内交流,现将有关智能体(Agent)的标准术语或取得国际公认、通用的术语(或开始取得大家公认),公诸于下:
1)最核心的数个名词性代称:
Agent(智能体/智能代理):广义的、基础的概念。
AgenticAI(自主智能体或高级智能代理)
AI Agent/Autonomous Agent(泛指自主智能体):强调基于现代AI的自主性。
AI Assistant(智能助手):强调辅助功能的特定应用形态。
Tool:标准术语,指智能体使用的工具。
Agency:避免作为智能体代称,可用来讨论“能动性”这一概念。
2)多个智能体的组织:
使用Multi-Agent System(MAS,多智能体系统)或Agent Team及Agent Team Crew(智能体团队)。
3)有关说明:
Agentic:如单个词出现,用作形容词,描述具备自主代理特性的。(名词组AgenticAI除外)
Agency:避免作为智能体代称,可用来讨论“能动性”这一概念。
参会人员:陆首群、程海旭、宋可为、安泱、袁怿、陈越、张侃、鞠东颖(线上)、靳宏博(线上)、韩宪平(线上)、谭中意(线上)、胡宇(线上)、Anna.AI线上)。


