开源通讯

COPU会议纪要丨2026.02.10

2026-02-10 12:31:58 10

图片关键词

2月10日,陆主席主持召开COPU例会。

本次会议发布如下信息(供讨论):

一)中国科学院证伪:DeepSeek-OCR 90%准确率是幻觉。

中国科学院著文首先明确提出并深入探讨了“视觉优势(Visual Merit)还是语言捷径(Linguistics Crutch)”驱动DeepSeek-OCR性能的核心问题?。

通过系统性实验,提示了DeepSeek-OCR在高压缩比下表现出的高OCR精度可能更多地依赖于语言先验,而非真正的视觉理解。

这项验证值得我们关注如何消除幻觉问题。

DeepSeek OCR如果采取语言先验(我理解可能是提词),则可抑制或消除幻觉。

正如中科院探索的是以视觉优势还是以语言捷径来驱动OCR,依靠前者将产生幻觉,依赖后者可消除幻觉。

二)Anthropic 于2月6日深夜开发的Claude Opus 4.6登顶编程之王!

Anthropic深夜报出王炸,Claude 4.6用近乎恐怖的编程能力和智能体军团,给OpenAI和谷歌上了一堂“降维打击”的课,使Gemini-3-Pro 和GPT-5.2的编程能力望尘莫及。

Claude Opus 4.6规划更缜密,能更持久地执行AI Agent任务,在超大规模代码库中运行也更加可靠,它还具备更强的自我纠错能力,比如:精准的代码审查、调试。上下文支持100万token的Opus级模型。

Opus 4.6:Agent search 84.0%,Agentic financial Analysis 60.7%, office tasks 1606

ARC-AGI-2上,Opus 4.6拿下68.8%高分,超过GPT-5.2-xhigh (在Opus4.6发布后几分钟,OpenAI的GPT-5.3-Codex接着发布)。

据梁文锋透露的信息:将于春节前后发布的DeepSeek-V4,直指Agent时代,把宝押在写代码和处理任务能力上,直接与Anthropic的Claude和OpenAI的GPT系列展开竞争。

由此看来,Anthropic的Claude Opus 4.6正在与OpenAI的GPT-5.2,GPT5.3,谷歌的Gemini-3-Pro,以及DeepSeek v4展开编程王冠的激烈竞争,值得我们关注!

三)1,最近由AI智商排行榜LM Arena文本发布的全球顶尖AI大模型排行榜

1

Gemini-3-pro

1487分

2

Grok-4.1-Thinking

1475分

3

Gemini-3-Flash

1471分

4

Claude-Opus-4.5-Thinking 

1468分

5

Claude-Opus-4.5

1466分

6

Grok-4.1

1466分

7

Gemini-3-Flash(minimal)

1463分

8

GPT-5.1-high

1459分

9

Ernie-5.0-0.0110

1453分

10

Claude-Sonnet-4.5-Thinking

1450分

2,在相同时期,由网络流量公布

1

Chat GPT

69.5%

2

Gemini

21.5%

3

Deepseek 3.1

3.7%

4

Grok

3.4%

5

Perplexity

2.0%

6

Claude 

2.0%

7

Copilot

1.0%

Deepseek 在表1中没有踪影,但在表2中占第三位。

2为网络流量与市场份额、用户量、吸金能力有关。表1与表2说明顶尖AI大模型排行并不完全取决于性能的排行榜。

四)在当前智能体(Agent)时代,为了便于国际国内交流,现将有关智能体(Agent)的标准术语或取得国际公认、通用的术语(或开始取得大家公认),公诸于下:

1)最核心的数个名词性代称:

  • Agent(智能体/智能代理):广义的、基础的概念。

  • AgenticAI(自主智能体或高级智能代理)

  • AI Agent/Autonomous Agent(泛指自主智能体):强调基于现代AI的自主性。

  • AI Assistant(智能助手):强调辅助功能的特定应用形态。

  • Tool:标准术语,指智能体使用的工具。

  • Agency:避免作为智能体代称,可用来讨论“能动性”这一概念。

2)多个智能体的组织:

使用Multi-Agent System(MAS,多智能体系统)或Agent Team及Agent Team Crew(智能体团队)。

3)有关说明:

  • Agentic:如单个词出现,用作形容词,描述具备自主代理特性的。(名词组AgenticAI除外)

  • Agency:避免作为智能体代称,可用来讨论“能动性”这一概念。 

参会人员:陆首群、程海旭、宋可为、安泱、袁怿、陈越、张侃、鞠东颖(线上)、靳宏博(线上)、韩宪平(线上)、谭中意(线上)、胡宇(线上)、Anna.AI线上)。

图片关键词

图片关键词


首页
秘书处
开源通讯
开源活动