开源通讯

​​面向长时自主运行智能体上下文工程调研

2026-05-18 10:35:13 7

图片关键词

 




2026智能体深度调研:谁能真正「无人值守」跑上几小时、几天、甚至更久?

2026年初,智能体(Agent)领域三大趋势交汇:上下文工程、Harness工程、编码智能体。本次调研以上下文工程为基线,从长时间自主运行视角,对7个代表性智能体及主流评测基准做了结构化分析。

核心追问一个问题:谁能真的在无人值守下稳定运行几小时、几天甚至更久?




我们怎么评价:五个统一维度

要在长时间尺度上衡量一个Agent的真正能力,单看推理精度远远不够。我们定义了五个维度,每个都指向无人值守场景下的生死线。

 思维(规划与推理)——上下文如何管理?是「原始堆积」还是有压缩、切换和记忆机制?当Token窗口逼近极限,Agent是优雅降级,还是一崩了之?

 团队(多智能体协作)——能否将子任务委派给专用子Agent?能否隔离上下文,避免一个子任务的崩溃污染整个系统?摘要回传 vs 细节全注入,差异巨大。

 手脚(工具调用)——默认工具有多少?能否动态加载新工具?工具调用失败时有没有替代方案?工具数量的增长是否侵蚀上下文空间?

 长时间触发与驻留——有守护进程吗?能通过cron定时自行启动吗?还是每次都需要人来唤醒?空闲时能否休眠以节省成本?

 工程韧性——出错后能否分类、重试、降级——而不是直接崩溃?错误恢复策略是硬编码的规则,还是交给LLM自己判断?




七款Agent快速结论

LangChain — 传统工作流基线

一句话:快速原型利器,长时运行禁区。

上下文:原始堆积——消息线性追加,没有主动压缩,超出窗口就爆。ChatHistoryAgent不可见,无法智能管理。

长时运行:无原生支持。没有守护进程,没有定时唤醒,每次都需要外部触发。

韧性:几乎完全交给LLM自己判断。短任务勉强可以,长时无人值守下一次失败就可能雪崩。

结论:适合快速验证思路,但扛不住任何形式的长时无人值守。




 AutoResearch Karpathy的整夜实验Agent

一句话:约束即可靠性,极简主义的胜利。

思路:在固定训练时长(300秒)内循环实验,用git记录一切。Agent自主决定下一个实验,完全无人干预。

错误处理:粗暴三分(可修/不可修/致命)。不可修就丢弃,绝不纠缠。LEC口令(Last Exp Command)在子进程挂起时自动杀进程,防止「僵尸实验」堆积。

核心洞见:约束就是可靠性。固定时长防止无限循环,固定实验结构减少意外分支,git记录保障可追溯。

局限:能力域很窄。只适用于超参数实验这一种场景,通用性不足。

结论:在特定领域证明了「有限制、有结构」的Agent能稳定跑一整夜。




 OpenClaw — 网关型长期驻留Agent

一句话:把触发与执行解耦,守护进程常驻后台。

架构:Gateway守护进程常驻后台,通过cronIM消息、webhook等事件唤醒执行器。覆盖SlackDiscordTelegramEmailTwitter20+平台。

上下文管理:每日日志 + MEMORY.md 滚动记忆。不过夜上下文靠单轮会话,跨天靠写文件持久化。

典型用法:「每天早上9点汇总Hacker News」——Agent会被cron唤醒,执行任务,把结果写到日志,然后休眠。

结论:目前最成熟的「永远在线」助理架构之一,但缺乏Hermes级别的主动压缩和子代理委派。




 Pi — 极简终端编码框架

一句话:少即是多,适合有工程素养的开发者。

哲学:极简主义。系统提示只有不到200行——远低于Claude Code2000+行——为实际内容留出大量上下文空间。

工具:只保留三个——读文件、写文件、执行命令。所有高级能力靠用户自己搭建。

上下文:压缩策略完全可定制,消息可预览、可编辑。会话存为树形文件,可以分支和回滚。

结论:上限极高、下限极低。一切能力靠使用者搭建,不适合快速上手。




 Hermes — 自进化长期驻留Agent

一句话:长时自主的当前最完整解。

上下文工程:预触发压缩(主动将旧消息或低价值消息摘要化或裁剪)+ 主动记忆写入 + 子代理委派(隔离执行,只回摘要,不回原始对话)。

韧性:多级错误回退——低级错误自动重试,中级错误降级策略,致命错误优雅终止 + 通知。

成本控制:Gateway常驻但执行器可空闲休眠。迭代预算保护——设定单次运行的Token上限,防止无限消耗。

自我进化:内置基准 + RL训练闭环——Agent能在多次运行间评估自身表现、收集反馈、改进策略。这是唯一一个拥有「基准→RL训练→改进」闭环的系统。

结论:当前对「长时自主」问题的最完整解。当运行从小时延展到天、周,靠人工反馈不再可行时,Hermes式的自进化机制会成为关键。




 Claude Code — 商业编码Agent(基于公开信息推测)

一句话:极致上下文工程,但缺乏主动常驻能力。

上下文工程:推测实现密集压缩——渐进式加载工具描述(用到的才注入,用不到的保持在外),系统提示高度结构化。

协作:推测具备动态「蜂群」协作——需复杂任务时按需生成子Agent,隔离执行后回传摘要。

长时间:无主动后台常驻,需要外部触发。依赖大厂后训练优化,自我进化能力不透明。

结论:商业级上下文工程标杆,但长期驻留场景需要与OpenClawHermesGateway架构结合。




 Kilo Code — 开源编码Agent平台

一句话:灵活的Agent平台,模式切换 + Git隔离是亮点。

模式系统:CodeArchitectAsk三种模式裁剪行为,减少无效Token消耗。

任务分解:Orchestrator将复杂任务拆解成子任务,Git工作树隔离并行执行——一个子任务崩溃不影响其他。

生态:MCP协议 + 500+模型路由,测试失败时自动修复。

局限:长时运行靠外部事件触发,缺少Hermes级别的主动心跳和自我训练闭环。

结论:编码场景的强大开源选择,主动常驻和自进化方向仍有提升空间。




三大核心发现

在分析了这七款Agent之后,以下三点是我们认为最重要的洞察:

 1. 「压缩」是上下文工程的一等公民

不压缩,就等着爆窗口。但关键问题不仅是「何时压缩」,更是「压缩什么」。

HermesClaude Code可以看到,有效的压缩策略包括:主动预触发——在窗口将满之前主动执行,而非等到溢出;选择性保留——保留高层次决策和多轮决策原因,丢弃调试细节;子代理委派本质上是一种上下文卸载机制——只回摘要,不塞细节,这本身就是最激进的压缩。

2. 错误处理是最被低估的能力短板

除了HermesAutoResearch,大多数系统把错误处理「外包」给模型——赌LLM自己能判断。短任务勉强可以,长时无人值守下一次失败就可能雪崩。

AutoResearch的启示最有价值:错误处理不需要AI,需要的是简单、可执行的规则。对于长期运行的系统,错误分类的确定性比分类的「智能」重要得多。

 3. 自我评估与自我进化是下一决胜点

Hermes是唯一拥有「基准 → RL训练 → 改进」闭环的Agent,能让自身越跑越强。当运行从小时延展到天、周,靠人工反馈来持续优化不再可行。

Claude Code虽有后训练的加持,但能力提升路径对用户不透明,更像一个不断升级的黑盒产品。未来的Agent平台,「可进化性」会像「可扩展性」一样成为核心卖点。




现有评测基准为何不够用

我们审计了十多个主流基准(HLEMMLUGAIASWE-benchSWE-agentSWE-searchOpenHandsHumanEvalBigCodeBenchLiveCodeBenchAiderCoding AgentTauBenchAgentBenchWebArena等),发现一个核心问题:

几乎所有基准都在测「单次任务最优」,而非「长期自主驻留」。

最大盲区

 跨任务 / 跨会话记忆——所有基准都是「做完一题忘掉,下一题全新」的设置。真实场景要求Agent记得几小时前用户说过什么、之前解决相似问题时用了什么方法。目前没有任何主流基准评估这一能力。

 成本感知——没有一个基准将Token消耗、时间预算与得分挂钩。Agent可以在「不计代价」模式下冲最高分,但这种评估方式远离真实部署场景——现实中每一分钱都有人盯着。

其他缺失维度

探索-利用决策:Agent能否判断「这个方向该深入探索」还是「该换条路」?现有基准基本都是既定路径。

级联错误恢复:一个错误引发连锁反应后,Agent能恢复到什么程度?没有基准专门测这个。

长时间稳定执行:6小时、24小时、72小时连续运行后的表现退化曲线,是长时自主的核心指标,但现有所有基准都测不到。




写在最后

长时自主Agent的核心已不再是「单次推理有多强」,而是谁能管理好上下文、扛住一连串意外、并在无人注视时持续做对的事。

上下文压缩、子代理委派和常驻触发,是当前解构这个问题的三个支点。

Hermes的自进化闭环到AutoResearch的约束即可靠,从OpenClaw的网关架构到Claude Code的极致上下文工程——每个系统都在某个维度上给出了有价值的答案,但没有任何一个在所有维度上都给出了最优解。

这也意味着,这个领域距离「终局」还有相当长的距离。

未来的Agent平台,应该既是优秀的推理者,也是可靠的后台进程、高效的上下文管理者、以及能自我进化的学习系统。 当这些能力从「附加功能」变成「默认配置」,真正的长期自主Agent时代才会到来。




本文基于2026年初对公开资料、论文、代码仓库及运营数据的综合分析,部分系统(如Claude Code)的推测性分析标注了「推测实现」,仅供参考。

 

图片关键词

首页
秘书处
开源通讯
开源活动