系好安全带:你对 2030 年的憧憬,刚刚变成了 2026 年就可能实现的事。
作者:Pat Grady 和 Sonya Huang
很多年前,一些顶尖研究者告诉我们,他们的目标是实现 AGI。我们天真地想听一个严谨的定义,于是追问:“你们怎么定义 AGI?“他们犹豫了一下,彼此试探地看了一眼,然后说出了后来成为 AI 领域某种共识的话:“嗯,我们每个人其实都有自己的定义,但当我们看到它的时候,我们就知道了。”
这个小故事完美概括了我们对 AGI 具体定义的追寻。它始终难以捉摸。
然而,定义虽然难以捉摸,现实却不是。AGI 已经来了,就在此刻。
编程智能体是第一个例证。更多的例证正在路上。
长程代理(Long-horizon agents)在功能上就是 AGI,而 2026 年将属于它们。
幸好不必纠缠细节
在继续之前,值得先承认一点:我们没有提出 AGI 技术定义的学术权威。
我们是投资人。我们研究市场、创始人,以及二者碰撞的产物——企业。
鉴于此,我们提出的是一个功能性定义,而非技术性定义。新的技术能力必然会引出 Don Valentine 式的问题:那又怎样?
答案在于现实世界的影响力。
AGI 的功能性定义
AGI 就是搞清楚事情的能力。就是这样。*
* 我们理解,如此不精确的定义不会解决任何哲学争论。但务实地讲,如果你想完成一件事,你需要什么?一个能帮你搞清楚事情的 AI。过程如何,不如结果如何重要。*
一个能搞清楚事情的人,具备一些基础知识、运用这些知识进行推理的能力,以及不断迭代直至找到答案的能力。
一个能搞清楚事情的 AI,具备基础知识(预训练)、运用知识推理的能力(推理时计算),以及不断迭代直至找到答案的能力(长程代理)。
第一个要素(知识 / 预训练)催生了 2022 年最初的 ChatGPT 时刻。第二个(推理 / 推理时计算)随着 2024 年底 o1 的发布而到来。第三个(迭代 / 长程代理)则在最近几周随着 Claude Code 和其他编程智能体跨越能力阈值而到来。
具备通用智能的人可以连续数小时自主工作,不断发现并修正错误,不需要别人告诉下一步该做什么。具备通用智能的智能体也能做到同样的事。这是全新的。
“搞清楚事情"到底意味着什么?
一个创始人给他的智能体发消息:“我需要一个开发者关系负责人。技术能力要够强,能赢得资深工程师的尊重,但又真心喜欢泡 Twitter。我们的客户是平台团队。去办吧。”
智能体从最显而易见的地方开始:在 LinkedIn 上搜索顶级开发者优先公司的 “Developer Advocate” 和 “DevRel”——Datadog、Temporal、Langchain。找到了数百个候选人。但职位头衔并不能揭示谁真正擅长这件事。
它转向了信号优先而非资历。搜索 YouTube 上的技术大会演讲。找到 50 多位演讲者,然后筛选出那些演讲互动数据强的。
把这些演讲者与 Twitter 做交叉比对。一半的人账号不活跃,或者只是转发雇主的博客文章。不是我们想要的。但有十几位有真正的粉丝基础——他们发布真实观点、回复他人,并且获得开发者的互动。而且他们的帖子有真正的品味。
智能体进一步缩小范围。查看谁在过去三个月减少了发帖频率。活跃度下降有时意味着对当前角色产生了倦怠。三个名字浮出水面。
对这三人深入调研。一位刚刚宣布了新职位——太晚了。一位是刚拿到融资的创业公司创始人——不会走。第三位是某 D 轮公司的资深 DevRel,该公司刚刚裁掉了市场团队。她的最近一次演讲恰好覆盖了这家创业公司所瞄准的平台工程领域。她有 1.4 万 Twitter 粉丝,发的 meme 有真正的工程师互动。她的 LinkedIn 已经两个月没更新了。
智能体起草了一封邮件,提及她最近的演讲、与创业公司理想客户画像的重叠,以及小团队能提供的创作自由。邮件建议一次轻松的交谈,而非推销。
总耗时:31 分钟。创始人得到了一个精准推荐,而不是在招聘网站上挂一则 JD。
这就是搞清楚事情的含义。在模糊中导航以达成目标——提出假设、验证它们、走进死胡同、转向,直到事情有了眉目。这个智能体不是在执行脚本。它跑的正是优秀招聘官脑海中同样的循环,只不过不知疲倦地在 31 分钟内完成,而且不需要被告知该怎么做。
需要明确的是:智能体仍然会失败。它们会幻觉、丢失上下文,有时自信满满地走上一条完全错误的道路。但趋势是不可否认的,而且失败正变得越来越可修复。
我们是怎么走到这一步的?从推理模型到长程代理
在去年的文章中,我们曾写道推理模型是 AI 最重要的新前沿。长程代理将这一范式推得更远,让模型能够采取行动并随时间迭代。
让模型思考更久并非易事。一个基础推理模型能思考几秒或几分钟。
两种不同的技术路径似乎都在奏效并且在良好扩展:强化学习和智能体框架。前者通过在训练过程中不断引导模型保持专注,让模型内在地学会长时间保持正轨。后者则针对模型已知的局限性设计了特定的脚手架(记忆交接、上下文压缩等)。
扩展强化学习是研究实验室的领域。他们在这方面取得了卓越进展,从多智能体系统到可靠的工具调用。
设计优秀的智能体框架则是应用层的领域。当今市场上一些最受欢迎的产品以精心设计的智能体框架著称:Manus、Claude Code、Factory 的 Droids 等。
如果说有一条指数曲线值得押注,那就是长程代理的性能。METR 一直在细致地追踪 AI 完成长程任务的能力。进步速度是指数级的,大约每 7 个月翻一番。如果我们顺推这条指数曲线,智能体到 2028 年应该能可靠地完成人类专家需要一整天才能完成的任务,到 2034 年一整年的工作量,到 2037 年一个世纪的工作量。
那又怎样?
很快你就能雇用一个智能体了。这就是 AGI 的一个试金石(感谢 Sarah Guo)。
今天你就可以"雇用"GPT-5.2、Claude、Grok 或 Gemini。更多的例子正在路上:
- 医疗:OpenEvidence 的 Deep Consult 相当于一个专科医生
- 法律:Harvey 的智能体相当于一名律师助理
- 网络安全:XBOW 相当于一名渗透测试工程师
- 运维:Traversal 的智能体相当于一名 SRE
- 营收增长:Day AI 相当于 BDR、解决方案工程师和营收运营负责人
- 招聘:Juicebox 相当于一名招聘官
- 数学:Harmonic 的 Aristotle 相当于一名数学家
- 芯片设计:Ricursive 的智能体相当于芯片设计师
- AI 研究:GPT-5.2 和 Claude 相当于 AI 研究员
从"说话者"到"行动者”:对创始人的启示
这对创始人有着深远的影响。
2023 和 2024 年的 AI 应用是说话者。其中一些是非常精明的对话者!但它们的影响力有限。
2026 和 2027 年的 AI 应用将是行动者。它们会像同事一样。使用频率将从每天几次变为全天候、每天,多个实例并行运行。用户不再是这里省几个小时、那里省几个小时——他们将从一个独立贡献者变为管理一支智能体团队。
还记得那些关于"卖工作成果"的讨论吗?现在它变成可能了。
- 你能完成什么工作? 长程代理的能力与模型的一次前向传播截然不同。长程代理在你的领域解锁了哪些新能力?哪些任务需要持续性——持续注意力是瓶颈?
- 你如何将工作产品化? 随着工作界面从聊天机器人演进为智能体委派,你的应用界面将如何演进?
- 你能可靠地完成吗? 你在痴迷地改进你的智能体框架吗?你有强反馈循环吗?
- 你如何销售这些工作? 你能基于价值和结果来定价和打包吗?
系好安全带!
是时候骑上长程代理的指数曲线了。
今天,你的智能体大概能可靠地工作约 30 分钟。但它们很快就能完成一天的工作量——最终甚至能完成一个世纪的工作量。
当你的计划以世纪为衡量单位,你能达成什么?一个世纪是 200,000 个从未被交叉分析的临床试验。一个世纪是每一张客户支持工单,最终被挖掘出有价值的信号。一个世纪是整个美国税法,被重构为前后一致的体系。
你路线图中雄心勃勃的版本,刚刚变成了现实可行的版本。
本文发表于 2026 年 1 月 14 日
感谢 Dan Roberts、Harrison Chase、Noam Brown、Sholto Douglas、Isa Fulford、Ben Mann、Nick Turley、Phil Duan、Michelle Bailhe 和 Romie Boyd 审阅本文草稿。
原文链接: 2026: This is AGI | 来源: X @gradypb | 2026-01-14