2026：这就是 AGI

系好安全带：你对 2030 年的憧憬，刚刚变成了 2026 年就可能实现的事。

作者：Pat Grady 和 Sonya Huang

很多年前，一些顶尖研究者告诉我们，他们的目标是实现 AGI。我们天真地想听一个严谨的定义，于是追问：“你们怎么定义 AGI？“他们犹豫了一下，彼此试探地看了一眼，然后说出了后来成为 AI 领域某种共识的话：“嗯，我们每个人其实都有自己的定义，但当我们看到它的时候，我们就知道了。”

这个小故事完美概括了我们对 AGI 具体定义的追寻。它始终难以捉摸。

然而，定义虽然难以捉摸，现实却不是。AGI 已经来了，就在此刻。

编程智能体是第一个例证。更多的例证正在路上。

长程代理（Long-horizon agents）在功能上就是 AGI，而 2026 年将属于它们。

幸好不必纠缠细节

在继续之前，值得先承认一点：我们没有提出 AGI 技术定义的学术权威。

我们是投资人。我们研究市场、创始人，以及二者碰撞的产物——企业。

鉴于此，我们提出的是一个功能性定义，而非技术性定义。新的技术能力必然会引出 Don Valentine 式的问题：那又怎样？

答案在于现实世界的影响力。

AGI 的功能性定义

AGI 就是搞清楚事情的能力。就是这样。*

* 我们理解，如此不精确的定义不会解决任何哲学争论。但务实地讲，如果你想完成一件事，你需要什么？一个能帮你搞清楚事情的 AI。过程如何，不如结果如何重要。*

一个能搞清楚事情的人，具备一些基础知识、运用这些知识进行推理的能力，以及不断迭代直至找到答案的能力。

一个能搞清楚事情的 AI，具备基础知识（预训练）、运用知识推理的能力（推理时计算），以及不断迭代直至找到答案的能力（长程代理）。

第一个要素（知识 / 预训练）催生了 2022 年最初的 ChatGPT 时刻。第二个（推理 / 推理时计算）随着 2024 年底 o1 的发布而到来。第三个（迭代 / 长程代理）则在最近几周随着 Claude Code 和其他编程智能体跨越能力阈值而到来。

具备通用智能的人可以连续数小时自主工作，不断发现并修正错误，不需要别人告诉下一步该做什么。具备通用智能的智能体也能做到同样的事。这是全新的。

“搞清楚事情"到底意味着什么？

一个创始人给他的智能体发消息：“我需要一个开发者关系负责人。技术能力要够强，能赢得资深工程师的尊重，但又真心喜欢泡 Twitter。我们的客户是平台团队。去办吧。”

智能体从最显而易见的地方开始：在 LinkedIn 上搜索顶级开发者优先公司的 “Developer Advocate” 和 “DevRel”——Datadog、Temporal、Langchain。找到了数百个候选人。但职位头衔并不能揭示谁真正擅长这件事。

它转向了信号优先而非资历。搜索 YouTube 上的技术大会演讲。找到 50 多位演讲者，然后筛选出那些演讲互动数据强的。

把这些演讲者与 Twitter 做交叉比对。一半的人账号不活跃，或者只是转发雇主的博客文章。不是我们想要的。但有十几位有真正的粉丝基础——他们发布真实观点、回复他人，并且获得开发者的互动。而且他们的帖子有真正的品味。

智能体进一步缩小范围。查看谁在过去三个月减少了发帖频率。活跃度下降有时意味着对当前角色产生了倦怠。三个名字浮出水面。

对这三人深入调研。一位刚刚宣布了新职位——太晚了。一位是刚拿到融资的创业公司创始人——不会走。第三位是某 D 轮公司的资深 DevRel，该公司刚刚裁掉了市场团队。她的最近一次演讲恰好覆盖了这家创业公司所瞄准的平台工程领域。她有 1.4 万 Twitter 粉丝，发的 meme 有真正的工程师互动。她的 LinkedIn 已经两个月没更新了。

智能体起草了一封邮件，提及她最近的演讲、与创业公司理想客户画像的重叠，以及小团队能提供的创作自由。邮件建议一次轻松的交谈，而非推销。

总耗时：31 分钟。创始人得到了一个精准推荐，而不是在招聘网站上挂一则 JD。

这就是搞清楚事情的含义。在模糊中导航以达成目标——提出假设、验证它们、走进死胡同、转向，直到事情有了眉目。这个智能体不是在执行脚本。它跑的正是优秀招聘官脑海中同样的循环，只不过不知疲倦地在 31 分钟内完成，而且不需要被告知该怎么做。

需要明确的是：智能体仍然会失败。它们会幻觉、丢失上下文，有时自信满满地走上一条完全错误的道路。但趋势是不可否认的，而且失败正变得越来越可修复。

我们是怎么走到这一步的？从推理模型到长程代理

在去年的文章中，我们曾写道推理模型是 AI 最重要的新前沿。长程代理将这一范式推得更远，让模型能够采取行动并随时间迭代。

让模型思考更久并非易事。一个基础推理模型能思考几秒或几分钟。

两种不同的技术路径似乎都在奏效并且在良好扩展：强化学习和智能体框架。前者通过在训练过程中不断引导模型保持专注，让模型内在地学会长时间保持正轨。后者则针对模型已知的局限性设计了特定的脚手架（记忆交接、上下文压缩等）。

扩展强化学习是研究实验室的领域。他们在这方面取得了卓越进展，从多智能体系统到可靠的工具调用。

设计优秀的智能体框架则是应用层的领域。当今市场上一些最受欢迎的产品以精心设计的智能体框架著称：Manus、Claude Code、Factory 的 Droids 等。

如果说有一条指数曲线值得押注，那就是长程代理的性能。METR 一直在细致地追踪 AI 完成长程任务的能力。进步速度是指数级的，大约每 7 个月翻一番。如果我们顺推这条指数曲线，智能体到 2028 年应该能可靠地完成人类专家需要一整天才能完成的任务，到 2034 年一整年的工作量，到 2037 年一个世纪的工作量。

那又怎样？

很快你就能雇用一个智能体了。这就是 AGI 的一个试金石（感谢 Sarah Guo）。

今天你就可以"雇用"GPT-5.2、Claude、Grok 或 Gemini。更多的例子正在路上：

医疗：OpenEvidence 的 Deep Consult 相当于一个专科医生
法律：Harvey 的智能体相当于一名律师助理
网络安全：XBOW 相当于一名渗透测试工程师
运维：Traversal 的智能体相当于一名 SRE
营收增长：Day AI 相当于 BDR、解决方案工程师和营收运营负责人
招聘：Juicebox 相当于一名招聘官
数学：Harmonic 的 Aristotle 相当于一名数学家
芯片设计：Ricursive 的智能体相当于芯片设计师
AI 研究：GPT-5.2 和 Claude 相当于 AI 研究员

从"说话者"到"行动者”：对创始人的启示

这对创始人有着深远的影响。

2023 和 2024 年的 AI 应用是说话者。其中一些是非常精明的对话者！但它们的影响力有限。

2026 和 2027 年的 AI 应用将是行动者。它们会像同事一样。使用频率将从每天几次变为全天候、每天，多个实例并行运行。用户不再是这里省几个小时、那里省几个小时——他们将从一个独立贡献者变为管理一支智能体团队。

还记得那些关于"卖工作成果"的讨论吗？现在它变成可能了。

你能完成什么工作？ 长程代理的能力与模型的一次前向传播截然不同。长程代理在你的领域解锁了哪些新能力？哪些任务需要持续性——持续注意力是瓶颈？
你如何将工作产品化？ 随着工作界面从聊天机器人演进为智能体委派，你的应用界面将如何演进？
你能可靠地完成吗？ 你在痴迷地改进你的智能体框架吗？你有强反馈循环吗？
你如何销售这些工作？ 你能基于价值和结果来定价和打包吗？

系好安全带！

是时候骑上长程代理的指数曲线了。

今天，你的智能体大概能可靠地工作约 30 分钟。但它们很快就能完成一天的工作量——最终甚至能完成一个世纪的工作量。

当你的计划以世纪为衡量单位，你能达成什么？一个世纪是 200,000 个从未被交叉分析的临床试验。一个世纪是每一张客户支持工单，最终被挖掘出有价值的信号。一个世纪是整个美国税法，被重构为前后一致的体系。

你路线图中雄心勃勃的版本，刚刚变成了现实可行的版本。

本文发表于 2026 年 1 月 14 日

感谢 Dan Roberts、Harrison Chase、Noam Brown、Sholto Douglas、Isa Fulford、Ben Mann、Nick Turley、Phil Duan、Michelle Bailhe 和 Romie Boyd 审阅本文草稿。

原文链接: 2026: This is AGI | 来源: X @gradypb | 2026-01-14

幸好不必纠缠细节#

AGI 的功能性定义#

“搞清楚事情"到底意味着什么？#

我们是怎么走到这一步的？从推理模型到长程代理#

那又怎样？#

从"说话者"到"行动者”：对创始人的启示#

系好安全带！#