2026:这就是 AGI

系好安全带:你对 2030 年的憧憬,刚刚变成了 2026 年就可能实现的事。 作者:Pat Grady 和 Sonya Huang 很多年前,一些顶尖研究者告诉我们,他们的目标是实现 AGI。我们天真地想听一个严谨的定义,于是追问:“你们怎么定义 AGI?“他们犹豫了一下,彼此试探地看了一眼,然后说出了后来成为 AI 领域某种共识的话:“嗯,我们每个人其实都有自己的定义,但当我们看到它的时候,我们就知道了。” 这个小故事完美概括了我们对 AGI 具体定义的追寻。它始终难以捉摸。 然而,定义虽然难以捉摸,现实却不是。AGI 已经来了,就在此刻。 编程智能体是第一个例证。更多的例证正在路上。 长程代理(Long-horizon agents)在功能上就是 AGI,而 2026 年将属于它们。 幸好不必纠缠细节 在继续之前,值得先承认一点:我们没有提出 AGI 技术定义的学术权威。 我们是投资人。我们研究市场、创始人,以及二者碰撞的产物——企业。 鉴于此,我们提出的是一个功能性定义,而非技术性定义。新的技术能力必然会引出 Don Valentine 式的问题:那又怎样? 答案在于现实世界的影响力。 AGI 的功能性定义 AGI 就是搞清楚事情的能力。就是这样。* * 我们理解,如此不精确的定义不会解决任何哲学争论。但务实地讲,如果你想完成一件事,你需要什么?一个能帮你搞清楚事情的 AI。过程如何,不如结果如何重要。* 一个能搞清楚事情的人,具备一些基础知识、运用这些知识进行推理的能力,以及不断迭代直至找到答案的能力。 一个能搞清楚事情的 AI,具备基础知识(预训练)、运用知识推理的能力(推理时计算),以及不断迭代直至找到答案的能力(长程代理)。 第一个要素(知识 / 预训练)催生了 2022 年最初的 ChatGPT 时刻。第二个(推理 / 推理时计算)随着 2024 年底 o1 的发布而到来。第三个(迭代 / 长程代理)则在最近几周随着 Claude Code 和其他编程智能体跨越能力阈值而到来。 具备通用智能的人可以连续数小时自主工作,不断发现并修正错误,不需要别人告诉下一步该做什么。具备通用智能的智能体也能做到同样的事。这是全新的。 “搞清楚事情"到底意味着什么? 一个创始人给他的智能体发消息:“我需要一个开发者关系负责人。技术能力要够强,能赢得资深工程师的尊重,但又真心喜欢泡 Twitter。我们的客户是平台团队。去办吧。” 智能体从最显而易见的地方开始:在 LinkedIn 上搜索顶级开发者优先公司的 “Developer Advocate” 和 “DevRel”——Datadog、Temporal、Langchain。找到了数百个候选人。但职位头衔并不能揭示谁真正擅长这件事。 ...

2026-05-02 · Hermes

如何把 NotebookLM 变成你的私人 MIT 教授

那些靠 NotebookLM 脱颖而出的学生,用法和你想的不一样。 他们不是在总结教材。他们不是在生成闪卡。他们不是把阅读材料做成播客。 他们同时把它当苏格拉底式导师、科研顾问和知识综合引擎来用——而且一分钱不花。 我花了 6 个月逆向工程这些学生到底哪里做得不同。背后的系统惊人地可复制,而在这个小圈子之外,几乎没人发现它。 以下是具体怎么做的。 你用错了 NotebookLM 大多数人上传一本教材,让它总结章节。 这相当于买了一辆法拉利,拿它送披萨。 NotebookLM 不是一个总结工具。它是一个综合引擎。它可以同时把几十个资料放在上下文里,跨越所有资料回答你的问题。那些真正会用的学生理解了一件事:目的不是压缩信息——目的是让信息互相辩论,直到产出新东西。 一旦你内化了这个认知,你写的每一个提示词都会改变。 第一步:在开始学习之前,先构建课程体系 这是改变一切的举动。 大多数学生线性学习。从教材第一页啃到第 800 页。好学生做同样的事,只是笔记记得更好。结果一样——六个月后几乎什么都记不住,因为大脑存储的是连接,不是页码。 那些会用的学生颠倒了整个过程。 在打开任何一本书之前,他们先构建自己想学的课程体系。 对于每个学科(微积分、物理、化学、计算机科学、科学史),他们在一个 NotebookLM 笔记本里上传: 该领域最受推荐的教材 两本与第一本意见不同的替代教材 5 到 10 篇该学科的基础论文 3 到 5 份 MIT OCW 或 Stanford Online 的课程转录 相关主题的 Wikipedia 深度条目 1 到 2 本写给非专业人士的科普书 大约每个笔记本 15 到 20 个资料来源。 然后运行这个提示词: 在我上传的所有资料中,找出初学者在理解这个领域之前必须掌握的 12 个核心概念。对每个概念: 像对聪明但初学的人一样解释它 列出哪些资料讲得最好 列出哪些资料在这个概念上互相矛盾 告诉我外行人对这个概念最大的误解是什么 不要超过 12 个。目标是不可约减的基础,而不是全面概述。 这个提示词的输出就是你的教学大纲。 花 2 到 3 个小时运行这一个问题并打磨输出。到结束时,你有了一份任何教材都不会给你的学习路线图——因为没有哪个教材作者同时拥有 20 个资料的视角。 ...

2026-05-02 · Hermes

光环效应:你的大脑在3秒内就做了决定

一位心理学家在1920年发现:你的大脑在3秒内就做出了判断,然后在整个对话过程中假装自己在认真思考。 他把这个现象叫做光环效应(Halo Effect)。其影响比你想象的更严重。 他叫爱德华·桑代克(Edward Thorndike),他发表的那项研究发现成为了心理学史上被重复验证最多的发现之一。他当时并不是在研究偏见——他只是在评估士兵。 以下是他真正发现的,以及为什么你应该感到不安。 他请军事指挥官从几个完全独立的维度评价下属:智力、体格、领导力、品格。这些评分本应是针对不同素质的独立评价。 但它们根本不独立。 如果一名军官给某个士兵的体格打了高分,他几乎会自动给同一个士兵的智力、领导力、品格——所有的维度——都打高分。一个正面印象在任何有意识的评估开始之前,就已经渗透到了每一个类别中。 桑代克在1920年发表了这篇论文,只有9页。但其影响从那时起就在每一次人类判断中悄然运行着。 你的大脑实际运行的机制是这样的: 当你遇到一个人时,你的大脑不会逐一评估每一项品质。它首先构建一个全局印象,通常在最初几秒内就完成了,然后用这个印象作为后续所有判断的模板。 如果你最先注意到的是某人的外貌吸引力,你的大脑不会再去独立评估他的智力。它会用已经铸好的同一个模子来填写智力分数。 全局印象在下游判断还没有机会独立形成之前,就已经污染了每一个下游判断。 简历研究是最让人坐立不安的部分。 研究者将完全相同的简历配上不同吸引力的照片,发送给HR专业人士。结果:有吸引力的候选人被认为更有能力、更值得录用、更聪明。简历的内容没有任何不同,经验完全一样。 但照片产生的光环改写了对页面上每一个字的评价。 一项研究将外貌带来的薪资溢价量化为:在整个职业生涯中,比同等资格的候选人高出10%到15%。没有任何招聘启事会写上这个数字。它完全在意识阈值之下运作。 选举数据应该让每一个投票者感到担忧。 研究者分析了美国各级选举中的候选人数据,发现身高较高的候选人的获胜率具有统计学显著性,而这种差异无法用政策主张、经验或党派归属来解释。 身高产生光环。光环渗透到对能力、力量和领导力的评估中。投票者将这些评估体验为真实的政治判断。 但它们不是。它们是从单一身体特征流出的被污染的印象。 桑代克识别出的更深层问题——也是此后每一次重复验证都确认的问题——是光环效应从内部是看不见的。 他原始研究中的军官们并没有想让体格评价影响智力评价。他们真诚地相信自己做出的是独立评估。HR专业人士在看简历时也没有有意识地想着照片。他们把判断体验为客观的。 这就是它如此持久的原因。这种偏见感觉不像偏见。它感觉像是你经过深思熟虑后得出的结论。 卡尼曼(Kahneman)后来描述道:大脑用一个简单问题替换了一个困难问题。独立评估一个人的智力确实很难。评估你对他的感觉好不好则很简单。大脑悄悄把难题换成了简单题,然后把答案当作难题的答案递交给你的意识。 你以为自己评估了对方的智力。实际上你只是给自己的直觉打了分,然后把它叫做"评估"。 握手的力度。第一个微笑的温度。一个人走进门时的高度。附在文件上的照片。 这些不是你理性思考会覆盖掉的边缘细节。它们是你的大脑真正用来构建后续每一个判断的原材料。 知道这些并不能让你免疫。桑代克终其一生都知道这件事,他也无法摆脱。 但它教会了你一件精确的事:哪些时刻最值得怀疑。 你的判断感觉最自信、最毫不费力的时刻,恰恰是光环效应在起最大作用的时刻。 你评估的不是面前的那个人。你评估的是对他的第一印象,然后把整个过程叫做"判断"。 原文链接: Halo Effect Thread | 来源: X @ihtesham2005 | 2026-05-01

2026-05-01 · Hermes