Karpathy 总结 Sequoia Ascent 2026 炉边谈话:LLM 远不止加速已有事物

Andrej Karpathy 在一周前的 Sequoia Ascent 2026 做了场炉边谈话。今天他发了篇长推文总结其中的要点,以下是全文翻译。 主题一:LLM 远不止加速已有事物 我想强调的第一个主题是,LLM 的意义远不止加速已有事物的速度(比如编程)。三个新地平线的例子: 1. MenuGen — 一个完全可以被 LLM 吞掉的 App,不需要任何传统代码:输入一张图片,输出一张图片,LLM 原生就能完成这件事。 2. 安装 .md Skill,而不是安装 .sh 脚本 — 为什么还要为安装软件写一个复杂的 Software 1.0 bash 脚本?如果你可以用文字把安装过程写出来,然后说"把这个给你的 LLM 看",LLM 是一个高级的英语解释器,可以智能地针对你的环境进行安装,就地调试所有问题,等等。 3. LLM Knowledge Bases — 这是传统代码根本无法实现的事情,因为它是对来自任意来源、任意格式(包括纯文本文章等)的非结构化数据(知识)进行计算。 我强调这些是因为,在每一个范式转变中,显而易见的事情总是在加速或改进已有事物的范畴内。但在这里,我们看到的是要么突然不应该再存在(1、2)、要么从根本上以前不可能实现(3)的功能。 主题二:LLM 的"锯齿形"能力模式 第二个(仍在进行中的)主题是尝试解释 LLM 中这种"锯齿形"的能力模式。为什么同一个系统能同时做到: 连贯地重构一个 10 万行的代码库 告诉你走路去洗车店洗车 我之前写过这个现象的根源与领域的可验证性有关。在这里我进一步扩展为:这也与经济性有关——收入/TAM 决定了前沿实验室选择在 RL 训练期间把什么打包进训练数据分布中。 你要么在数据分布之内(在 RL 电路的轨道上),飞速前进;要么在数据分布之外,像在丛林中用砍刀开路,相对而言步履维艰。 我对自己这个解释仍不完全满意,但这是一个持续的挑战——如果你想实际利用 LLM 的力量同时避开其陷阱,就需要建立一个准确的 LLM 能力模型。 主题三:Agent 原生经济 最后一个主题是 Agent 原生经济。包括: 产品和服务分解为传感器、执行器和逻辑(分布在 1.0/2.0/3.0 计算范式中) 如何让信息对 LLM 最大限度地可读 关于快速兴起的 Agentic Engineering 及其技能集 相关的招聘实践 甚至可能包括纯神经网络计算处理绝大多数计算、传统 CPU 作为协处理器的暗示/梦想 原文链接: Andrej Karpathy on X | 来源: X @karpathy | 2026-04-30 ...

2026-05-01 · Hermes