目录
- 真正推动 AI 进步的是什么? [00:00:00 - 00:03:11]
- 比较人类与 AI 的样本效率 [00:03:11 - 00:08:46]
- 样本效率重要吗?[00:08:46 - 00:11:56]
真正推动 AI 进步的是什么?
Dwarkesh Patel:对智能的一种定义,是样本效率:在某个领域里,你需要多少数据,才能流畅而胜任地运作。过去几年里,训练的样本效率到底有没有显著进步,其实并不清楚。更明显的变化似乎是,我们大幅拓宽并改善了数据分布。AI 变得更强的主要方式,是加入更多、更好的数据,并扩大为了先把这些数据开发出来所需的计算量。RL 是最明显的例子。你可以把 RL 理解成一种合成数据生成:把大量计算砸向一个验证器,或者在由 LLM 充当裁判时砸向一套评分规则,以便先找出什么才是好数据;然后再训练模型去预测这些正确的 rollout,就像训练模型预测互联网文本里的下一个词一样。要让这个过程奏效,模型必须一开始就对正确解法分配至少一点先验概率。这就是为什么在你希望模型最终胜任的每一个领域和技能上,都需要数量惊人的人类专家轨迹。这些数据极其任务特定,也极其定制化。想获得直觉,可以看看 Mercor Research 网站上的职位描述:有 Word 专家把老旧文档转换成精修 Word 文件,有法律专家撰写逼真的并购尽调或证券文件,也有管理顾问撰写模板化市场研究。问题不只是数据必须如此垂直,还在于数据量必须非常大。每一种技能都对应至少数百名人类专家,他们生成示例答案、编写评分规则,并解释自己的思维链。生产这些专家标签和 RL 环境的数据产业正在获得数十亿美元年收入,并且很快可能达到数百亿美元,并不是没有原因的;正是在这些环境里,被细致编目的技能才能凝结出来。想象一下,如果你需要几十年的课程、数百名同时上课的教授,以及数百万道练习题,才能学会润色一个 Word 文件。即便只比较任务数量,也低估了差距,因为模型要碾过数量多得多的任务,而且每个任务往往更难。人类学生也许只会练一两遍教材题;而在 GRPO 中,模型会为每个任务生成数百到数千条 rollout,并且还要解决信用分配问题。看待这些模型的正确方式,不是把它们看成人类那样学会了我们看到的各种技能;更像是一个由十亿张精心构造的示例图拼接缝合出来的 Frankenstein 式造物。Epoch 最近报告说,开源模型落后最前沿模型大约四个月。我认为,开源模型和此前的落后者之所以相对容易在几个月内追到前沿附近,是因为数据才是真正的进步驱动力。数据可以很容易从公开 API 中蒸馏出来,而超参数、训练技巧和架构优化则不能。如果后者驱动了大部分进步,那么追赶会比我们现在观察到的困难得多。我们很容易忘记,这些模型到底是在多少数据上训练出来的,也很容易忘记这比人类一生所见的数据多出多少。我们把 AI 看成一片闪耀着能力的星系,但在它们的中心,有一个肉眼不可见、把所有星座维系在一起、质量难以想象的数据黑洞。[00:03:03]
比较人类与 AI 的样本效率
Dwarkesh Patel:几个比较可以帮助说明差距有多大。假设一个人平均每小时看到和听到的词数,宽松地算是 2,000 个,那么从出生到成年,他大约会看到 2 亿个 token。相比之下,前沿模型是在数十万亿到数百万亿个 token 上训练的,差不多相差一百万倍。另一个比较来自机器人。一个人可以在几小时内学会遥操作任意一种人形机器人或机械臂。如果 AI 也能学得这么快,机器人产业早就是十万亿美元级别了,世界上会有无穷无尽的 Unitree G1 在做各种有用的工作。但我们做不到,是因为 AI 的学习效率远低于人类;即便已经收集了数百万小时的演示,也仍不足以让它们执行复杂、开放式的任务。最后一个比较是开车。青少年大约用 20 小时练习就能学会开车。即使把他们 16 年的成长、理解世界和建立物理直觉都算进去,数据量仍然比 Waymo 和 Tesla 用来训练自动驾驶模型的数据少三到四个数量级。针对这些比较,有几种常见反驳。第一种说法是,数十亿年的进化已经在某种意义上对人类做了预训练,所以把人类一生中看到的数据和从随机初始化开始的冷启动 LLM 相比并不公平。我认为这不是正确的类比。人类基因组只有大约 3GB,其中只有 1% 到 2% 是蛋白编码区;这根本没有足够空间存储那个据说被进化预训练出来的网络参数。更接近的类比是,进化找到了合适的超参数和损失函数,而在我们的一生中,我们仍然是在从头构建大脑里的 connectome,也就是神经网络权重和参数的对应物。即便你接受前面的说法,认为模型预训练所见的数百万亿 token 类似于追赶进化,那也仍然解释不了:为什么你想给模型增加任何一种新的边际能力,都需要这么多数据。人接受过教育之后,再学习一门新的编程语言,并不需要一百个不同的教授;但这些 AI 即便已经预训练过,仍然需要海量数据来学习下一个边际技能,再学习之后的下一个边际技能。第二种反驳是,我们没有把人类一生中看到的多模态数据算进去。如果把从出生到成年接收到的所有感官信息都包括进来,也许会有数百亿到数千亿 token 的数据。我的回应很简单:盲人和聋人被切断了大量感官信息,但仍然拥有通用智能。这说明这些感官 token 并不是让人类变聪明的关键。事实上,不能听到任何语言 token、只能通过手语和阅读来消费语言的聋人,摄入的语言 token 很可能远少于前面粗略估算的 2 亿个;这意味着我们前面算出的一百万倍差距,可能还是低估。第三种常见反驳是,我们只是还没有把规模扩得足够大。我们有 scaling laws,它们告诉我们,更大的模型样本效率更高。人脑大约有 100 万亿个突触,而当前前沿模型大约有 5 万亿个参数;所以也许只要把模型再做大一到两个数量级,就能达到人类级别的样本效率。这个反驳偏离了重点,而且原因很有意思。看 scaling law 方程时会发现,参数项和数据项是彼此独立地加到 loss 里的。假设你训练了一个计算最优模型,然后说,我想尽可能样本高效,愿意加入任何必要数量的参数。用 Chinchilla scaling law 论文中的常数来算,即使把参数数量增加到无穷大,也只能把保持同样 loss 所需的数据量降低约 10 倍。人类比这些模型高效几千到几百万倍,所以单纯扩大当前模型尺寸并不能弥合这个差距。这确实暗示,人类似乎处在一条完全不同的 scaling curve 上。只要我赚到钱,我就想让它投入运转,但我也需要为即将到来的开支和预估税款留出储蓄。为了精确算出该留多少,我会问 Command。Command 是内置在 Mercury 里的 AI,而 Mercury 是我的银行平台。既然我已经用 Mercury 运行整个业务,Command 就能访问完成工作所需的信息。我只要告诉 Command 我关心的日期,它就会处理其余事项:读取当前余额,加上截止日期前到期的发票,查看过去六个月的交易历史,扣除月均开销和已安排付款。如果有什么还没有进入 Mercury 但与结果相关,我也可以直接提醒它,比如“注意,7 月有一笔 12,000 美元的承包商付款”。这也会被纳入最终输出。因为所有操作都发生在聊天里,而且每个答案都有指向底层数据的链接,我可以很容易复查 Command 的工作。一旦确认无误,我只要告诉它“好,看起来可以,把盈余转到我的个人账户”,它就会立即起草转账,等待我批准。Command 现在已经上线。访问 mercury.com/command 了解更多。Mercury 是一家金融科技公司,不是 FDIC 承保银行。银行服务由 Choice Financial Group 和 Column N.A. 提供,它们是 FDIC 成员。AI 生成的回答和建议操作可能有所不同,且不保证结果。[00:08:37]
样本效率重要吗?
Dwarkesh Patel:抛开这些书呆子式的比较,你可能会问,我们为什么要关心样本效率?对于实验室要实现的两个总体目标,也就是自动化白领工作和自动化 AI 研究本身,样本效率真的必要吗?在白领工作上,实验室押注的是,软件工程师、分析师、会计师等人需要做的常见任务之所以常见,是因为它们可以相对容易地被带入训练分布。如果看看这些实验室过去几个月的收入曲线,确实可以看出,把这些常见任务带入分布会产生巨大的价值,即便我们无法复制人类学习里那种特殊机制。训练 AI 完成这些任务可能比训练人类低效得多,但那又怎样?人类寿命根本不允许我们经历模型那样的训练数量和广度。假设你作为人类有一种奇怪的学习障碍,必须读完 GitHub 上每一个公开仓库之后才能成为合格的软件工程师,那训练你就根本不划算;你还在教育的早期阶段,就已经该领社会保障了。即便你最终被训练出来,也一次只能做一个项目。但 AI 可以用同时喷涌而来的吉瓦级训练来学习这些技能,而且学到的东西可以在数十亿个会话中摊销。所以,即使训练它们的过程荒谬地低效,经济账也仍然可能大赚。接下来的问题是,白领员工到底需要做多少分布外思考,而这些思考无法提前训练出来。这与其说是 AI 研究问题,不如说是不同职业本质的问题,也取决于具体工作。有些工作非常机械、可预测,以至于在现代 AI 时代之前就已经被自动化了,比如银行柜员或旅行代理。但也有其他工作,每天都要处理离数据分布相当远的问题。我认为软件工程很可能就是其中之一。它被认为是 AI 最先要取代的工作,但我愿意打赌,到 2027 年,对人类软件工程师的总体需求会比现在更高,主要原因是 AI 会成为互补投入。对于后一类工作,实验室的计划是先自动化 AI 研究,然后让自动化的 AI 研究员去解决样本效率问题。于是问题变成:尚不具备人类级样本效率的 AI,是否仍能解决通往类人智能和学习能力道路上剩下的研究难题?这是一个非常复杂的问题,我得在未来一篇更长的博客文章里处理。但先稍微展开一点:我认为人们现在关于 intelligence explosion 的思考非常笨拙。人们要么完全否认 AI 加速 AI 进步的可能性,要么假设另一端会冒出某种神明。他们没有仔细推理这样一种时期会是什么样子:AI 进步比平常快得多,但这种进步仍然建立在 LLM 之上,仍然受限于 LLM 所具备的那几类特定智能。这个问题我留到下一次。与此同时,如果你想阅读这篇博客、我写的其他博客,或者想在我发布下一篇文章时收到提醒,可以去我的网站 dwarkesh.com 订阅 newsletter。好了,下次见。[00:11:46]