AI 中心的数据黑洞

真正推动 AI 进步的是什么？

Dwarkesh Patel：对智能的一种定义，是样本效率：在某个领域里，你需要多少数据，才能流畅而胜任地运作。过去几年里，训练的样本效率到底有没有显著进步，其实并不清楚。更明显的变化似乎是，我们大幅拓宽并改善了数据分布。AI 变得更强的主要方式，是加入更多、更好的数据，并扩大为了先把这些数据开发出来所需的计算量。RL 是最明显的例子。你可以把 RL 理解成一种合成数据生成：把大量计算砸向一个验证器，或者在由 LLM 充当裁判时砸向一套评分规则，以便先找出什么才是好数据；然后再训练模型去预测这些正确的 rollout，就像训练模型预测互联网文本里的下一个词一样。要让这个过程奏效，模型必须一开始就对正确解法分配至少一点先验概率。这就是为什么在你希望模型最终胜任的每一个领域和技能上，都需要数量惊人的人类专家轨迹。这些数据极其任务特定，也极其定制化。想获得直觉，可以看看 Mercor Research 网站上的职位描述：有 Word 专家把老旧文档转换成精修 Word 文件，有法律专家撰写逼真的并购尽调或证券文件，也有管理顾问撰写模板化市场研究。问题不只是数据必须如此垂直，还在于数据量必须非常大。每一种技能都对应至少数百名人类专家，他们生成示例答案、编写评分规则，并解释自己的思维链。生产这些专家标签和 RL 环境的数据产业正在获得数十亿美元年收入，并且很快可能达到数百亿美元，并不是没有原因的；正是在这些环境里，被细致编目的技能才能凝结出来。想象一下，如果你需要几十年的课程、数百名同时上课的教授，以及数百万道练习题，才能学会润色一个 Word 文件。即便只比较任务数量，也低估了差距，因为模型要碾过数量多得多的任务，而且每个任务往往更难。人类学生也许只会练一两遍教材题；而在 GRPO 中，模型会为每个任务生成数百到数千条 rollout，并且还要解决信用分配问题。看待这些模型的正确方式，不是把它们看成人类那样学会了我们看到的各种技能；更像是一个由十亿张精心构造的示例图拼接缝合出来的 Frankenstein 式造物。Epoch 最近报告说，开源模型落后最前沿模型大约四个月。我认为，开源模型和此前的落后者之所以相对容易在几个月内追到前沿附近，是因为数据才是真正的进步驱动力。数据可以很容易从公开 API 中蒸馏出来，而超参数、训练技巧和架构优化则不能。如果后者驱动了大部分进步，那么追赶会比我们现在观察到的困难得多。我们很容易忘记，这些模型到底是在多少数据上训练出来的，也很容易忘记这比人类一生所见的数据多出多少。我们把 AI 看成一片闪耀着能力的星系，但在它们的中心，有一个肉眼不可见、把所有星座维系在一起、质量难以想象的数据黑洞。[00:03:03]

比较人类与 AI 的样本效率

Dwarkesh Patel：几个比较可以帮助说明差距有多大。假设一个人平均每小时看到和听到的词数，宽松地算是 2,000 个，那么从出生到成年，他大约会看到 2 亿个 token。相比之下，前沿模型是在数十万亿到数百万亿个 token 上训练的，差不多相差一百万倍。另一个比较来自机器人。一个人可以在几小时内学会遥操作任意一种人形机器人或机械臂。如果 AI 也能学得这么快，机器人产业早就是十万亿美元级别了，世界上会有无穷无尽的 Unitree G1 在做各种有用的工作。但我们做不到，是因为 AI 的学习效率远低于人类；即便已经收集了数百万小时的演示，也仍不足以让它们执行复杂、开放式的任务。最后一个比较是开车。青少年大约用 20 小时练习就能学会开车。即使把他们 16 年的成长、理解世界和建立物理直觉都算进去，数据量仍然比 Waymo 和 Tesla 用来训练自动驾驶模型的数据少三到四个数量级。针对这些比较，有几种常见反驳。第一种说法是，数十亿年的进化已经在某种意义上对人类做了预训练，所以把人类一生中看到的数据和从随机初始化开始的冷启动 LLM 相比并不公平。我认为这不是正确的类比。人类基因组只有大约 3GB，其中只有 1% 到 2% 是蛋白编码区；这根本没有足够空间存储那个据说被进化预训练出来的网络参数。更接近的类比是，进化找到了合适的超参数和损失函数，而在我们的一生中，我们仍然是在从头构建大脑里的 connectome，也就是神经网络权重和参数的对应物。即便你接受前面的说法，认为模型预训练所见的数百万亿 token 类似于追赶进化，那也仍然解释不了：为什么你想给模型增加任何一种新的边际能力，都需要这么多数据。人接受过教育之后，再学习一门新的编程语言，并不需要一百个不同的教授；但这些 AI 即便已经预训练过，仍然需要海量数据来学习下一个边际技能，再学习之后的下一个边际技能。第二种反驳是，我们没有把人类一生中看到的多模态数据算进去。如果把从出生到成年接收到的所有感官信息都包括进来，也许会有数百亿到数千亿 token 的数据。我的回应很简单：盲人和聋人被切断了大量感官信息，但仍然拥有通用智能。这说明这些感官 token 并不是让人类变聪明的关键。事实上，不能听到任何语言 token、只能通过手语和阅读来消费语言的聋人，摄入的语言 token 很可能远少于前面粗略估算的 2 亿个；这意味着我们前面算出的一百万倍差距，可能还是低估。第三种常见反驳是，我们只是还没有把规模扩得足够大。我们有 scaling laws，它们告诉我们，更大的模型样本效率更高。人脑大约有 100 万亿个突触，而当前前沿模型大约有 5 万亿个参数；所以也许只要把模型再做大一到两个数量级，就能达到人类级别的样本效率。这个反驳偏离了重点，而且原因很有意思。看 scaling law 方程时会发现，参数项和数据项是彼此独立地加到 loss 里的。假设你训练了一个计算最优模型，然后说，我想尽可能样本高效，愿意加入任何必要数量的参数。用 Chinchilla scaling law 论文中的常数来算，即使把参数数量增加到无穷大，也只能把保持同样 loss 所需的数据量降低约 10 倍。人类比这些模型高效几千到几百万倍，所以单纯扩大当前模型尺寸并不能弥合这个差距。这确实暗示，人类似乎处在一条完全不同的 scaling curve 上。只要我赚到钱，我就想让它投入运转，但我也需要为即将到来的开支和预估税款留出储蓄。为了精确算出该留多少，我会问 Command。Command 是内置在 Mercury 里的 AI，而 Mercury 是我的银行平台。既然我已经用 Mercury 运行整个业务，Command 就能访问完成工作所需的信息。我只要告诉 Command 我关心的日期，它就会处理其余事项：读取当前余额，加上截止日期前到期的发票，查看过去六个月的交易历史，扣除月均开销和已安排付款。如果有什么还没有进入 Mercury 但与结果相关，我也可以直接提醒它，比如“注意，7 月有一笔 12,000 美元的承包商付款”。这也会被纳入最终输出。因为所有操作都发生在聊天里，而且每个答案都有指向底层数据的链接，我可以很容易复查 Command 的工作。一旦确认无误，我只要告诉它“好，看起来可以，把盈余转到我的个人账户”，它就会立即起草转账，等待我批准。Command 现在已经上线。访问 mercury.com/command 了解更多。Mercury 是一家金融科技公司，不是 FDIC 承保银行。银行服务由 Choice Financial Group 和 Column N.A. 提供，它们是 FDIC 成员。AI 生成的回答和建议操作可能有所不同，且不保证结果。[00:08:37]

样本效率重要吗？

Dwarkesh Patel：抛开这些书呆子式的比较，你可能会问，我们为什么要关心样本效率？对于实验室要实现的两个总体目标，也就是自动化白领工作和自动化 AI 研究本身，样本效率真的必要吗？在白领工作上，实验室押注的是，软件工程师、分析师、会计师等人需要做的常见任务之所以常见，是因为它们可以相对容易地被带入训练分布。如果看看这些实验室过去几个月的收入曲线，确实可以看出，把这些常见任务带入分布会产生巨大的价值，即便我们无法复制人类学习里那种特殊机制。训练 AI 完成这些任务可能比训练人类低效得多，但那又怎样？人类寿命根本不允许我们经历模型那样的训练数量和广度。假设你作为人类有一种奇怪的学习障碍，必须读完 GitHub 上每一个公开仓库之后才能成为合格的软件工程师，那训练你就根本不划算；你还在教育的早期阶段，就已经该领社会保障了。即便你最终被训练出来，也一次只能做一个项目。但 AI 可以用同时喷涌而来的吉瓦级训练来学习这些技能，而且学到的东西可以在数十亿个会话中摊销。所以，即使训练它们的过程荒谬地低效，经济账也仍然可能大赚。接下来的问题是，白领员工到底需要做多少分布外思考，而这些思考无法提前训练出来。这与其说是 AI 研究问题，不如说是不同职业本质的问题，也取决于具体工作。有些工作非常机械、可预测，以至于在现代 AI 时代之前就已经被自动化了，比如银行柜员或旅行代理。但也有其他工作，每天都要处理离数据分布相当远的问题。我认为软件工程很可能就是其中之一。它被认为是 AI 最先要取代的工作，但我愿意打赌，到 2027 年，对人类软件工程师的总体需求会比现在更高，主要原因是 AI 会成为互补投入。对于后一类工作，实验室的计划是先自动化 AI 研究，然后让自动化的 AI 研究员去解决样本效率问题。于是问题变成：尚不具备人类级样本效率的 AI，是否仍能解决通往类人智能和学习能力道路上剩下的研究难题？这是一个非常复杂的问题，我得在未来一篇更长的博客文章里处理。但先稍微展开一点：我认为人们现在关于 intelligence explosion 的思考非常笨拙。人们要么完全否认 AI 加速 AI 进步的可能性，要么假设另一端会冒出某种神明。他们没有仔细推理这样一种时期会是什么样子：AI 进步比平常快得多，但这种进步仍然建立在 LLM 之上，仍然受限于 LLM 所具备的那几类特定智能。这个问题我留到下一次。与此同时，如果你想阅读这篇博客、我写的其他博客，或者想在我发布下一篇文章时收到提醒，可以去我的网站 dwarkesh.com 订阅 newsletter。好了，下次见。[00:11:46]

AI 中心的数据黑洞

整体概括

主要内容

关键 takeaway

目录

真正推动 AI 进步的是什么？

比较人类与 AI 的样本效率

样本效率重要吗？