#519.普林斯顿Zhuang Liu谈架构、数据与记忆的真相

# #519.普林斯顿Zhuang Liu谈架构、数据与记忆的真相

一凯: 欢迎收听跨国串门计划，这是一档专注于让中文听众无障碍，欣赏全球优质外语播客的节目，通过先进的AI声纹客轮技术，我们不仅将内容翻译成中文，还完美保留了原主持人和嘉宾的独特声音，为您呈现全球顶尖的AI财经，健康与科技领域精品内容，我是主播一凯，一位热衷于AI领域的产品经理，很荣幸能为您搭建这座跨越语言障碍的桥梁 [00:00:00 → 00:00:30]

接下来,让我为您简单介绍本期我们克隆的这档节目，并分享几句非常精彩的原话，本期我们克隆的是资深科技播客Information Bottleneck的一期节目，Ravi 和 Alan 主持，对谈普林斯顿大学助理教授庄六，庄六的研究聚焦在深度学习架构、视觉表征以及多模态学习，曾提出CMAXT等广为流传的架构，也是一位对神经网络设计有深层洞见的学者，在节目中 [00:00:30 → 00:01:03]

他的一些观点直接打破了很多固有认知，这些小细节组合在一起，比那些看起来像是网络核心组件的改变要重要得多，你想让模型在哪方面做得好，最好就针对那方面去训练，我觉得记忆和上下文是目前最重要的两个方面，尤其是记忆，那我们就一起来听听这期完整的跨界讨论吧，大家好 [00:01:03 → 00:01:27]

Ravi 与 Ellen: 欢迎回到Information Bottleneck博客，今天我们有Juan Liu 他是普林斯顿的助理教授，嗨字，很高兴你来了 Hey Alan 和往常一样，我们还有Alan Hey Alan [00:01:27 → 00:01:41]

一凯: 很高兴再次见到你Ravi 很高兴认识你Juan Liu 对了，你应该去看看他的Google Scholar 他有很多非常酷的论文，对我们今天会聊聊其中的一些论文 [00:01:41 → 00:01:55]

Ravi 与 Ellen: 总的来说我们要聊的是，当今AI里哪些组件才是真正重要的，你有这么多工作，我想我们可以从你理解的重要组件聊起，几年前你有一篇论文叫，面向20年代的卷积网络对吧，也许你先跟我们讲讲这篇论文是关于什么的，然后我们就可以开始拆解，当前AI系统中的那些组件了 [00:01:55 → 00:02:21]

Zhuang Liu: 是的,当然这个故事其实挺有意思的,那篇论文我们是在2021年做的,那时候Transformer刚通过视觉Transformer进入计算机视觉研究领域,对吧?然后整个视觉圈子的人都在从传统的卷积网络往视觉Transformer迁移,性能也变得越来越好。 [00:02:21 → 00:02:53]

所以在这项工作里，我们想研究的是，卷积网络是不是真的就失去了竞争力，还有能不能通过系统性的控制所有设计组件，去研究卷积网络是否可以被现代化，从而在当时跟视觉Transformer旗鼓相当 [00:02:21 → 00:02:53]

我们想搞清楚那个看起来的性能差距，究竟是因为内在设计的差异，比如你是用自注意力还是卷积，还是因为其他一些细小的设计细节，结果我们发现答案是后者，在做了大量研究，把卷积网络的设计组件现代化之后， [00:02:53 → 00:03:26]

我们最终得到的模型，在各种各样的任务上，都能跟当时非常强的视觉Transformer打平，这就说明，不管你选卷积网络还是视觉Transformer 只要把各种设计都搞对，你就能在视觉任务上达到相同的前沿水平 [00:02:53 → 00:03:26]

Ravi 与 Ellen: 你现在还相信这一点吗，你还相信说到底其实并没什么关系吗，我大体上倾向于同意，但我不会说完全没关系，我会说只要你把一切都搞对，只要你把设计空间探索的足够充分 [00:03:26 → 00:03:40]

Zhuang Liu: 你就会收敛到某个点，那里差不多就是准确率和效率权衡的前沿，要想离开这个前沿非常难，我觉得在过去很多年里，除了我们几年前就在用的那些成熟架构，还真没有什么真正被广泛采用的根本性创新， [00:03:40 → 00:04:14]

但探索这个过程本身非常有趣，事实上最近又有一些这方面的论文出来了，特别是那些开放权重模型的公司，比如Kimi, DeepSeek 他们还在摆弄架构，比如怎么改残差连接，怎么连接不同层，这一类的事情，我非常尊重这些工作 [00:03:40 → 00:04:14]

其实现代学术界在架构研究上没那么活跃，部分原因是我们实在负担不起足够大的计算规模，来在有说服力的规模上验证这些效果，这有点可惜，但我自己还是会在大学现有的资源下试着玩一玩，实际上借助云代码工具，我现在能重新上手写代码，自己亲手去折腾，所以这是非常有趣的研究，但从实用角度说，我认为用什么数据来训练模型，比架构的选择更重要，只要输入输出接口，保持不变，架构选择本质上是 [00:04:14 → 00:04:47]

我们怎么去参数化这个函数近似器，对吧，这是神经网络或深度学习最基础的功能，不管你用什么方式参数化，只要你把几件事搞对，比如用上残差连接，用上自注意力，或者其他合理的机制，在合适的位置放对激活函数和潜会层，你就会非常接近，或者就落在那条性能与效率权衡的前沿曲线上，这样一来我就会倾向于认为，在实际应用里，在把产品带给越来越多的人，让他们日常使用更有效的过程中，真正更重要的是其他方面 [00:04:47 → 00:05:19]

比如这个模型是用什么数据训练的，它怎么处理上下文和记忆，说到上下文记忆，确实有一些架构工作是在解决这个问题，我觉得这可能就是我们让AI再上一个台阶时，需要处理的更紧迫的问题 [00:05:19 → 00:05:34]

一凯: 对,在面向20年代的卷积网络这篇论文里,首先你能不能简单概括一下那篇论文。然后我的问题是,我读下来的感觉是,如果我理解错了,请纠正,你好像是逐步把ResNet朝着类似Watt的设计去现代化,最终得到一个能跟Transformer强劲竞争的卷积网络。在那篇论文里，哪一个笑容实验，最让你自己改变了看法，让你觉得所谓Transformer的优势 [00:05:34 → 00:06:07]

其实是从哪来的，哪一个笑容实验，我觉得其实是每一个，你看那张图 [00:06:07 → 00:06:13]

Zhuang Liu: 没有哪一个单向改动，单独就把性能大幅拉上去的，有些改动比其他的更有用，但也不是一个改变就扭转了一切，可能激活函数的使用，和皈依化层的减少，这点让我挺感兴趣，而且它带来的性能变化也比较明显， [00:06:13 → 00:06:48]

但真正起作用的是所有东西凑在一起，很多小部件，当你把它们组合起来，就能造成非常大的差异，而这些差异通常会被归因于某种实质性的改变，比如从卷积换成自注意力，或者换成更现代的机制，比如线性注意力，对吧，所以我觉得这里最大的教训是 [00:06:13 → 00:06:48]

这些小细节组合在一起 [00:06:48 → 00:06:50]

Ravi 与 Ellen: 比那些看起来像是网络核心组件的改变要重要得多，你觉得是不是这样，我们尝试了很多东西，其中一些奏效了，对吧，然后我们得到了更好的模型，再回过头来看，我们就能开始理解， [00:06:50 → 00:07:25]

到底哪些组件是真正重要的，对吧，就像我们可以试着，现在我们改一下卷积网络，让它看起来更像Transformer 比如这个例子，你同意这个看法吗，你觉得我们是不是真的需要这种突破，然后才能回溯过去，理解细节 [00:06:50 → 00:07:25]

并试着跟其他方法对齐，还是说我们只需要反复试，不需要非常明确的方向，我明白了，我觉得Transformer对这个社区，绝对是个福音视觉 Transformer也是把Transformer [00:07:25 → 00:07:40]

Zhuang Liu: 用到计算机视觉里，这我不争辩，也很难去争辩，这绝对是个突破，非常重要的突破，也许是那几年里最大的突破，我们的研究更聚焦在，纯视觉这个领域，但视觉Transformer还有一个好处，就是它现在统一了文本和图像的表征， [00:07:40 → 00:08:12]

你看正是用了Transformer 才让后面的发展变得很重要，比如Lava这样的多模态框架，你用视觉编码器，把图像编码成Token 然后就把这些Token一起喂给下游的大语言模型，现在很多多模态模型的基础框架就是这个 [00:07:40 → 00:08:12]

所以我认为把Transformer引入视觉，是为多模态数据统一迈出的一大步，回到我们那项关于细节的研究，我觉得它更多是一个教训，我之所以为这项工作感到自豪，更多是因为它改变了我自己的认知，也改变了许多其他人的认知， [00:08:12 → 00:08:47]

而不在于，哎呀,你其实还可以继续用卷积网络，当然,人们还是可以继续用卷积网络，它也有它的好处，尤其在纯视觉任务上，它部署方便，某种程度上更容易理解，特别是因为运算是局部的，它在处理高分辨率，处理长序列方面可能更有优势 [00:08:12 → 00:08:47]

我觉得它们只是各自擅长的领域不同，所以这项关于细节转换的研究，对我而言更像一个教训，而不是要去算出每个细节 [00:08:47 → 00:08:57]

Ravi 与 Ellen: 在性能差异里到底占多大比重，好，那么你的意思是架构没那么重要，而且你最近还有一篇论文，展示了皈依化层，其实也没那么重要，对吧，你基本上可以用JL计划函数，就把皈依化层去掉，或许需要做些微调，处理上有点不一样，但结果照样很好，那你觉得对AI 对深度学习来说，真正重要的核心组件是什么，而且为什么直到最近这几年，我们才做出这么好的模型 [00:08:57 → 00:09:29]

如果架构并不那么重要，为什么好模型只在最近5到10年才出现，这是个好问题 [00:09:29 → 00:09:38]

Zhuang Liu: 首先Transformer是在90年前问世的，在那之后很长时间，甚至现在我们用的还是那个相似的基础框架，只是加了一些小改动，比如激活层混合专家模型，这也不是必须的，还有一些局部注意力， [00:09:38 → 00:10:12]

滑动窗口注意力之类的变化，但整体框架跟9年前那篇论文，最初提出的时候还是同一个，所以要回答你的问题，对我来说答案就是数据，数据的规模，还有我们训练他们所用的计算规模，就像从GPT-1到GPT-3 那个经典故事一样 [00:09:38 → 00:10:12]

一旦你用更多的计算，更多的数据，更多样化的数据，更大规模的互联网数据去训练，基本上同样的模型，就会涌现出现在我们看到的，非常有竞争力的性能，所以我会把它归因于数据，其次是计算，还有我们在同样数据上，训练了多少个EPOC 其实我觉得主要还是数据，因为现在大多数模型训练，都差不多只过一遍就够用了，我看得出来，你的工作里贯穿着这样一个论点 [00:10:12 → 00:10:42]

一凯: 整个领域常常把架构和菜谱混为一谈，对吧，尤其是在你那篇COMEX的论文里，如果让你给今天的架构论文定一些规矩，或许你对自己的学生也是这么要求的，那么在你看来需要满足哪些控制条件，才能让人声称某个新的归纳偏置确实很重要，明白了，理想世界里我们有无限的计算资源对吧 [00:10:42 → 00:11:08]

Zhuang Liu: 那么首先我会要求效果和好处，要在最前沿的规模上验证，不一定是万亿美元级的前沿模型，但至少要像70亿300亿参数这样的规模，我觉得规模很重要，因为工业界需要看到这个规模的收益才会幸福， [00:11:08 → 00:11:40]

但这并不总是可行，所以这只是理想情况，其次，如果你想在较小的规模上研究这些机制或架构变化，也就是我们在有限资源下能做的那种，我会要求第一，必须做超参数搜索，我们不能只在一组超参数上展示新架构比旧模型好 [00:11:08 → 00:11:40]

尤其是当那些超参数是专门为这个模型调过的时候，理想情况下，每个模型都应该在各自最佳的超参数设定下相互比较，最重要的超参数包括学习率，衰减策略还有优化器类型，让我很烦的是，很多人连学习率都不调，然后声称自己的方法更好，实际上他们只调了自己方法的优化器，没调极限模型的，这是很多后来发现，无法泛化的声明中最常见的问题，这是第一点，第二，我会要求这个想法和方法，在不止一个数据集上验证 [00:11:40 → 00:12:12]

尤其应该是在一个合理规模的数据集上，你刚才说现在仍然适用，理想情况下，他们还应该展示这个想法，能在一些小型的大语言模型上跑通，比如用FindWeb训练，但我理解不是每个实验室都有资源这么做，不过我自己非常推崇，在多种数据集上展示想法，至少要用那些大家常用的基准数据集，好，我想这就是我会设定的两条标准 [00:12:12 → 00:12:37]

Ravi 与 Ellen: 我有一个问题，你觉得如果你有一个好点子，它应该能在不同的领域，不同的数据集，不同的场景下都有效呢，还是说，其实有些非常好的点子，只能用在非常特定的场景里，是的，我确实觉得两种情况都有价值，对于后一种情况，我会想了解 [00:12:37 → 00:12:59]

Zhuang Liu: 模型在哪种特定场景下做得更好，具体怎么描述那个场景，而且验证时仍然应该用到不止一个评测机，如果你声称你的模型在长上下纹长音频上表现好，那你还是可以在多个不同的评测集上去验证它，同时你需要解释为什么你的方法在这个特定领域有效，然后我们可以从那里出发，看看它在其他领域为什么不行，找出弱点再继续改进，或者我们也可以接受它只在这个领域有效的事实，然后想办法去放大这个优势 [00:12:59 → 00:13:32]

所以我觉得并不是只有普世的方法才有价值，这就是做研究的价值所在，对吧 [00:13:32 → 00:13:38]

Ravi 与 Ellen: 你不需要在第一步就全面成功，当然一步到位是很好，但并不是必须的，那我们接着聊聊数据这块，你之前说过，数据是这里面很重要的一环，那具体是数据的什么方面呢，要不我们就从你之前那篇论文聊起，应该是不久前，大概一年前吧，关于数据级偏差的那篇，讲的是那种数据级的较量，给我们讲讲，这篇论文到底在探讨什么，你当时做这个研究的动机是什么，为什么会想重新审视 [00:13:38 → 00:14:12]

这些数据集之间的争论 [00:14:12 → 00:14:14]

Zhuang Liu: 好，我先简单介绍一下背景，这篇论文更偏向视觉领域，过去这些年，大家一直在构建越来越大的数据集，来源也越来越多样，比如最开始我们有Magnist 然后是Cypher 再到ImageNet 之后又有了互联网规模的数据集， [00:14:14 → 00:14:49]

像Datacomp和Google的Conceptual Captions 也就是CC 这些数据集的图像越来越丰富，规模也从几万张增长到了数十亿张，所以在当时，大家很容易就会觉得，数据集的问题已经解决了，毕竟我们差不多已经把互联网上，能拿到的数据都放进来了 [00:14:14 → 00:14:49]

但在我们前期的一些实验里，我们发现这些数据集，彼此之间其实还是非常不一样，那怎么衡量这种差异呢，我们设计了一个很傻瓜的实验，这个实验本身作为训练方案，根本说不通，我们做的就是把三个超大规模的预训练数据集拿过来，然后训练一个神经网络分类器，让它去判断一张给定的图片来自哪个数据集，这不是一个实用的问题，纯粹就是想猜出图片的来源，是一个多分类任务，结果我们发现，即便是这些看起来已经很多样化的大数据机模型 [00:14:49 → 00:15:24]

依然能以惊人的高准确率分辨出结果，当有三个数据集时，准确率能超过80% 你要知道随便猜的准确率才33% 而模型的表现比这好得多，这说明在这些模型看来，这些数据集还是有着非常明显的差异，也就是说这些数据集里有很清晰的线索，让模型能够判断出一张图片到底出自哪里，当然我们是在流出的验证集上做的测试，并没有去直接预测训练集里的图片，但即便如此，这个准确率还是高得令人吃惊，这促使我们去反思 [00:15:24 → 00:15:58]

在视觉领域我们真的成功构建出一个，大规模暴露万象的数据集了吗，而且到底什么才算一个理想的数据集，所谓的覆盖全球分布的数据集，其实很难定义不同人会有不同的标准，这可能本身就不是一个合理的假设，要知道大语言模型成功的一个核心就是，它不是一个领域专用的模型对吧，所以我们希望模型什么都能做，为了做到这一点，一个普遍的假设是，模型需要在训练时建过所有的东西，那我们在这条路上到底走了多远呢，从这些初步实验来看 [00:15:58 → 00:16:32]

我们显然还没到那一步，因此依然有必要认真思考，到底该怎么去为模型构建数据集 [00:16:32 → 00:16:38]

Ravi 与 Ellen: 才能让它真正泛化到我们，想让它在上面表现出色的每一项任务，对就是这样，那你觉得答案是什么，好数据到底需要具备哪些属性，我知道这里面有很多不确定性和冗余 [00:16:38 → 00:16:52]

Zhuang Liu: 你觉得好的数据到底需要什么，我觉得首先是内容的多样性，然后是风格的多样性，我自己的理解是，深度学习给我们最大的一个启示就是，你想让模型在哪方面做得好，最好就针对那方面去训练，如果想让模型什么都会，那就需要它在训练时什么都见过，但在今天的现实条件下，我们还是会面临一个取舍的问题，即便我们建起了庞大的计算中心，计算资源和模型容量仍然是有限的，模型学到的不同能力之间，可能还是会相互竞争，这就意味着 [00:16:52 → 00:17:26]

如果你想让模型的编程能力更强，可能就得稍微牺牲掉它为用户做心理辅导的能力，这只是一个例子，那该怎么平衡呢，怎么才能调配出一个训练数据的混合配比，让每一种我们关心的能力都有恰当且充分的代表性，这其实就是平衡不同数据领域的关键设计，而且我们在最近一个文生图的项目里，还真找到了一个简单得出奇的解决方案，它不一定是最优的，但足够简单，做法是把你关心的所有领域大致划分出来，然后让这些领域在训练级里保持相等的重要性 [00:17:26 → 00:17:59]

你别让怎么理发这种话题跟怎么编程拥有同样多的数据，因为显然编程比理发重要得多,对吧，我们自然会想让模型在编程上花更多数据去训练，而不是理发，但如果你把这个概念扩展到合适的层级，比如把理发这类日常技能，跟其他领域放在大致相同的重要级上去控制，那你就可以把每个领域的数据收集起来，然后在你的训练数据里，让它们等量配比，结果发现这种方法，在很多项目上效果都很好 [00:17:59 → 00:18:31]

Ravi 与 Ellen: 那你觉得这就是未来的方向吗，就是把各种不同来源组合起来，数据来源吗，我觉得对于通用模型来说是这样，如果你只希望模型 [00:18:31 → 00:18:44]

Zhuang Liu: 在各个任务上都表现不错，但不需要它在某个，特别困难的任务上做到顶尖，那我觉得数据覆盖就是王道 Illia有句很有名的话，假如你有一个任务，只要你有一个足够大的模型，并且能收集到足够的数据，那么训练之后成功几乎是必然的，我觉得这个道理在今天仍然适用，只不过现在我们面对的不是单一任务，而是很多种任务，如果我们想让模型在面向用户时，对各种任务都有不错的能力，那么在训练级里拥有足够的数据，就是最合理最讲得通的解法，我顺便看了一下 [00:18:44 → 00:19:18]

抱歉我其实有一个关于你另一篇论文的问题，那篇论文是image bind 对吧 [00:19:18 → 00:19:24]

一凯: 印象很深，你说你们只用图像配对的数据，就把我记得是六种模态，融合到了一个嵌入空间里，你觉得这种能力是揭示了，多模态之间存在某种枢纽模态的，深层规律，还是说这只是视觉在互联网级数据里，特殊地位的一个偶然产物，是的，数据我认为这篇论文 [00:19:24 → 00:19:48]

Zhuang Liu: 一个非常重要的信息是，不同模态可以被嵌入到一起，这其实也是当下多模态基础模型能够运作的基础，目前常见的方法是用编码器，把每种模态转换成表示，再与语言模型的表示对齐，变成所谓的token 而在ImageBind里，我们更侧重于学习这些编码器本身，而不是急着把它们跟大语言模型连接起来，另外，我觉得这项工作给出的另一个洞见是，视觉是一种天然的桥梁，能够连接所有模态，因为视觉数据几乎就是我们作为人类接收的默认输入 [00:19:48 → 00:20:22]

并且它经常和很多其他模态同时出现，比如音频，你在看YouTube视频的时候，音频和视频数据，视觉数据是天然同步流动的对吧，你就可以用这个作为信号来对齐它们，同样视觉和语言之间也是如此，我猜语言和音频之间也能做到，我记得我们还用过其他一些数据类型，比如运动数据，运动数据也常常和图像视觉数据一同出现，所以我想这揭示了视觉，在我们日常感知里的那种根本性角色，但我不明白的是 [00:20:22 → 00:20:53]

Ravi 与 Ellen: 为什么最后能力的飞跃，恰恰是靠着语言才发生的，你看我们在视觉上已经深耕了那么久，却始终没有看到这种，被各行各业大规模采用的情况，我印象很深，当大语言模型变得足够好之后，人们一下子就都开始用起AI了，你觉得这仅仅是巧合吗，还是说语言本身有什么更根本的东西 [00:20:53 → 00:21:19]

Zhuang Liu: 对,这是个讨论很多的话题，我的理解是，视觉天然的信息，吞吐量和带宽实在太高了，而我们还没有足够多的算力，去真正把这些数据利用起来，举个例子，就拿我眼前看到的画面来说，它只是一帧图像,对吧，存储这张图像所需的空间，要远远大于存储，对这张图像的语言描述所需的空间，语言描述可能只需要几个字节，而图像则要占用几千字节，差距差不多是1000倍，所以确实可以说，一图胜千言甚至不止，因为视觉是高通量数据 [00:21:19 → 00:21:53]

而我们现在还没有足够的算力去处理它，并且目前的视觉语言模型，也缺乏一个好的机制，能让模型回看图像，去关注特定的区域，因为所有信息都已经被提前编码成了视觉token 如果视觉编码器不够好，那后面的大语言模型或者其他回归模型，就完全无能为力了，而语言处在一个，维度低得多的空间里，每个词都有非常明确的含义，这可以说是人类在自然进化里，通过无监督学习，为模型提炼好的概念，这些概念非常重要，而且极度浓缩，比如杯子这个概念 [00:21:53 → 00:22:27]

你要用影像去描述它，可能需要成千上万张杯子的照片，而用语言去描述，只需要杯子这一个词，这个词只占几个字节，相比可能需要的，几十兆几百兆图像，算力需求自然要低好几个量级，我认为在视觉计算的算力方面，我们还没有真正到达那个明界点，好的，另外顺便说一句 [00:22:27 → 00:22:48]

一凯: 我特别喜欢那篇论文的标题 Eyes Wide Shut 我没记错的话，这是斯坦利·库布里克导演的电影，好像也是他生前最后一部作品，总之，你在那篇论文里提出，很多多模态大语言模型的失败根源，都可以追溯到类似Clip的视觉编码器上，或者说是clip存在某种盲目配对的问题，还有那个mmvp 你能给我们拼一下它的全称吗，然后也请简单总结一下那篇论文的核心观点 [00:22:48 → 00:23:22]

在你看来这种瓶颈到底有多大程度是纯粹的视觉问题 [00:23:22 → 00:23:26]

Zhuang Liu: 又有多少其实是语言模型或者对齐层面的问题，我觉得这很大程度上是一个视觉编码方面的问题，我之前说过模型只会学会训练是被教的东西，如果你在训练中，没让模型接触你想要它擅长的任务类型，它在测试时就没办法做好，具体到C-clip训练，我们是在训练图像表征，跟它的文字描述表征对齐，一般文字描述更关注图像的内容，有什么东西，什么物体，它们在干什么，但很少会明确提到这些物体的位置 [00:23:26 → 00:24:00]

如果图里有一个人和一只狗描述，大概不会说人在左边还是右边，只会说人和狗在玩，这其实就是我们看到这种，图像时自然而然会说的话，而且这对人类来说也没问题，我们其实不在乎谁在左边谁在右边，可一旦你需要模型回答这类问题，那训练师就必须加入这些内容，而现在的Clip训练恰恰忽略了这一点，结果就是我们得到了一个Clip模型，它会被拿来当多模态语言模型的视觉编码器用，但它并不擅长空间任务，也不擅长我们那项研究里关注的 [00:24:00 → 00:24:35]

其他几类任务，所以这再次强化了我的想法，你想让模型在哪方面做得好，你就得在那个方面训练它，没错 [00:24:35 → 00:24:43]

Ravi 与 Ellen: 你对强化学习有什么看法，现在好像所有实验室，都在构建自己的环境版本，基本就是我们想擅长编程，我们想擅长某个具体任务，那就造一个针对性的环境，在这个环境里训练模型，让它在任务过程中接收反馈，仅此而已，你觉得这是未来趋势吗，我们以后会看到越来越多这样的环境，说实话，我不知道这条路有多可行 [00:24:43 → 00:25:16]

考虑到每家实验室都要用强化学习，或者监督微调去精调这些模型 [00:25:16 → 00:25:21]

Zhuang Liu: 我倒希望我们有一套，共用的成熟的流程，能让模型，现在他们给我们的模型，更像是一个强大通用模型的接口，我真的希望未来能出现另一种技术方法，成熟度能和预训练相提并论，让我们可以去做持续训练，它也许是强化学习，也可能是别的方式，比如上下文工程，提示工程，智能体协作，我觉得所有这些都还是开放的，你甚至可能需要调整模型架构，来支持更大的记忆容量，或更长的上下文之类的东西，我觉得持续学习 [00:25:21 → 00:25:55]

以及将通用模型适配到特定领域，这个概念非常重要，因为每个人一生中面对的情境都不一样，你希望模型是个好助手，能赋能你的生活和工作，这就需要大量的内容和大量的上下文，我觉得人类大脑在这方面，模型现在还比不上，人脑有超强的记忆力，能快速学习，听一遍就能记住事实，而且我永远不会忘，我现在跟Cloud互动时，最头疼的就是，他能不能记住我之前做过的事，我觉得很多人都有同感，在我们的职业和个人生涯里，有太多东西我们希望模型能记住 [00:25:55 → 00:26:29]

这样我们就不必反复去讲，这不只是某个特定任务，而是所有事情我们跟别人的互动，成功的历史，失败的经历等等，我觉得这个答案可能不只是对数据做强化学习，更在于系统工程层面，我们怎么组织一切，让模型能方便地获取这些信息，但这最终还是要落到数据上，怎么整理数据，怎么塞进足够多的数据，怎么从不同来源，不同输入里提取数据，也许将来我们会戴上眼镜，戴上智能眼镜，这样我们就能给这些模型提供视觉输入了 [00:26:29 → 00:27:03]

Ravi 与 Ellen: 但你觉得基础组件已经到位了吗，还是说它们会保持不变，你觉不觉得我们只需要搭建好脚手架，比如让智能体在世界上行动，收集数据，整理数据，记忆这些东西，还是说我们需要从根本上去改变一些东西，确实这个问题问得很好，我觉得一个悲哀的现实是，不是每个人都有机会在非常底层 [00:27:03 → 00:27:29]

Zhuang Liu: 在那些超大规模模型上做研究，那些训练得起的人才能去实验，所以现在我们看到这么多，智能体方面的工作，因为大家能做的，能用来改善系统的，似乎就只有这个了，我不是说智能体不好，只是我感觉我们搭起来的，每一套智能体系统，每一种教授架，比如说我试着搭一个，能让Claude Code模型，长时间运行的框架，但我相信过几周或几个月之后，模型会自己进化，或者我会找到更简单的方案，比如直接用提示词，或者用一些内置的命令或技能 [00:27:29 → 00:28:02]

就能达到同样的效果，而且开销要小得多，不用再打什么Python交手架之类的东西，所以我觉得这也是最好的经验，我们要让系统尽量保持简单，让模型自己决定很多事情，但悲哀的是，并不是每个人都有机会，去推动底层模型能力的进化，我们能做的就是，转向上下文工程和智能体，不过我也不太确定，我觉得在基础层面上，我们还是能追上的，我们现在关心的每一个任务在某个性能水平上, 我们最终可以靠更少的智能体,更少的脚手架, [00:28:02 → 00:28:36]

更多的依赖模型自身的能力来完成。我觉得我们仍在那条眼镜曲线上。但我们为什么要在意这些呢? [00:28:36 → 00:28:44]

Ravi 与 Ellen: 因为你也说了,对你来说,我们现在能用智能体解决的问题, 或者我们能解决的都不是什么根本性问题,对吧?也许我们可以训练或微调模型，让它们更高效，或者用更少的样本去学习，但既然我们的算力和数据都在不断增长，为什么不干脆就搭越来越多的智能体，去解决所有问题呢 [00:28:45 → 00:29:11]

Zhuang Liu: 我觉得智能体还是会出各种错，比如Claude Code智能体，我遇到的好多错误都是，它记不住一些本来很明显，本该是常识的东西，所以我认为，记忆和上下文是目前最重要的两个方面，尤其是记忆，它们就像一枚硬币的两面对吧，就算在理论上，你可以用无限的上下文窗口，访问你告诉过模型的所有内容，但如果他忘了或者把事实搞错了，那记忆还是不好，另外前几天Claude Code宣布支持 100万个token的上下文窗口时，所有人都非常兴奋，包括我，这当然很好，但问题仍然在 [00:29:11 → 00:29:45]

我们怎么才能实现无限的记忆，这就是持续学习的问题，我们怎样才能不让模型遗忘，我觉得这方面如果能成功，会比怎么搭建协作式智能体更有价值，我们之所以需要大量的智能体，恰恰是因为一个智能体记不住所有事情，所以我们才要它们分开做不同任务，可如果有一个智能体能记住一切，做新任务时不会忘记之前的任务，那所有事情都可以放在一个智能体里完成，哪怕在公司的后台服务器上做并行处理，但只要对用户来说它就是一个个人助理 [00:29:45 → 00:30:18]

这也会比编排多个智能体方便得多，好的，我们来看你之前提到的那篇论文，就是ice wide shot那篇 [00:30:18 → 00:30:26]

一凯: 你建议把视觉特征和自我监督特征混合起来，来改善视觉基础能力，那你觉得对于多模态语言模型来说，最理想的视觉编码器应该是什么样的 [00:30:26 → 00:30:38]

Zhuang Liu: 如果我们要同时优化语言对齐和细腻度的视觉判别能力的话，没错，我觉得这正是我目前心里的解决方案，就是两者都要做，我认为这两者是当前预训练的主流范式，我还要加上一点，现在很多人在讨论世界模型，对吧，所以我会把世界模型也加进来，也就是说给视觉部分加上一个时间维度，这样也会非常有帮助，我们聊聊世界模型吧 [00:30:38 → 00:31:03]

Ravi 与 Ellen: 你对世界模型的定义是什么，世界模型对我来说，就是预测世界怎么运作，对吧，在给定的当前条件下，预测世界会如何发展，这具体是什么意思呢，比如几周前斯特凡诺，萨托来过，他声称大语言模型是有世界模型的，而更早之前，杨乐坤来的时候则说，不,我们需要显示的，为模型构建世界模型，当前的大语言模型并没有，你怎么看?我们能不能定义出一个标准 [00:31:03 → 00:31:38]

明确说出，瞧,这些模型拥有世界模型，它们就是世界模型 [00:31:38 → 00:31:44]

Zhuang Liu: 而那些模型没有某种能表征世界的内部状态，对我觉得在语言空间里，它们确实有世界模型这一点毫无疑问，语言是一个更高层的抽象空间，相比于我们接收到的所有感知信号，我得说它在这个空间里的世界模型其实非常好，我经常跟ChattyPT聊历史，几天前我让他做一个假设，在中国历史上发生过某件事，我为其中一方感到惋惜，我就让ChattyPT设想一个假想情景，假如那个战败方或者战败国，当时打赢了战争，然后一切都改变了 [00:31:44 → 00:32:17]

结果他给出了非常合理的推演，他不是随便拼凑小事，而是每件事都说得通，他只是细小的概率变化，人们如何做决定，一切都很连贯，就像真实历史一样，完全可以是真的历史，所以我觉得本质上看，没有任何人，至少没有哪个小说家或历史学家，能在对这一系列事件的逻辑推演上超过他，我觉得他们确实有很好的世界模型，只不过是在一个非常非常高的抽象层面，所以我想我们平时说模型还没有世界模型，指的是在视觉空间，在视觉信号感知空间里 [00:32:17 → 00:32:52]

我们还无法在像素空间，完全还原或模拟出世界模型，这也没错，因此有没有世界模型，取决于你想在哪个层面上建模这个世界，对吧，如果你把世界上这些高层世界，视作一个自包含的世界，那没错，我们确实有世界模型，它就是语言模型，但如果你要考虑每一个像素，每一个原始信号，每一个物理信号，包括不仅视觉，还有世界上的每种物质，物理属性等等，那没错，我们还没有那个层面的细腻度世界模型，而我觉得最根本的原因还是 [00:32:52 → 00:33:26]

视觉是一种数据通量高得多的模态 [00:33:26 → 00:33:29]

Ravi 与 Ellen: 我们目前还没有足够的算力去对它建模，好的，那你觉得我们真的需要世界模型，来解决我们实际感兴趣的那些任务吗，比如99%的任务都需要世界模型吗 [00:33:29 → 00:33:42]

Zhuang Liu: 我觉得对数字工作，白领工作来说，我们不需要世界模型，很多事都在数字空间里完成，我最多需要一个，能读懂我电脑屏幕的模型，而且电脑屏幕本来就是数字化的，可以被压缩，最多也就是一组，像实时视频流一样的图像，处理起来会更容易，所以现在我跟Color Code交互的瓶颈，往往就是我得手动截图，但这应该是能解决的，因为这些模型，可能很快就能以安全的方式，直接访问我们的屏幕了，这样一来我就不需要分享那么多上下文了，比如怎么在网站上配置某个东西 [00:33:42 → 00:34:16]

这类事就不用再费劲解释，我现在仍然有时需要给Claude Code截图，对，但是对体力劳动，比如建筑，开车这些物理活动，对，我觉得我们确实需要视觉世界模型，因为这类工作中的反馈非常精细，非常详细，比如理发，对吧，你想把哪部分头发多剪一点，或少剪一点，想剪成什么发型这类问题，是不可能靠询问语言模型来完成的，如果想让模型来做这些事，就必须让模型能看到，还有像一些医疗手术这样的精细物理操作 [00:34:16 → 00:34:48]

我真的认为这些领域需要视觉世界模型，这类工作显然不是只占1% 可能差不多有70% 对,我觉得超过半数的工作，想真正做好的话都需要视觉世界模型，你还有一篇很酷的论文，我特别感兴趣，因为我们在ICR也有一篇关于反SLAP的论文 [00:34:48 → 00:35:10]

一凯: 就是去除大语言模型里的那些，你可能会叫它独特性的东西，因为你的这篇论文大型圆模型中的独特性发现，模型特有的签名在改写翻译和摘要之后，居然还能留存下来，真是很有意思，所以你觉得这些签名到底在衡量什么，是预训练数据后训练风格，还是像我们研究中观察的那种slop解码行为，还是其他更结构性的因素，你的想法是什么，对 [00:35:10 → 00:35:42]

这篇论文是关于对数据源数据来源做分类 [00:35:42 → 00:35:45]

Zhuang Liu: 不过是针对语言模型的输出，就是给定一段文本，我们想训练一个单独的神经网络模型，来判断这段文本是由哪个语言模型生成的，我们发现当有五个候选模型时，这个分类可以做到非常非常准，准确率高达99% 那时候我们都觉得挺惊讶的，但现在我觉得越来越多的人，开始接受语言模型生成的文本里是有线索的，即使不是AI研究员，普通人也大概能看出某段文本像是哪个模型生成的，所以现在这个发现就没那么令人吃惊了 [00:35:45 → 00:36:18]

因为每家公司都有自己的一套策略，来最大化用户参与度，而且模型之间确实可能不一样，你像聊天时模型输出的风格可能就不同，现在你也能感受到各种风格，所以大家对这个现象不再那么惊讶，但到底是什么因素造成的呢，我觉得每个提供商自己对风格的选择影响很大，比如说系统提示词对吧，我们看不到各家到底用了什么系统提示，他们会告诉模型是要啰嗦一点还是简洁一点，要不要用项目符号，另外后训练阶段，不同公司用的后训练策略不一样 [00:36:18 → 00:36:52]

他们雇佣标注员的方式，以及如何指导标注员去评分，这些都会带来系统性的差异，最终导致了不同的行为，再有就是预训练，预训练阶段每家公司的数据来源都不一样，有些公司可能希望模型在编程数学推理上更强，有些则可能优化通用知识覆盖面，我们并不知道这些差异到底有多大，所以只能通过最终输出结果来近似推断，所以我觉得所有因素都有影响，但我认为后训练以及提供商如何设计系统提示，是造成差异的主要原因 [00:36:52 → 00:37:26]

很可能占了大部分 [00:37:26 → 00:37:28]

Ravi 与 Ellen: 那你怎么看预训练，你觉得预训练和后训练之间的这种区分会继续存在吗，它是一种根本性的区别，还是说只是我们当前训练方式的一种妥协 [00:37:28 → 00:37:41]

Zhuang Liu: 最终会走向统一，明白了，我觉得预训练中间训练跟后训练相比，相似处更多，后训练的目标，它的奖励信号是不一样的，因为它涉及到人类判断和人类偏好，我觉得这是最大的不同，预训练和中间训练，其实只是对不同风格的数据，不同的上下文长度进行整合，中间训练这个概念，是最近几年才出现的对吧，几年前我们只有预训练和后训练，但现在有了中间训练，中间训练可能是个临时阶段，因为它主要是为了扩展上下文长度 [00:37:41 → 00:38:14]

以及为了引入更高质量的数据，所以我觉得，这可能是在算力有限，高质量数据不够的情况下，我们不得不做的一种妥协，所以我认为预训练和中间训练，其实都算预训练的范畴，而后训练不同，因为它需要人类来引导模型的行为，我觉得这种区分会持续下去，不会消失 [00:38:14 → 00:38:33]

Ravi 与 Ellen: 不过我希望未来能有另一个阶段，就是针对每个用户进行持续的个性化训练，这样就能定制化偏好记忆和风格，那就太棒了，那你怎么看呢，这种持续学习，你觉得它更像是，比如说自监督学习那种方式，就是通过不同视图之间的差异来学习，还是说它会针对特定任务，比如有了新数据，然后去解决特定任务 [00:38:33 → 00:39:00]

Zhuang Liu: 你怎么看，我觉得它更多不是为了提升能力，而是为了更好的记忆，更好的记忆力，这些模型目前的能力已经足够好了，能解决大多数人解决不了的问题，我们只是需要模型能记住，每个人的特性和偏好，比如我喜欢怎么回应某些事情，我有什么基本原则，即使我把自己所有的生活历史，和所有偏好都写成一个 markdown文件放到上下文里，它还是有可能会漏掉，比如说，我现在有Cloud的全局MD文件，告诉模型在遇到某些事时，要注意什么，但它还是经常忽略 [00:39:00 → 00:39:34]

我目前没有很好的办法，让这些信息真正粘在模型里，所以我一直觉得，持续域训练，更多是为了获得稳定的记忆，不再在琐碎小事上犯错，而不是去发展更多技能，它更多是在合适的场景里，找到合适的技能来用，而不是去发展新技能，这也许有点跑题 [00:39:34 → 00:39:52]

一凯: 但你有没有听起来，你主要在用Claude Code 你有没有用过ChatGPT 比如GPT-4,Codex,还有Gemini 你有特别偏爱的模型吗，没有什么特别喜欢的，对,我主要就只用Claude Code [00:39:52 → 00:40:06]

Zhuang Liu: 因为它功能太多了，我得学习怎么用指令之类的，怎么把它用得最好，我宁愿先待在一个生态里搞熟它，而不是去试一堆功能类似，但互相竞争的产品，我是尽量让事情简单一点，不过我有一些学生会用不同的模型，我觉得Codex和Codecode是两个主要的工具，我听说有些学生更喜欢Codex 部分原因是同样价格档次下 Codex使用时长更久 [00:40:06 → 00:40:33]

Ravi 与 Ellen: 有时候他们做实验，想要更多配额的话，就会倾向于用Codex 你怎么看，我好像在领英还是推特上看到有人说，现在有了新的编程智能体，就不需要学生了，我只要把我的需求告诉编程智能体，它就能完成所有实验，生成结果和报告之类的，你觉得这种方式怎么样，你觉得我们会需要更多学生 [00:40:33 → 00:40:59]

Zhuang Liu: 还是更少，从教育的角度来看，我确实认为我们需要更多学生，去沉浸其中，去学会使用AI 并进一步发展AI 所以这应该没什么好争论的，我们需要更多有能力的学生，需要培养他们，从实际项目和实际工作的角度看，我的答案也一样，我自己现在也可以用Claude Code 来跑一些小项目，只要有足够的资源和时间，但要说完全自动化，那还不行，我试过让他在一个项目里，从构思实验到写论文，一两天内完成，但效果不好，他提出的问题虽然合理 [00:40:59 → 00:41:33]

但对我来说没什么太有意思的，他做的实验不够全面，不足以支持结论，我得反复提示很多次，才能把他拉回正轨，然后回到记忆的问题，他比我预想中忘事忘得快得多，我让他用某个GPU 用某个GPU分区，他可能前几个小时还遵守，任务一完就忘了，还有我希望他能永不停止，基于当前实验结果，去设计下一个实验来验证新假设，但他就是不停，有时候会陷入局部最优，所以我觉得这些工具，擅长做低层次的任务，但在高层次的研究理解，方向判断上还是不如人 [00:41:33 → 00:42:07]

如果一个学生像我一样，如果我能用Color Code 让我自己的工作效率更高，那么学生也能做到，只要他们有正确的心态，不把所有事都交给AI [00:42:07 → 00:42:17]

Ravi 与 Ellen: 而是借助它来成长为一个好的研究者，我觉得我们还是需要更多这样的学生，而不是更少，对，我其实也试过，不知道你听没听说过 Andrej Karpaty发布了一个auto research 对吧，就是那种自动研究工具，它基本上就交给了一个编程智能体，去优化一个nano chat模型，让它跑一晚上的实验，结果发现验证损失确实下降了，而且智能体还提出一个建议，比如去改变随机种子 [00:42:17 → 00:42:52]

改了之后效果变得好得多，我实际上也尝试了类似的东西，就拿了那个项目，做了一个很简单的超参数优化，看起来你真的能在更短的时间内，用更少的迭代次数得到更好的结果，我觉得最后我们得，我不知道小新这个词准不准确，但我们得搞清楚，到底什么类型的用法对他来说是真正合适的，什么类型还不行，我们其实是在浪费时间，不断去提示他 [00:42:52 → 00:43:25]

尝试让他做到，就因为他很炫，大家都在用，所以对我同意你说的，自主研究现在还不行，我不知道将来行不行，也许谁知道呢，当然在某些场景，某些用途里，比如构建一些产品，已经非常好了，几乎到位，但对于研究来说还不行，完全正确，对我也是一样的体验，好那么我有个问题，关于你最近那篇论文，无硅化的Transformer [00:43:25 → 00:43:57]

一凯: 如果我没记错，杨立坤也在上面吧，对没错，你们用动态天层，替换了硅化层，并且在多种设置下，仍能达到或超越，硅化Transformer的性能，这其实也延续了，我们一直在聊的，你的工作里那种主题，很多归纳偏置其实是历史偶然，那么还有没有其他我们认为是核心的组件 [00:43:57 → 00:44:22]

Zhuang Liu: 其实也只是历史偶然呢，我倒不是，至少目前我还没想到其他的，不然我早就发那篇论文了，我觉得残差连接是非常关键的，我现在仍然相信它必不可少，它不是历史偶然，实际上已经有很多研究，试图替换残差连接，比如开发各种变体，甚至去除它，但到现在还没有哪一种真的被广泛采用，硅化层我也认为不是历史偶然，所以我不建议现在每家公司都换成动态Tanch 首先在大型语言模型上让它正常工作有点棘手，其次基于目前的硬件和软件库 [00:44:22 → 00:44:57]

它并不会带来加速，所以这是个很有意思的发现，但我不会因此就说它超越了硅化层，然后推荐大家都去用它，回顾历史，残差连接，硅化层，自注意力，还有线性层 [00:44:57 → 00:45:11]

一凯: 这四个可以说是架构组件中经受住时间考验的四大支柱，然后你还有另一篇论文Metamorph 声称通过指令微调视觉生成可以作为视觉理解的副产品出现，因为你之前在其他工作里也提过类似的方法论，那你觉得先理解后生成是不是一个通用的方法论，可以作为我们制作模型的一个指导原则 [00:45:11 → 00:45:36]

Zhuang Liu: 对于制作模型我还没有明确答案，是不是总要追求，统一的生成和理解模型，我们还在探索这个，我们有一个正在进行中的项目，就在研究生成是否有助于理解，比如你问模型一个很难的问题，模型先生成一些中间推理，有点像思维链，但用的是图像，但我们发现，这实际上只在极少数情况下有效，因为方向还不确定，我们还没能真正做到，让它有帮助，但反过来，理解帮助生成，我觉得更靠谱，至少你可以在语言空间里，推理或者对输入图像 [00:45:36 → 00:46:10]

做视觉理解,然后再去编辑图像，这显然是行得通的，就像提示改写系统，有些生成系统就有提示重写模块，那其实就是个理解模型,对吧，它在生成图像之前，试图理解和推断应该有什么，对象怎么摆放，我觉得这是更可能的方向，所以至于要不要用一个模型 [00:46:10 → 00:46:29]

Ravi 与 Ellen: 同时做生成和理解，我觉得这还是个开放问题，对,好的,你还有什么想补充的，或者想聊的吗，我现在一时也想不出什么了，好,非常感谢你今天来，非常感谢，邀请我,很荣幸,也谢谢你,一直都很愉快 [00:46:29 → 00:46:48]