#519.普林斯顿Zhuang Liu谈架构、数据与记忆的真相

完整转录稿

Podcast 跨国串门儿计划 2026-05-05 14:13

# #519.普林斯顿Zhuang Liu谈架构、数据与记忆的真相

一凯: 欢迎收听跨国串门计划,这是一档专注于让中文听众无障碍,欣赏全球优质外语播客的节目,通过先进的AI声纹客轮技术,我们不仅将内容翻译成中文,还完美保留了原主持人和嘉宾的独特声音,为您呈现全球顶尖的AI财经,健康与科技领域精品内容,我是主播一凯,一位热衷于AI领域的产品经理,很荣幸能为您搭建这座跨越语言障碍的桥梁 [00:00:00 → 00:00:30]

接下来,让我为您简单介绍本期我们克隆的这档节目,并分享几句非常精彩的原话,本期我们克隆的是资深科技播客Information Bottleneck的一期节目,Ravi 和 Alan 主持,对谈普林斯顿大学助理教授庄六,庄六的研究聚焦在深度学习架构、视觉表征以及多模态学习,曾提出CMAXT等广为流传的架构,也是一位对神经网络设计有深层洞见的学者,在节目中 [00:00:30 → 00:01:03]

他的一些观点直接打破了很多固有认知,这些小细节组合在一起,比那些看起来像是网络核心组件的改变要重要得多,你想让模型在哪方面做得好,最好就针对那方面去训练,我觉得记忆和上下文是目前最重要的两个方面,尤其是记忆,那我们就一起来听听这期完整的跨界讨论吧,大家好 [00:01:03 → 00:01:27]

Ravi 与 Ellen: 欢迎回到Information Bottleneck博客,今天我们有Juan Liu 他是普林斯顿的助理教授,嗨字,很高兴你来了 Hey Alan 和往常一样,我们还有Alan Hey Alan [00:01:27 → 00:01:41]

一凯: 很高兴再次见到你Ravi 很高兴认识你Juan Liu 对了,你应该去看看他的Google Scholar 他有很多非常酷的论文,对我们今天会聊聊其中的一些论文 [00:01:41 → 00:01:55]

Ravi 与 Ellen: 总的来说我们要聊的是,当今AI里哪些组件才是真正重要的,你有这么多工作,我想我们可以从你理解的重要组件聊起,几年前你有一篇论文叫,面向20年代的卷积网络对吧,也许你先跟我们讲讲这篇论文是关于什么的,然后我们就可以开始拆解,当前AI系统中的那些组件了 [00:01:55 → 00:02:21]

Zhuang Liu: 是的,当然这个故事其实挺有意思的,那篇论文我们是在2021年做的,那时候Transformer刚通过视觉Transformer进入计算机视觉研究领域,对吧?然后整个视觉圈子的人都在从传统的卷积网络往视觉Transformer迁移,性能也变得越来越好。 [00:02:21 → 00:02:53]

所以在这项工作里,我们想研究的是,卷积网络是不是真的就失去了竞争力,还有能不能通过系统性的控制所有设计组件,去研究卷积网络是否可以被现代化,从而在当时跟视觉Transformer旗鼓相当 [00:02:21 → 00:02:53]

我们想搞清楚那个看起来的性能差距,究竟是因为内在设计的差异,比如你是用自注意力还是卷积,还是因为其他一些细小的设计细节,结果我们发现答案是后者,在做了大量研究,把卷积网络的设计组件现代化之后, [00:02:53 → 00:03:26]

我们最终得到的模型,在各种各样的任务上,都能跟当时非常强的视觉Transformer打平,这就说明,不管你选卷积网络还是视觉Transformer 只要把各种设计都搞对,你就能在视觉任务上达到相同的前沿水平 [00:02:53 → 00:03:26]

Ravi 与 Ellen: 你现在还相信这一点吗,你还相信说到底其实并没什么关系吗,我大体上倾向于同意,但我不会说完全没关系,我会说只要你把一切都搞对,只要你把设计空间探索的足够充分 [00:03:26 → 00:03:40]

Zhuang Liu: 你就会收敛到某个点,那里差不多就是准确率和效率权衡的前沿,要想离开这个前沿非常难,我觉得在过去很多年里,除了我们几年前就在用的那些成熟架构,还真没有什么真正被广泛采用的根本性创新, [00:03:40 → 00:04:14]

但探索这个过程本身非常有趣,事实上最近又有一些这方面的论文出来了,特别是那些开放权重模型的公司,比如Kimi, DeepSeek 他们还在摆弄架构,比如怎么改残差连接,怎么连接不同层,这一类的事情,我非常尊重这些工作 [00:03:40 → 00:04:14]

其实现代学术界在架构研究上没那么活跃,部分原因是我们实在负担不起足够大的计算规模,来在有说服力的规模上验证这些效果,这有点可惜,但我自己还是会在大学现有的资源下试着玩一玩,实际上借助云代码工具,我现在能重新上手写代码,自己亲手去折腾,所以这是非常有趣的研究,但从实用角度说,我认为用什么数据来训练模型,比架构的选择更重要,只要输入输出接口,保持不变,架构选择本质上是 [00:04:14 → 00:04:47]

我们怎么去参数化这个函数近似器,对吧,这是神经网络或深度学习最基础的功能,不管你用什么方式参数化,只要你把几件事搞对,比如用上残差连接,用上自注意力,或者其他合理的机制,在合适的位置放对激活函数和潜会层,你就会非常接近,或者就落在那条性能与效率权衡的前沿曲线上,这样一来我就会倾向于认为,在实际应用里,在把产品带给越来越多的人,让他们日常使用更有效的过程中,真正更重要的是其他方面 [00:04:47 → 00:05:19]

比如这个模型是用什么数据训练的,它怎么处理上下文和记忆,说到上下文记忆,确实有一些架构工作是在解决这个问题,我觉得这可能就是我们让AI再上一个台阶时,需要处理的更紧迫的问题 [00:05:19 → 00:05:34]

一凯: 对,在面向20年代的卷积网络这篇论文里,首先你能不能简单概括一下那篇论文。然后我的问题是,我读下来的感觉是,如果我理解错了,请纠正,你好像是逐步把ResNet朝着类似Watt的设计去现代化,最终得到一个能跟Transformer强劲竞争的卷积网络。在那篇论文里,哪一个笑容实验,最让你自己改变了看法,让你觉得所谓Transformer的优势 [00:05:34 → 00:06:07]

其实是从哪来的,哪一个笑容实验,我觉得其实是每一个,你看那张图 [00:06:07 → 00:06:13]

Zhuang Liu: 没有哪一个单向改动,单独就把性能大幅拉上去的,有些改动比其他的更有用,但也不是一个改变就扭转了一切,可能激活函数的使用,和皈依化层的减少,这点让我挺感兴趣,而且它带来的性能变化也比较明显, [00:06:13 → 00:06:48]

但真正起作用的是所有东西凑在一起,很多小部件,当你把它们组合起来,就能造成非常大的差异,而这些差异通常会被归因于某种实质性的改变,比如从卷积换成自注意力,或者换成更现代的机制,比如线性注意力,对吧,所以我觉得这里最大的教训是 [00:06:13 → 00:06:48]

这些小细节组合在一起 [00:06:48 → 00:06:50]

Ravi 与 Ellen: 比那些看起来像是网络核心组件的改变要重要得多,你觉得是不是这样,我们尝试了很多东西,其中一些奏效了,对吧,然后我们得到了更好的模型,再回过头来看,我们就能开始理解, [00:06:50 → 00:07:25]

到底哪些组件是真正重要的,对吧,就像我们可以试着,现在我们改一下卷积网络,让它看起来更像Transformer 比如这个例子,你同意这个看法吗,你觉得我们是不是真的需要这种突破,然后才能回溯过去,理解细节 [00:06:50 → 00:07:25]

并试着跟其他方法对齐,还是说我们只需要反复试,不需要非常明确的方向,我明白了,我觉得Transformer对这个社区,绝对是个福音视觉 Transformer也是把Transformer [00:07:25 → 00:07:40]

Zhuang Liu: 用到计算机视觉里,这我不争辩,也很难去争辩,这绝对是个突破,非常重要的突破,也许是那几年里最大的突破,我们的研究更聚焦在,纯视觉这个领域,但视觉Transformer还有一个好处,就是它现在统一了文本和图像的表征, [00:07:40 → 00:08:12]

你看正是用了Transformer 才让后面的发展变得很重要,比如Lava这样的多模态框架,你用视觉编码器,把图像编码成Token 然后就把这些Token一起喂给下游的大语言模型,现在很多多模态模型的基础框架就是这个 [00:07:40 → 00:08:12]

所以我认为把Transformer引入视觉,是为多模态数据统一迈出的一大步,回到我们那项关于细节的研究,我觉得它更多是一个教训,我之所以为这项工作感到自豪,更多是因为它改变了我自己的认知,也改变了许多其他人的认知, [00:08:12 → 00:08:47]

而不在于,哎呀,你其实还可以继续用卷积网络,当然,人们还是可以继续用卷积网络,它也有它的好处,尤其在纯视觉任务上,它部署方便,某种程度上更容易理解,特别是因为运算是局部的,它在处理高分辨率,处理长序列方面可能更有优势 [00:08:12 → 00:08:47]

我觉得它们只是各自擅长的领域不同,所以这项关于细节转换的研究,对我而言更像一个教训,而不是要去算出每个细节 [00:08:47 → 00:08:57]

Ravi 与 Ellen: 在性能差异里到底占多大比重,好,那么你的意思是架构没那么重要,而且你最近还有一篇论文,展示了皈依化层,其实也没那么重要,对吧,你基本上可以用JL计划函数,就把皈依化层去掉,或许需要做些微调,处理上有点不一样,但结果照样很好,那你觉得对AI 对深度学习来说,真正重要的核心组件是什么,而且为什么直到最近这几年,我们才做出这么好的模型 [00:08:57 → 00:09:29]

如果架构并不那么重要,为什么好模型只在最近5到10年才出现,这是个好问题 [00:09:29 → 00:09:38]

Zhuang Liu: 首先Transformer是在90年前问世的,在那之后很长时间,甚至现在我们用的还是那个相似的基础框架,只是加了一些小改动,比如激活层混合专家模型,这也不是必须的,还有一些局部注意力, [00:09:38 → 00:10:12]

滑动窗口注意力之类的变化,但整体框架跟9年前那篇论文,最初提出的时候还是同一个,所以要回答你的问题,对我来说答案就是数据,数据的规模,还有我们训练他们所用的计算规模,就像从GPT-1到GPT-3 那个经典故事一样 [00:09:38 → 00:10:12]

一旦你用更多的计算,更多的数据,更多样化的数据,更大规模的互联网数据去训练,基本上同样的模型,就会涌现出现在我们看到的,非常有竞争力的性能,所以我会把它归因于数据,其次是计算,还有我们在同样数据上,训练了多少个EPOC 其实我觉得主要还是数据,因为现在大多数模型训练,都差不多只过一遍就够用了,我看得出来,你的工作里贯穿着这样一个论点 [00:10:12 → 00:10:42]

一凯: 整个领域常常把架构和菜谱混为一谈,对吧,尤其是在你那篇COMEX的论文里,如果让你给今天的架构论文定一些规矩,或许你对自己的学生也是这么要求的,那么在你看来需要满足哪些控制条件,才能让人声称某个新的归纳偏置确实很重要,明白了,理想世界里我们有无限的计算资源对吧 [00:10:42 → 00:11:08]

Zhuang Liu: 那么首先我会要求效果和好处,要在最前沿的规模上验证,不一定是万亿美元级的前沿模型,但至少要像70亿300亿参数这样的规模,我觉得规模很重要,因为工业界需要看到这个规模的收益才会幸福, [00:11:08 → 00:11:40]

但这并不总是可行,所以这只是理想情况,其次,如果你想在较小的规模上研究这些机制或架构变化,也就是我们在有限资源下能做的那种,我会要求第一,必须做超参数搜索,我们不能只在一组超参数上展示新架构比旧模型好 [00:11:08 → 00:11:40]

尤其是当那些超参数是专门为这个模型调过的时候,理想情况下,每个模型都应该在各自最佳的超参数设定下相互比较,最重要的超参数包括学习率,衰减策略还有优化器类型,让我很烦的是,很多人连学习率都不调,然后声称自己的方法更好,实际上他们只调了自己方法的优化器,没调极限模型的,这是很多后来发现,无法泛化的声明中最常见的问题,这是第一点,第二,我会要求这个想法和方法,在不止一个数据集上验证 [00:11:40 → 00:12:12]

尤其应该是在一个合理规模的数据集上,你刚才说现在仍然适用,理想情况下,他们还应该展示这个想法,能在一些小型的大语言模型上跑通,比如用FindWeb训练,但我理解不是每个实验室都有资源这么做,不过我自己非常推崇,在多种数据集上展示想法,至少要用那些大家常用的基准数据集,好,我想这就是我会设定的两条标准 [00:12:12 → 00:12:37]

Ravi 与 Ellen: 我有一个问题,你觉得如果你有一个好点子,它应该能在不同的领域,不同的数据集,不同的场景下都有效呢,还是说,其实有些非常好的点子,只能用在非常特定的场景里,是的,我确实觉得两种情况都有价值,对于后一种情况,我会想了解 [00:12:37 → 00:12:59]

Zhuang Liu: 模型在哪种特定场景下做得更好,具体怎么描述那个场景,而且验证时仍然应该用到不止一个评测机,如果你声称你的模型在长上下纹长音频上表现好,那你还是可以在多个不同的评测集上去验证它,同时你需要解释为什么你的方法在这个特定领域有效,然后我们可以从那里出发,看看它在其他领域为什么不行,找出弱点再继续改进,或者我们也可以接受它只在这个领域有效的事实,然后想办法去放大这个优势 [00:12:59 → 00:13:32]

所以我觉得并不是只有普世的方法才有价值,这就是做研究的价值所在,对吧 [00:13:32 → 00:13:38]

Ravi 与 Ellen: 你不需要在第一步就全面成功,当然一步到位是很好,但并不是必须的,那我们接着聊聊数据这块,你之前说过,数据是这里面很重要的一环,那具体是数据的什么方面呢,要不我们就从你之前那篇论文聊起,应该是不久前,大概一年前吧,关于数据级偏差的那篇,讲的是那种数据级的较量,给我们讲讲,这篇论文到底在探讨什么,你当时做这个研究的动机是什么,为什么会想重新审视 [00:13:38 → 00:14:12]

这些数据集之间的争论 [00:14:12 → 00:14:14]

Zhuang Liu: 好,我先简单介绍一下背景,这篇论文更偏向视觉领域,过去这些年,大家一直在构建越来越大的数据集,来源也越来越多样,比如最开始我们有Magnist 然后是Cypher 再到ImageNet 之后又有了互联网规模的数据集, [00:14:14 → 00:14:49]

像Datacomp和Google的Conceptual Captions 也就是CC 这些数据集的图像越来越丰富,规模也从几万张增长到了数十亿张,所以在当时,大家很容易就会觉得,数据集的问题已经解决了,毕竟我们差不多已经把互联网上,能拿到的数据都放进来了 [00:14:14 → 00:14:49]

但在我们前期的一些实验里,我们发现这些数据集,彼此之间其实还是非常不一样,那怎么衡量这种差异呢,我们设计了一个很傻瓜的实验,这个实验本身作为训练方案,根本说不通,我们做的就是把三个超大规模的预训练数据集拿过来,然后训练一个神经网络分类器,让它去判断一张给定的图片来自哪个数据集,这不是一个实用的问题,纯粹就是想猜出图片的来源,是一个多分类任务,结果我们发现,即便是这些看起来已经很多样化的大数据机模型 [00:14:49 → 00:15:24]

依然能以惊人的高准确率分辨出结果,当有三个数据集时,准确率能超过80% 你要知道随便猜的准确率才33% 而模型的表现比这好得多,这说明在这些模型看来,这些数据集还是有着非常明显的差异,也就是说这些数据集里有很清晰的线索,让模型能够判断出一张图片到底出自哪里,当然我们是在流出的验证集上做的测试,并没有去直接预测训练集里的图片,但即便如此,这个准确率还是高得令人吃惊,这促使我们去反思 [00:15:24 → 00:15:58]

在视觉领域我们真的成功构建出一个,大规模暴露万象的数据集了吗,而且到底什么才算一个理想的数据集,所谓的覆盖全球分布的数据集,其实很难定义不同人会有不同的标准,这可能本身就不是一个合理的假设,要知道大语言模型成功的一个核心就是,它不是一个领域专用的模型对吧,所以我们希望模型什么都能做,为了做到这一点,一个普遍的假设是,模型需要在训练时建过所有的东西,那我们在这条路上到底走了多远呢,从这些初步实验来看 [00:15:58 → 00:16:32]

我们显然还没到那一步,因此依然有必要认真思考,到底该怎么去为模型构建数据集 [00:16:32 → 00:16:38]

Ravi 与 Ellen: 才能让它真正泛化到我们,想让它在上面表现出色的每一项任务,对就是这样,那你觉得答案是什么,好数据到底需要具备哪些属性,我知道这里面有很多不确定性和冗余 [00:16:38 → 00:16:52]

Zhuang Liu: 你觉得好的数据到底需要什么,我觉得首先是内容的多样性,然后是风格的多样性,我自己的理解是,深度学习给我们最大的一个启示就是,你想让模型在哪方面做得好,最好就针对那方面去训练,如果想让模型什么都会,那就需要它在训练时什么都见过,但在今天的现实条件下,我们还是会面临一个取舍的问题,即便我们建起了庞大的计算中心,计算资源和模型容量仍然是有限的,模型学到的不同能力之间,可能还是会相互竞争,这就意味着 [00:16:52 → 00:17:26]

如果你想让模型的编程能力更强,可能就得稍微牺牲掉它为用户做心理辅导的能力,这只是一个例子,那该怎么平衡呢,怎么才能调配出一个训练数据的混合配比,让每一种我们关心的能力都有恰当且充分的代表性,这其实就是平衡不同数据领域的关键设计,而且我们在最近一个文生图的项目里,还真找到了一个简单得出奇的解决方案,它不一定是最优的,但足够简单,做法是把你关心的所有领域大致划分出来,然后让这些领域在训练级里保持相等的重要性 [00:17:26 → 00:17:59]

你别让怎么理发这种话题跟怎么编程拥有同样多的数据,因为显然编程比理发重要得多,对吧,我们自然会想让模型在编程上花更多数据去训练,而不是理发,但如果你把这个概念扩展到合适的层级,比如把理发这类日常技能,跟其他领域放在大致相同的重要级上去控制,那你就可以把每个领域的数据收集起来,然后在你的训练数据里,让它们等量配比,结果发现这种方法,在很多项目上效果都很好 [00:17:59 → 00:18:31]

Ravi 与 Ellen: 那你觉得这就是未来的方向吗,就是把各种不同来源组合起来,数据来源吗,我觉得对于通用模型来说是这样,如果你只希望模型 [00:18:31 → 00:18:44]

Zhuang Liu: 在各个任务上都表现不错,但不需要它在某个,特别困难的任务上做到顶尖,那我觉得数据覆盖就是王道 Illia有句很有名的话,假如你有一个任务,只要你有一个足够大的模型,并且能收集到足够的数据,那么训练之后成功几乎是必然的,我觉得这个道理在今天仍然适用,只不过现在我们面对的不是单一任务,而是很多种任务,如果我们想让模型在面向用户时,对各种任务都有不错的能力,那么在训练级里拥有足够的数据,就是最合理最讲得通的解法,我顺便看了一下 [00:18:44 → 00:19:18]

抱歉我其实有一个关于你另一篇论文的问题,那篇论文是image bind 对吧 [00:19:18 → 00:19:24]

一凯: 印象很深,你说你们只用图像配对的数据,就把我记得是六种模态,融合到了一个嵌入空间里,你觉得这种能力是揭示了,多模态之间存在某种枢纽模态的,深层规律,还是说这只是视觉在互联网级数据里,特殊地位的一个偶然产物,是的,数据我认为这篇论文 [00:19:24 → 00:19:48]

Zhuang Liu: 一个非常重要的信息是,不同模态可以被嵌入到一起,这其实也是当下多模态基础模型能够运作的基础,目前常见的方法是用编码器,把每种模态转换成表示,再与语言模型的表示对齐,变成所谓的token 而在ImageBind里,我们更侧重于学习这些编码器本身,而不是急着把它们跟大语言模型连接起来,另外,我觉得这项工作给出的另一个洞见是,视觉是一种天然的桥梁,能够连接所有模态,因为视觉数据几乎就是我们作为人类接收的默认输入 [00:19:48 → 00:20:22]

并且它经常和很多其他模态同时出现,比如音频,你在看YouTube视频的时候,音频和视频数据,视觉数据是天然同步流动的对吧,你就可以用这个作为信号来对齐它们,同样视觉和语言之间也是如此,我猜语言和音频之间也能做到,我记得我们还用过其他一些数据类型,比如运动数据,运动数据也常常和图像视觉数据一同出现,所以我想这揭示了视觉,在我们日常感知里的那种根本性角色,但我不明白的是 [00:20:22 → 00:20:53]

Ravi 与 Ellen: 为什么最后能力的飞跃,恰恰是靠着语言才发生的,你看我们在视觉上已经深耕了那么久,却始终没有看到这种,被各行各业大规模采用的情况,我印象很深,当大语言模型变得足够好之后,人们一下子就都开始用起AI了,你觉得这仅仅是巧合吗,还是说语言本身有什么更根本的东西 [00:20:53 → 00:21:19]

Zhuang Liu: 对,这是个讨论很多的话题,我的理解是,视觉天然的信息,吞吐量和带宽实在太高了,而我们还没有足够多的算力,去真正把这些数据利用起来,举个例子,就拿我眼前看到的画面来说,它只是一帧图像,对吧,存储这张图像所需的空间,要远远大于存储,对这张图像的语言描述所需的空间,语言描述可能只需要几个字节,而图像则要占用几千字节,差距差不多是1000倍,所以确实可以说,一图胜千言甚至不止,因为视觉是高通量数据 [00:21:19 → 00:21:53]

而我们现在还没有足够的算力去处理它,并且目前的视觉语言模型,也缺乏一个好的机制,能让模型回看图像,去关注特定的区域,因为所有信息都已经被提前编码成了视觉token 如果视觉编码器不够好,那后面的大语言模型或者其他回归模型,就完全无能为力了,而语言处在一个,维度低得多的空间里,每个词都有非常明确的含义,这可以说是人类在自然进化里,通过无监督学习,为模型提炼好的概念,这些概念非常重要,而且极度浓缩,比如杯子这个概念 [00:21:53 → 00:22:27]

你要用影像去描述它,可能需要成千上万张杯子的照片,而用语言去描述,只需要杯子这一个词,这个词只占几个字节,相比可能需要的,几十兆几百兆图像,算力需求自然要低好几个量级,我认为在视觉计算的算力方面,我们还没有真正到达那个明界点,好的,另外顺便说一句 [00:22:27 → 00:22:48]

一凯: 我特别喜欢那篇论文的标题 Eyes Wide Shut 我没记错的话,这是斯坦利·库布里克导演的电影,好像也是他生前最后一部作品,总之,你在那篇论文里提出,很多多模态大语言模型的失败根源,都可以追溯到类似Clip的视觉编码器上,或者说是clip存在某种盲目配对的问题,还有那个mmvp 你能给我们拼一下它的全称吗,然后也请简单总结一下那篇论文的核心观点 [00:22:48 → 00:23:22]

在你看来这种瓶颈到底有多大程度是纯粹的视觉问题 [00:23:22 → 00:23:26]

Zhuang Liu: 又有多少其实是语言模型或者对齐层面的问题,我觉得这很大程度上是一个视觉编码方面的问题,我之前说过模型只会学会训练是被教的东西,如果你在训练中,没让模型接触你想要它擅长的任务类型,它在测试时就没办法做好,具体到C-clip训练,我们是在训练图像表征,跟它的文字描述表征对齐,一般文字描述更关注图像的内容,有什么东西,什么物体,它们在干什么,但很少会明确提到这些物体的位置 [00:23:26 → 00:24:00]

如果图里有一个人和一只狗描述,大概不会说人在左边还是右边,只会说人和狗在玩,这其实就是我们看到这种,图像时自然而然会说的话,而且这对人类来说也没问题,我们其实不在乎谁在左边谁在右边,可一旦你需要模型回答这类问题,那训练师就必须加入这些内容,而现在的Clip训练恰恰忽略了这一点,结果就是我们得到了一个Clip模型,它会被拿来当多模态语言模型的视觉编码器用,但它并不擅长空间任务,也不擅长我们那项研究里关注的 [00:24:00 → 00:24:35]

其他几类任务,所以这再次强化了我的想法,你想让模型在哪方面做得好,你就得在那个方面训练它,没错 [00:24:35 → 00:24:43]

Ravi 与 Ellen: 你对强化学习有什么看法,现在好像所有实验室,都在构建自己的环境版本,基本就是我们想擅长编程,我们想擅长某个具体任务,那就造一个针对性的环境,在这个环境里训练模型,让它在任务过程中接收反馈,仅此而已,你觉得这是未来趋势吗,我们以后会看到越来越多这样的环境,说实话,我不知道这条路有多可行 [00:24:43 → 00:25:16]

考虑到每家实验室都要用强化学习,或者监督微调去精调这些模型 [00:25:16 → 00:25:21]

Zhuang Liu: 我倒希望我们有一套,共用的成熟的流程,能让模型,现在他们给我们的模型,更像是一个强大通用模型的接口,我真的希望未来能出现另一种技术方法,成熟度能和预训练相提并论,让我们可以去做持续训练,它也许是强化学习,也可能是别的方式,比如上下文工程,提示工程,智能体协作,我觉得所有这些都还是开放的,你甚至可能需要调整模型架构,来支持更大的记忆容量,或更长的上下文之类的东西,我觉得持续学习 [00:25:21 → 00:25:55]

以及将通用模型适配到特定领域,这个概念非常重要,因为每个人一生中面对的情境都不一样,你希望模型是个好助手,能赋能你的生活和工作,这就需要大量的内容和大量的上下文,我觉得人类大脑在这方面,模型现在还比不上,人脑有超强的记忆力,能快速学习,听一遍就能记住事实,而且我永远不会忘,我现在跟Cloud互动时,最头疼的就是,他能不能记住我之前做过的事,我觉得很多人都有同感,在我们的职业和个人生涯里,有太多东西我们希望模型能记住 [00:25:55 → 00:26:29]

这样我们就不必反复去讲,这不只是某个特定任务,而是所有事情我们跟别人的互动,成功的历史,失败的经历等等,我觉得这个答案可能不只是对数据做强化学习,更在于系统工程层面,我们怎么组织一切,让模型能方便地获取这些信息,但这最终还是要落到数据上,怎么整理数据,怎么塞进足够多的数据,怎么从不同来源,不同输入里提取数据,也许将来我们会戴上眼镜,戴上智能眼镜,这样我们就能给这些模型提供视觉输入了 [00:26:29 → 00:27:03]

Ravi 与 Ellen: 但你觉得基础组件已经到位了吗,还是说它们会保持不变,你觉不觉得我们只需要搭建好脚手架,比如让智能体在世界上行动,收集数据,整理数据,记忆这些东西,还是说我们需要从根本上去改变一些东西,确实这个问题问得很好,我觉得一个悲哀的现实是,不是每个人都有机会在非常底层 [00:27:03 → 00:27:29]

Zhuang Liu: 在那些超大规模模型上做研究,那些训练得起的人才能去实验,所以现在我们看到这么多,智能体方面的工作,因为大家能做的,能用来改善系统的,似乎就只有这个了,我不是说智能体不好,只是我感觉我们搭起来的,每一套智能体系统,每一种教授架,比如说我试着搭一个,能让Claude Code模型,长时间运行的框架,但我相信过几周或几个月之后,模型会自己进化,或者我会找到更简单的方案,比如直接用提示词,或者用一些内置的命令或技能 [00:27:29 → 00:28:02]

就能达到同样的效果,而且开销要小得多,不用再打什么Python交手架之类的东西,所以我觉得这也是最好的经验,我们要让系统尽量保持简单,让模型自己决定很多事情,但悲哀的是,并不是每个人都有机会,去推动底层模型能力的进化,我们能做的就是,转向上下文工程和智能体,不过我也不太确定,我觉得在基础层面上,我们还是能追上的,我们现在关心的每一个任务在某个性能水平上, 我们最终可以靠更少的智能体,更少的脚手架, [00:28:02 → 00:28:36]

更多的依赖模型自身的能力来完成。我觉得我们仍在那条眼镜曲线上。但我们为什么要在意这些呢? [00:28:36 → 00:28:44]

Ravi 与 Ellen: 因为你也说了,对你来说,我们现在能用智能体解决的问题, 或者我们能解决的都不是什么根本性问题,对吧?也许我们可以训练或微调模型,让它们更高效,或者用更少的样本去学习,但既然我们的算力和数据都在不断增长,为什么不干脆就搭越来越多的智能体,去解决所有问题呢 [00:28:45 → 00:29:11]

Zhuang Liu: 我觉得智能体还是会出各种错,比如Claude Code智能体,我遇到的好多错误都是,它记不住一些本来很明显,本该是常识的东西,所以我认为,记忆和上下文是目前最重要的两个方面,尤其是记忆,它们就像一枚硬币的两面对吧,就算在理论上,你可以用无限的上下文窗口,访问你告诉过模型的所有内容,但如果他忘了或者把事实搞错了,那记忆还是不好,另外前几天Claude Code宣布支持 100万个token的上下文窗口时,所有人都非常兴奋,包括我,这当然很好,但问题仍然在 [00:29:11 → 00:29:45]

我们怎么才能实现无限的记忆,这就是持续学习的问题,我们怎样才能不让模型遗忘,我觉得这方面如果能成功,会比怎么搭建协作式智能体更有价值,我们之所以需要大量的智能体,恰恰是因为一个智能体记不住所有事情,所以我们才要它们分开做不同任务,可如果有一个智能体能记住一切,做新任务时不会忘记之前的任务,那所有事情都可以放在一个智能体里完成,哪怕在公司的后台服务器上做并行处理,但只要对用户来说它就是一个个人助理 [00:29:45 → 00:30:18]

这也会比编排多个智能体方便得多,好的,我们来看你之前提到的那篇论文,就是ice wide shot那篇 [00:30:18 → 00:30:26]

一凯: 你建议把视觉特征和自我监督特征混合起来,来改善视觉基础能力,那你觉得对于多模态语言模型来说,最理想的视觉编码器应该是什么样的 [00:30:26 → 00:30:38]

Zhuang Liu: 如果我们要同时优化语言对齐和细腻度的视觉判别能力的话,没错,我觉得这正是我目前心里的解决方案,就是两者都要做,我认为这两者是当前预训练的主流范式,我还要加上一点,现在很多人在讨论世界模型,对吧,所以我会把世界模型也加进来,也就是说给视觉部分加上一个时间维度,这样也会非常有帮助,我们聊聊世界模型吧 [00:30:38 → 00:31:03]

Ravi 与 Ellen: 你对世界模型的定义是什么,世界模型对我来说,就是预测世界怎么运作,对吧,在给定的当前条件下,预测世界会如何发展,这具体是什么意思呢,比如几周前斯特凡诺,萨托来过,他声称大语言模型是有世界模型的,而更早之前,杨乐坤来的时候则说,不,我们需要显示的,为模型构建世界模型,当前的大语言模型并没有,你怎么看?我们能不能定义出一个标准 [00:31:03 → 00:31:38]

明确说出,瞧,这些模型拥有世界模型,它们就是世界模型 [00:31:38 → 00:31:44]

Zhuang Liu: 而那些模型没有某种能表征世界的内部状态,对我觉得在语言空间里,它们确实有世界模型这一点毫无疑问,语言是一个更高层的抽象空间,相比于我们接收到的所有感知信号,我得说它在这个空间里的世界模型其实非常好,我经常跟ChattyPT聊历史,几天前我让他做一个假设,在中国历史上发生过某件事,我为其中一方感到惋惜,我就让ChattyPT设想一个假想情景,假如那个战败方或者战败国,当时打赢了战争,然后一切都改变了 [00:31:44 → 00:32:17]

结果他给出了非常合理的推演,他不是随便拼凑小事,而是每件事都说得通,他只是细小的概率变化,人们如何做决定,一切都很连贯,就像真实历史一样,完全可以是真的历史,所以我觉得本质上看,没有任何人,至少没有哪个小说家或历史学家,能在对这一系列事件的逻辑推演上超过他,我觉得他们确实有很好的世界模型,只不过是在一个非常非常高的抽象层面,所以我想我们平时说模型还没有世界模型,指的是在视觉空间,在视觉信号感知空间里 [00:32:17 → 00:32:52]

我们还无法在像素空间,完全还原或模拟出世界模型,这也没错,因此有没有世界模型,取决于你想在哪个层面上建模这个世界,对吧,如果你把世界上这些高层世界,视作一个自包含的世界,那没错,我们确实有世界模型,它就是语言模型,但如果你要考虑每一个像素,每一个原始信号,每一个物理信号,包括不仅视觉,还有世界上的每种物质,物理属性等等,那没错,我们还没有那个层面的细腻度世界模型,而我觉得最根本的原因还是 [00:32:52 → 00:33:26]

视觉是一种数据通量高得多的模态 [00:33:26 → 00:33:29]

Ravi 与 Ellen: 我们目前还没有足够的算力去对它建模,好的,那你觉得我们真的需要世界模型,来解决我们实际感兴趣的那些任务吗,比如99%的任务都需要世界模型吗 [00:33:29 → 00:33:42]

Zhuang Liu: 我觉得对数字工作,白领工作来说,我们不需要世界模型,很多事都在数字空间里完成,我最多需要一个,能读懂我电脑屏幕的模型,而且电脑屏幕本来就是数字化的,可以被压缩,最多也就是一组,像实时视频流一样的图像,处理起来会更容易,所以现在我跟Color Code交互的瓶颈,往往就是我得手动截图,但这应该是能解决的,因为这些模型,可能很快就能以安全的方式,直接访问我们的屏幕了,这样一来我就不需要分享那么多上下文了,比如怎么在网站上配置某个东西 [00:33:42 → 00:34:16]

这类事就不用再费劲解释,我现在仍然有时需要给Claude Code截图,对,但是对体力劳动,比如建筑,开车这些物理活动,对,我觉得我们确实需要视觉世界模型,因为这类工作中的反馈非常精细,非常详细,比如理发,对吧,你想把哪部分头发多剪一点,或少剪一点,想剪成什么发型这类问题,是不可能靠询问语言模型来完成的,如果想让模型来做这些事,就必须让模型能看到,还有像一些医疗手术这样的精细物理操作 [00:34:16 → 00:34:48]

我真的认为这些领域需要视觉世界模型,这类工作显然不是只占1% 可能差不多有70% 对,我觉得超过半数的工作,想真正做好的话都需要视觉世界模型,你还有一篇很酷的论文,我特别感兴趣,因为我们在ICR也有一篇关于反SLAP的论文 [00:34:48 → 00:35:10]

一凯: 就是去除大语言模型里的那些,你可能会叫它独特性的东西,因为你的这篇论文大型圆模型中的独特性发现,模型特有的签名在改写翻译和摘要之后,居然还能留存下来,真是很有意思,所以你觉得这些签名到底在衡量什么,是预训练数据后训练风格,还是像我们研究中观察的那种slop解码行为,还是其他更结构性的因素,你的想法是什么,对 [00:35:10 → 00:35:42]

这篇论文是关于对数据源数据来源做分类 [00:35:42 → 00:35:45]

Zhuang Liu: 不过是针对语言模型的输出,就是给定一段文本,我们想训练一个单独的神经网络模型,来判断这段文本是由哪个语言模型生成的,我们发现当有五个候选模型时,这个分类可以做到非常非常准,准确率高达99% 那时候我们都觉得挺惊讶的,但现在我觉得越来越多的人,开始接受语言模型生成的文本里是有线索的,即使不是AI研究员,普通人也大概能看出某段文本像是哪个模型生成的,所以现在这个发现就没那么令人吃惊了 [00:35:45 → 00:36:18]

因为每家公司都有自己的一套策略,来最大化用户参与度,而且模型之间确实可能不一样,你像聊天时模型输出的风格可能就不同,现在你也能感受到各种风格,所以大家对这个现象不再那么惊讶,但到底是什么因素造成的呢,我觉得每个提供商自己对风格的选择影响很大,比如说系统提示词对吧,我们看不到各家到底用了什么系统提示,他们会告诉模型是要啰嗦一点还是简洁一点,要不要用项目符号,另外后训练阶段,不同公司用的后训练策略不一样 [00:36:18 → 00:36:52]

他们雇佣标注员的方式,以及如何指导标注员去评分,这些都会带来系统性的差异,最终导致了不同的行为,再有就是预训练,预训练阶段每家公司的数据来源都不一样,有些公司可能希望模型在编程数学推理上更强,有些则可能优化通用知识覆盖面,我们并不知道这些差异到底有多大,所以只能通过最终输出结果来近似推断,所以我觉得所有因素都有影响,但我认为后训练以及提供商如何设计系统提示,是造成差异的主要原因 [00:36:52 → 00:37:26]

很可能占了大部分 [00:37:26 → 00:37:28]

Ravi 与 Ellen: 那你怎么看预训练,你觉得预训练和后训练之间的这种区分会继续存在吗,它是一种根本性的区别,还是说只是我们当前训练方式的一种妥协 [00:37:28 → 00:37:41]

Zhuang Liu: 最终会走向统一,明白了,我觉得预训练中间训练跟后训练相比,相似处更多,后训练的目标,它的奖励信号是不一样的,因为它涉及到人类判断和人类偏好,我觉得这是最大的不同,预训练和中间训练,其实只是对不同风格的数据,不同的上下文长度进行整合,中间训练这个概念,是最近几年才出现的对吧,几年前我们只有预训练和后训练,但现在有了中间训练,中间训练可能是个临时阶段,因为它主要是为了扩展上下文长度 [00:37:41 → 00:38:14]

以及为了引入更高质量的数据,所以我觉得,这可能是在算力有限,高质量数据不够的情况下,我们不得不做的一种妥协,所以我认为预训练和中间训练,其实都算预训练的范畴,而后训练不同,因为它需要人类来引导模型的行为,我觉得这种区分会持续下去,不会消失 [00:38:14 → 00:38:33]

Ravi 与 Ellen: 不过我希望未来能有另一个阶段,就是针对每个用户进行持续的个性化训练,这样就能定制化偏好记忆和风格,那就太棒了,那你怎么看呢,这种持续学习,你觉得它更像是,比如说自监督学习那种方式,就是通过不同视图之间的差异来学习,还是说它会针对特定任务,比如有了新数据,然后去解决特定任务 [00:38:33 → 00:39:00]

Zhuang Liu: 你怎么看,我觉得它更多不是为了提升能力,而是为了更好的记忆,更好的记忆力,这些模型目前的能力已经足够好了,能解决大多数人解决不了的问题,我们只是需要模型能记住,每个人的特性和偏好,比如我喜欢怎么回应某些事情,我有什么基本原则,即使我把自己所有的生活历史,和所有偏好都写成一个 markdown文件放到上下文里,它还是有可能会漏掉,比如说,我现在有Cloud的全局MD文件,告诉模型在遇到某些事时,要注意什么,但它还是经常忽略 [00:39:00 → 00:39:34]

我目前没有很好的办法,让这些信息真正粘在模型里,所以我一直觉得,持续域训练,更多是为了获得稳定的记忆,不再在琐碎小事上犯错,而不是去发展更多技能,它更多是在合适的场景里,找到合适的技能来用,而不是去发展新技能,这也许有点跑题 [00:39:34 → 00:39:52]

一凯: 但你有没有听起来,你主要在用Claude Code 你有没有用过ChatGPT 比如GPT-4,Codex,还有Gemini 你有特别偏爱的模型吗,没有什么特别喜欢的,对,我主要就只用Claude Code [00:39:52 → 00:40:06]

Zhuang Liu: 因为它功能太多了,我得学习怎么用指令之类的,怎么把它用得最好,我宁愿先待在一个生态里搞熟它,而不是去试一堆功能类似,但互相竞争的产品,我是尽量让事情简单一点,不过我有一些学生会用不同的模型,我觉得Codex和Codecode是两个主要的工具,我听说有些学生更喜欢Codex 部分原因是同样价格档次下 Codex使用时长更久 [00:40:06 → 00:40:33]

Ravi 与 Ellen: 有时候他们做实验,想要更多配额的话,就会倾向于用Codex 你怎么看,我好像在领英还是推特上看到有人说,现在有了新的编程智能体,就不需要学生了,我只要把我的需求告诉编程智能体,它就能完成所有实验,生成结果和报告之类的,你觉得这种方式怎么样,你觉得我们会需要更多学生 [00:40:33 → 00:40:59]

Zhuang Liu: 还是更少,从教育的角度来看,我确实认为我们需要更多学生,去沉浸其中,去学会使用AI 并进一步发展AI 所以这应该没什么好争论的,我们需要更多有能力的学生,需要培养他们,从实际项目和实际工作的角度看,我的答案也一样,我自己现在也可以用Claude Code 来跑一些小项目,只要有足够的资源和时间,但要说完全自动化,那还不行,我试过让他在一个项目里,从构思实验到写论文,一两天内完成,但效果不好,他提出的问题虽然合理 [00:40:59 → 00:41:33]

但对我来说没什么太有意思的,他做的实验不够全面,不足以支持结论,我得反复提示很多次,才能把他拉回正轨,然后回到记忆的问题,他比我预想中忘事忘得快得多,我让他用某个GPU 用某个GPU分区,他可能前几个小时还遵守,任务一完就忘了,还有我希望他能永不停止,基于当前实验结果,去设计下一个实验来验证新假设,但他就是不停,有时候会陷入局部最优,所以我觉得这些工具,擅长做低层次的任务,但在高层次的研究理解,方向判断上还是不如人 [00:41:33 → 00:42:07]

如果一个学生像我一样,如果我能用Color Code 让我自己的工作效率更高,那么学生也能做到,只要他们有正确的心态,不把所有事都交给AI [00:42:07 → 00:42:17]

Ravi 与 Ellen: 而是借助它来成长为一个好的研究者,我觉得我们还是需要更多这样的学生,而不是更少,对,我其实也试过,不知道你听没听说过 Andrej Karpaty发布了一个auto research 对吧,就是那种自动研究工具,它基本上就交给了一个编程智能体,去优化一个nano chat模型,让它跑一晚上的实验,结果发现验证损失确实下降了,而且智能体还提出一个建议,比如去改变随机种子 [00:42:17 → 00:42:52]

改了之后效果变得好得多,我实际上也尝试了类似的东西,就拿了那个项目,做了一个很简单的超参数优化,看起来你真的能在更短的时间内,用更少的迭代次数得到更好的结果,我觉得最后我们得,我不知道小新这个词准不准确,但我们得搞清楚,到底什么类型的用法对他来说是真正合适的,什么类型还不行,我们其实是在浪费时间,不断去提示他 [00:42:52 → 00:43:25]

尝试让他做到,就因为他很炫,大家都在用,所以对我同意你说的,自主研究现在还不行,我不知道将来行不行,也许谁知道呢,当然在某些场景,某些用途里,比如构建一些产品,已经非常好了,几乎到位,但对于研究来说还不行,完全正确,对我也是一样的体验,好那么我有个问题,关于你最近那篇论文,无硅化的Transformer [00:43:25 → 00:43:57]

一凯: 如果我没记错,杨立坤也在上面吧,对没错,你们用动态天层,替换了硅化层,并且在多种设置下,仍能达到或超越,硅化Transformer的性能,这其实也延续了,我们一直在聊的,你的工作里那种主题,很多归纳偏置其实是历史偶然,那么还有没有其他我们认为是核心的组件 [00:43:57 → 00:44:22]

Zhuang Liu: 其实也只是历史偶然呢,我倒不是,至少目前我还没想到其他的,不然我早就发那篇论文了,我觉得残差连接是非常关键的,我现在仍然相信它必不可少,它不是历史偶然,实际上已经有很多研究,试图替换残差连接,比如开发各种变体,甚至去除它,但到现在还没有哪一种真的被广泛采用,硅化层我也认为不是历史偶然,所以我不建议现在每家公司都换成动态Tanch 首先在大型语言模型上让它正常工作有点棘手,其次基于目前的硬件和软件库 [00:44:22 → 00:44:57]

它并不会带来加速,所以这是个很有意思的发现,但我不会因此就说它超越了硅化层,然后推荐大家都去用它,回顾历史,残差连接,硅化层,自注意力,还有线性层 [00:44:57 → 00:45:11]

一凯: 这四个可以说是架构组件中经受住时间考验的四大支柱,然后你还有另一篇论文Metamorph 声称通过指令微调视觉生成可以作为视觉理解的副产品出现,因为你之前在其他工作里也提过类似的方法论,那你觉得先理解后生成是不是一个通用的方法论,可以作为我们制作模型的一个指导原则 [00:45:11 → 00:45:36]

Zhuang Liu: 对于制作模型我还没有明确答案,是不是总要追求,统一的生成和理解模型,我们还在探索这个,我们有一个正在进行中的项目,就在研究生成是否有助于理解,比如你问模型一个很难的问题,模型先生成一些中间推理,有点像思维链,但用的是图像,但我们发现,这实际上只在极少数情况下有效,因为方向还不确定,我们还没能真正做到,让它有帮助,但反过来,理解帮助生成,我觉得更靠谱,至少你可以在语言空间里,推理或者对输入图像 [00:45:36 → 00:46:10]

做视觉理解,然后再去编辑图像,这显然是行得通的,就像提示改写系统,有些生成系统就有提示重写模块,那其实就是个理解模型,对吧,它在生成图像之前,试图理解和推断应该有什么,对象怎么摆放,我觉得这是更可能的方向,所以至于要不要用一个模型 [00:46:10 → 00:46:29]

Ravi 与 Ellen: 同时做生成和理解,我觉得这还是个开放问题,对,好的,你还有什么想补充的,或者想聊的吗,我现在一时也想不出什么了,好,非常感谢你今天来,非常感谢,邀请我,很荣幸,也谢谢你,一直都很愉快 [00:46:29 → 00:46:48]

返回该播客 打开原文