目录
- 辩论开场与Transformer之争 [00:00:00 - 00:10:00]
- 智能过程与PageRank隐喻 [00:10:00 - 00:20:00]
- 规模化、硬件与现实部署 [00:20:00 - 00:30:00]
- 语言、推理与Benchmark [00:30:00 - 00:40:00]
- Perplexity与最后陈述 [00:40:00 - 00:50:00]
- 连续学习与潜空间安全 [00:50:00 - 01:00:00]
- 观众投票与收尾 [01:00:00 - 01:00:30]
辩论开场与Transformer之争
Zuzanna Stamirowska:欢迎收听跨国串门计划。这是一档专注于让中文听众无障碍欣赏全球优质外语播客的节目。通过先进的AI声纹克隆技术,我们不仅将内容翻译成中文,还完美保留了原主持人和嘉宾的独特声音,为您呈现全球顶尖的AI财经健康与科技领域精品内容。我是主播一凯,一位热衷于AI领域的产品经理,很荣幸能为您搭建这座跨越语言障碍的桥梁,接下来让我为您简单介绍本期我们克隆的这档节目,并分享几句非常精彩的原话,本期我们克隆的是Pathway 在2026年5月19日更新的一期现场辩论节目,题目是Transformer vs Post Transformer 这是一场带着拳击赛形式的AI架构思想对决 由Pathway CEO BDH架构共同创建者Zuzanna Stamiroska 主持嘉宾包括Transformer共同发明者Lucas Kaiser和Lalin Jones 以及Pathway的Adrian Kosovsky Liquid AI的Matthias Lechner 节目里有几句原话很有力量,这个疯狂简单的机器只是在一句话或者一段更长文本里预测下一个token 却能够和你聊天,现在还能写代码,点击你电脑上的窗口,我认为在智能这件事上,我们还没有迎来PageRank时刻,一个普通人并不需要,把互联网上的所有内容真的读好几遍,才能变得接近人类水平的智能,今天我没有听到任何理由,能让我怀疑自己的信念,一定还有更好的东西,那我们就一起进入这场,关于AI下一代架构的完整对话,华尔街日报 碰巧在一个拟议改革时代的开端,发现了一份投诉,女士们先生们,欢迎来到今晚的主赛,七轮提问和讨论,登场的是AI领域最强,也最勇敢的大脑,这是一场重量级思想之战,我是Zuzana Stamiroska Pathway的CEO 也是BDH架构的共同创建者,今晚我们聚在这里,是要讨论点燃AI革命的,最深层结构 Transformers对阵Post Transformers 我们要讨论塑造,万亿美元市场的数学,也许还要讨论人类的未来,好了话不多说,请欢迎我们的参赛者,在紫色角,我们有三位挑战者,要挑战当前主流架构的冠军腰带,他们主张Dynamical Systems Latency Reasoning Continual Learning 以及在我们所知道的Attention之后,会出现的一切,接下来这位挑战者,要争夺主流架构的头衔,他是推理颠覆者,量子物理学家,理论计算机科学家 也是Dragon-Hilling BDH架构的发明者 Pathway的CSO 现在在蓝色角,是现代AI的Raining Attention Champion 逻辑学家 Transformers的共同发明者 Transformers改变了一切,他也是ChatGPTO1的创建者,今晚我们来到这里,是要确定谁会赢Transformers 还是Post Transformers 谁会带来AI的下一个时代,好我们有一些规则,首先每位参赛者用五分钟,陈述自己的立场,支持Transformers或Post Transformers 没错然后进入反驳环节,每个人有三分钟回应对手的观点,反驳阶段有一点很重要,你们每个人都可以举起拳套,表示要提出一个信息点,或者发起一个挑战,正在发言的人,可以在自己方便的时候接受,接着我们进入短拳环节,还有三轮每轮四分钟 Susanna和我会向一位参赛者提问,其他人可以自由加入,场面会变得很混乱,然后我们会做一些 简短的总结陈词,在开放点现场,各位提问,最后我们会用欢呼声来决定,谁会在今晚离开拳台,成为AI的冠军,各位参赛者,请到拳台中央站到Susanna身边,来吧抱歉,好各位请把拳套举起来,很好很好,现在为了AI冠军头衔,请给我打一场干净漂亮的比赛,遵守规则,用证据支撑你们的说法,现在碰拳玩得开心,好第一轮开始做开场陈述 [00:03:33]
Lukasz Kaiser:你可以到拳台中央或者去任何你想站的地方,非常感谢,谢谢邀请我来,也谢谢这场很棒的比赛,我今天是来谈Transformers的,这其实有点奇怪,因为发明某个东西的人,往往比别人更容易反对他,我曾经和Jeff Hinton 一起工作过一段时间,那时候他讨厌backprop 他会说你得找到更好的东西,这不可能是答案,大脑不是这样工作的 backpropagation的东西,不可能是最终方案,很多年里我对Transformers 也有同样的感觉,但Jeff Hinton后来,已经接受了backpropagation 也许也只是,也许现在也该接受Transformer了,对我来说这是一个巨大的惊喜,我想对Ralyn 以及很多其他人来说也是一样,这个疯狂简单的机器,只是在一句话或者一段更长文本里预测,下一个token却能够和你聊天,现在还能写代码点击你电脑上的窗口,而且很快会帮我们做很多工作,但它确实能工作 它能工作这正是transformers 最关键的一点也是很多其他系统还做不到的地方,我最近又试了一次RNN 它们还是不太行,所以这是第一个非常重要的论点,另一个论点是,我是从RNN时代过来的,我很喜欢recurrent networks 所以我想把transformers看成一种memory 而不是一个attention network 如果你把transformer看成一种memory 它是怎么工作的,想象一下,你是互联网出现之前的一位图书管理员,书送到你这里,你得把它们放到书架上,然后还得用某种方式把它们找出来,有人会来问哪本书里有这个人,或者哪本书里有那个东西,你会怎么做,如果你去过还保留这种系统的图书馆,就会看到那些纸质卡片,卡片上写着这个和那个对应的是这本书,在那里,也许在这一页,所以你会写一个key 用来在卡片里搜索,然后写一个value 告诉你去哪里找,以及要找的东西是什么 Transformer本质上就是一个RNN 每当有新信息进来,它就写下一个key 放进自己的key store 然后写下需要取回的value 也放在那里,当问题来了,它就找到和这个问题最相似的key 然后把value给你,只不过它需要是differentiable的,所以是soft的,就是这样,它是一种极其简单,也非常基础的memory形式,它只是把进来的,所有东西拼接起来,长度不断变长,所以Transformer 是一个非常基础的东西,而且它就是必须能工作,对吧,它会记住一切,当然有人会说,也许它应该忘掉一些东西,现在Context变得太常识,它会忘掉一部分,会把内容压缩,这个你可以在上面再加 Reasoning也是一样,你不能总是在模型层里,完成所有Reasoning 你可能需要Chain of Thought 那就加上去参数不够,那就加MOE 但它简单漂亮,而且能用 [00:05:48]
Adrian Kosowski:所以这就是我为Transformer提出的论点,谢谢,好现在交给Adrian 谢谢,我会为Post-Transformer做论证,但最重要的是,我会为智能本身做论证,智能是一个很大的话题,我们都谈过 Artificial General Intelligence Super Intelligence等等,智能到底是什么,它是解决难题,处理难题的能力,尤其是处理你以前没见过的问题的能力,直到不久前,人类我们还认为自己是,当今地球上唯一的智能物种,但今天每一天,如果你看看正在发生什么,数以百万计的非常困难的问题,很多接近人类能力巅峰的问题,正在被两个智能物种解决,人类和Transformer 我在Post-Transformer阵营里,想说的是,这就是Post-Transformer的时刻,重点并不是说Transformer很差,也不是说Transformer不是智能的好例子 重点是,我们已经有了几个智能的例子,那接下来该做什么?再造更多例子吗?这不是关键,关键是现在我们可以去发现智能背后的共同主题,每一种智能都有自己的短板 Lucas刚才提到了Transformer作为一种智能形式的优势 Transformer也有短板,比如Continue Learning的问题 Long Term Memory的问题,还有Lated Space里缺少Reasoning 除非用非常复杂的方式把它硬塞进去,这些都是Transformer的问题,那接下來會怎樣?未來會怎樣?我們會不會只是得到更多系統?在這裡補一塊,那裡補一塊,我覺得答案不是這樣 Lucas,你剛才用圖書館所引來解釋Transformer的記憶模型,我就從這個例子出發,回到90年代,當時有一個問題,它只是智能裡很小的一部分,那就是信息索引 是90年代的一大挑戰,當時Web還很年輕 Altavista這樣的Web Search Engine已經出現了,我们已经有一些例子,后来有一家公司提出了一个大主题,一个数学方程,以及一种实现这个方程的方法,这个方程叫PageRank 以其中一位创始人命名,实现他的方法叫MapReduce 这家公司现在是世界上最大的软件公司,我不用说出他的名字,只是一种理解信息索引主题的方式,就改变了我们看到的世界,我认为在智能这件事上,我们还没有迎来PageRank时刻,智能系统背后的主题还没有被完全发现 Transformer是智能的一种形式,但如果我们发现了这个主题,理解了这个主题到底是什么,我们就能走得更远,在这里我们可以谈更好的reasoning 更好的memory 作为ABDH架构的创造者 我们可以给你一点答案的线索,我们给出的答案是,这个主题的核心,在高维空间里做late reasoning的能力,同时结合state space model 和sequence processing的优势,所以我绝对不是说 transformer做错了什么,我只是说,有一种更完整,更直接的方式,可以实现这个主题,因此我为post-transformer做论证,是把它看作对智能主题的搜索,寻找那个能把我们带到,今天更远处的leitmotiv 这就是我的论点,或者我是不是理解错题了,谢谢,现在请Matthias Lechner发言,非常感谢,我想回答这个问题,我们在Liquid AI是怎么构建Foundation Model的 [00:09:20]
智能过程与PageRank隐喻
Matthias Lechner:我们在Liquid AI是怎么构建Foundation Model的,对我们来说,这不是Transformer还是Post-Transformer的问题,而是Transformer加Post-Transformer 我们设计模型是不是在真空里设计,而是会考虑硬件,使用场景和能力需求,所以作为研究者科学家和工程师,我喜欢尽可能多地使用各种Building Block 举个例子,我们有一个具备GPT三级别能力的语言模型,可以跑在Raspberry Pi上,速度大约是每秒 40个Token真的很快,我们是怎么做到的,不是只靠Transformer 也不是只靠Post Transformer 我们只是根据当下的需求能力和可用速度,把能用的东西都拿来用,所以每当DeepSeek推出新的Attention机制 比如AMOLED Compressense Attention等等,我都会很高兴,每当有新的Pulse Transformer模型发布,不管是SSMs 新的Mamba Gated Linear Attention Convolutions 还是别的什么,我也都很高兴,因为这让我可以从更大的架构集合里挑选组件,我们这么做的原因是,我们并不是生活在一个静态世界里,我们生活在一个动态世界里,就像我前面说的,需求会变,我们对AI的期待也会变,同时研究本身也不是静态的,不是说我们今天停止研究,然后就必须做一个决定,不是这样,它是动态的,我们正在和agent一起工作,让他们发现新的layer 新的模型变体,所以我再说一次,未来这件事会加速,随着我们越来越接近通用人工智能 这会发生 而且从硬件角度看,我们也不是生活在一个静态世界里,就像我前面提到的,把模型部署在Respi上,和你能用到下一代 NVIDIA Vira Rubin Stack 是完全不同的情况,后者可能要消耗差不多一兆瓦的电力,所有这些背景都需要考虑进去,所以至少对我来说,或者说对Liquid来说,这真正意味着,我们希望从所有可能性里取材,去构建今天我们能做出的最好模型,谢谢,现在请最后一位辩手,也就是换边站的那位,谢谢,我觉得我得先承认我有点紧张,一部分原因是,这是我第一次参加这种类似辩论的活动,而且这个现场设置也特别奇怪,我紧张的第二个原因是,这些年我学到一个经验,如果Lucas Kaiser不同意你的观点 [00:11:47]
Llion Jones:那通常是一个很好的信号,说明你可能错了,所以现在看起来三对一好像不公平,但我其实不这么觉得,不过我还是会尽力,先说开场陈述,我先让一步,如果我站在Lucash的位置上,我觉得也许我会站在他那边,因为如果你想一想这个变题 Transformers 对Post Transformers 我应该先简单说一下,我理解这个变题到底是什么意思,他的意思是,我们已经结束了吗 Transformers 真的是最终答案吗,我们是不是只需要继续一点点改进它,继续扩大规模,然后就能达到人工超级智能这个目标,对OpenAI这样的公司来说,从经济角度看,专注于Transformers是合理的,他们现在可以说是世界上最强的,他们需要保持领先,所以他们不把钱投到寻找下一个方向上,而是继续打磨现在已经有效的东西,并守住自己的护城河 这是说得通的,但对另一边的创业公司来说,我觉得把一些钱压在长期赌注上,真正花时间去寻找下一个东西会更合理,当然别忘了OpenAI曾经也处在那个位置,他们当时就是在寻找下一个东西,而且找到了,他们发现Transformers 比其他人想象的更适合Scaling 而且也因此做得非常成功,所以如果说我们不应该尝试做同样的事,那几乎有点虚伪,第二点,我觉得这归根结底取决于目标,我坦白说,我其实能理解这种看法,如果我们继续Scaling Transformers 也许真的能到达那里,也许我们真的会到达某个阶段,可以把某个东西称为人工超级智能,只是我有一个很强的直觉,还存在更好的东西,所以我现在看Transformers 当然它是一个非常优雅的架构,但我认为它本质上其实是Brute Force [00:13:36]
Adrian Kosowski:要让这些东西真正工作起来,我们需要的数据量和算力量都非常巨大,一个普通人并不需要把互联网上的所有内容,真的读好几遍,才能变得接近人类水平的智能,所以外面一定还有更好的东西,而且我觉得这不只是直觉,我们每个人这里都有一个proof of concept 那就是我们的大脑,我们的大脑能做transformers 做不到的事,我觉得这非常明显的说明,还有一个缺口需要我们填上,现在很多人也在投入大量努力,去填这个缺口,但在我看来,那些做法总是有点hacky 所以站在Lucas那边的人,可能会说,我们最近在reasoning上取得了成功,现在这些系统写代码也非常厉害,是的很厉害,但这难道不是一种hack吗 Transformers并不是原生会reasoning 我们必须在这些东西外面,手动套一个老派的AI Python程序 [00:14:29]
Zuzanna Stamirowska:才能把输出以正确方式再喂回去,如果Transformer真的像我们想象的那么强大,那它难道不应该能学会原生reasoning吗,所以这是我希望从下一代架构里看到的一件事,最后我用这一点收尾,我其实认为Transformer的成功,正在阻止我们找到下一个东西,人们在这个架构上投入了太多注意力,他太成功了,在他擅长的事情上也太好了,以至于我们现在真的卡在了一个局部最小值里,要找到下一个东西,必须有人去做非常不同的事,我最后一点是,任何站在Lucas那边的人,我认为在我们找到下一个东西的时候,都一定会被迫转到我们这边,因为到那时他们没有别的选择,谢谢,这太疯狂了,很精彩,太棒了,接下来进入反驳环节,这也是我最期待的部分,我们会按刚才同样的顺序来,每位参赛者都有三分钟回应 [00:15:23]
Lukasz Kaiser:其他人的开场陈述,以及其他人的反驳,这个环节比较特别,其他参赛者可以示意,我们就叫他一个信息点,或者一个争议点,如果你想插话,就举起你的拳套,要不要点你发言,由正在反驳的人决定,他也可以选择继续说,我们只有三分钟,所以节奏会很快,天哪,下一个是什么,太好了,没有更多台词了,我们把话筒交回给Lucas 听听你怎么看这些,我敢不敢叫他们论点呢,谢谢非常感谢,我觉得这些论点都很精彩,我对他们其实很有共鸣 [00:16:18]
Adrian Kosowski:但我也想把他们放到一个位置上,这也是为什么我一开始提到 Jeff Hinton和backpropagation 你知道把信息往回传,有很多比backpropagate更好的办法,你可以说backpropagation很brute force 但后来大家也找到了办法,比如实现一些loss 让他们穿过层,并且可以在更小的硬件上跑,这些年来,我已经听过太多次这个说法了,我们会在小硬件上用小语言模型, 可是我每次用任何AI都会选最好的模型, 配最高的thinking budget, 我觉得很多人也都是这样, 所以我认为这些说法在某种程度上都是真的, 但我确实相信AI的下一个阶段需要追求最智能的东西, 而某种recurrent architecture是一个竞争者, 我觉得他们非常漂亮, 但你也可以把transformer看成一种recurrent architecture, 只是它的memory非常简单, 这是一点, 所以你需要做出比这更好的东西, 我也非常同意Lelian的看法,感觉上人脑确实做了更好的事情,有一种方式也许能说明这一点,所以我上周其实把Transformer实现成了一个RNN 也实现了一堆旧的RNN用来做比较,一个很小的Giru 不知道你们还记不记得Giru 它是一种非常简单的RNN 在当前的NVIDIA硬件上,它跑起来比一个大得多的Transformer慢大约50倍,这很致命,因为如果真的有一个漂亮的RNN 你现在就需要多用大约100倍的时间,不是compute 而是wall time 如果按FLOP算,它实际用的compute 反而更少,但因为它是顺序执行的,所以现在跑的就是很慢,如果当初没有transformer 也许我们会有,能更快执行循环的硬件,这不是必然的,它是一种选择,当然,这里面也有一点内在因素,做并行硬件,比做非常顺序化的硬件,要容易得多,不过这些序列,也没有那么长 所以我同意这一点,我们现在无论是解释人脑,还是匹配人类泛化的,数据效率和表现,都还差得很远,所以这里确实还有事情要做,但另一方面,如果我们看的是machine learning 而不是psychology 那感觉我们还没有这些方法,硬件似乎也还没到位,那我们怎么到达那里呢,这就是挑战,幸运的是这个挑战不是给我的,而是给我的post-transformer对手的,但也许只是也许,最后会是transformer找到答案,而不是你们,天哪,你刚才打中了太多拳,我本来中途想提出挑战 但既然下一个就是,我说我就等会儿再回击两三下,先回应刚才那些权,你一口气提到的很多东西,比如recurrence和backpropagation 它们某种程度上是相互关联的,我个人觉得,穿过若干层做backpropagation 本身没有太大问题,至于为什么某些硬件,比如大脑可能做的backpropagation更少,也许只是因为它不知道怎么做,或者因为这很难,但如果你有能力做backpropagation 为什么不用呢 backpropagation在学习过程中其实好得惊人,但reasoning和learning是有区别的,当你在reasoning的时候,至少是在运行一个相当深的算法,你会经过很多步,无论这些步骤是通过chain of thought展开的,还是通过某个recurrent latent state来完成,他们都会在很长一段时间里展开 [00:19:08]
规模化、硬件与现实部署
Adrian Kosowski:他们都会在很长一段时间里展开,在reasoning的时候,你确实想要这种展开,另一方面,在learning的时候,如果你试图把gradient沿着所有这些步骤一路往回传,那就会变得一团糟,当gradient要沿着很长的路径往回走时,会发生很糟糕的事情,所以这也解释了为什么transformer是可持续的,它在depth和RNN之间做了某种折中,而RNN又和chain of thought等东西联系得很紧,我们相信这个折中可以稍微移动一下,去掉其中一个更大的限制,也就是必须产生很长的chain of thought 而且不能用thought本身来思考,因为transformer是用语言来思考的,他们不是用related thought来思考,他们会记住自己的想法,但他们是在语言里思考,所以这是一个挑战,而这个挑战的解法是存在的 而且很漂亮,这就是我想说的,我们愿意接受这个挑战,所以谢谢Lucas把这个挑战抛出来,我们接下了,还有什么要说的,还有谁,我还有时间反击,如果你们现在给我45秒,我说完就交棒,关于硬件,我们现在这些架构,本来就能很自然的适配硬件 RNN不太适合矩阵乘法,这是RNN的问题,我们并不是在替RNN辩护,我们也不叫RNN俱乐部,我们叫后Transformer俱乐部,还有更好的东西,确实有更好的东西,能很好的跑,矩阵乘法,也能充分利用GM之类的能力,所以当然是可以传播的,还有一件事,我只剩6秒了 RNN的state太少,而大腦有很多State 所以大脑能工作 RNN不幸,谢谢,好一句反句,谢谢Adrian 接下来我们欢迎Matthias 谢谢我想提两点 第一点还是刚才Lukasz提到的 Transformer和RNN之间的边界,其实很模糊,你可以想象,一个Transformer 有非常高效的KV Cache 比如每一步都很小,同时一个RNN 有非常巨大的State 比如几GB甚至更大,到了那个时候 Transformer和RNN之间的界线,就会变得非常模糊,所以这件事在某种程度上,就变成了哲学问题,那你会选哪一个,对没错这是第一点 Transformer 对吧,也许吧,第二点是你刚才提到的,如果叫Fast Waits可以吗 Fast Waits这个词不错,或者也可以叫别的Fast Waits 其实就是一种记忆存储,这个点很好,这又有点像RNN 前提是它在一个固定预算下运行,但更重要的是 刚才也提到过几次,大脑不会因为你变老,就继续长大,对吧,所以从这个意义上说,它有一个固定的state 至少从里面包含的原子数量来看,是这样,也就是说,如果你想构建通用人工智能 我们其实已经有了一个智能的实现形式,而且它是在固定State下实现的,当然这个固定State本身可以非常巨大,这就把我带回第一个问题,但考虑到Transformer现在取得的疯狂进展,以及Transformer为什么这么强,是因为现在我们有了所有这些agent 还有这些可以自主工作的东西,我相信他们会找到自己的替代品,所以我觉得也许不是我们会找到更好的架构,我当然希望是我们,但在最坏的情况下 我也相信 Transformer会找到它自己的替代品,好我明白了,来自后Transformer队的右翼级重拳,最后收个尾,我们听听Lelian 我觉得我们开始讨论ONN这件事,本身就说明了我前面说的那个问题,我们被困在当前范式里了 Transformer的突破,我认为被严重误解了,大家看那篇论文会觉得,哇,他们只是把神经网络里,那些标准组件换了个位置,比如多层感知机 Attention Residual 主点激活,然后碰巧找到了一个,效果很好的架构,所以其他研究者似乎会觉得,只要我继续重新排列这些组件,我就能发现下一个东西,不你不会的,别这么做了,正如Lucas提到的,真正的突破,在硬件突破在于,我们可以把Token的处理速度 Literally提高几千倍,而且还能更好的Scale 这个优化空间,现在已经不在桌面上了 [00:23:33]
Lukasz Kaiser:事实上,如果我们有足够的计算能力去训练RNN,我们相当确定它们会和Transformer一样强。我说的是按每个参数来算的能力,我看到Lucas好像不同意我的说法,所以我们必须走得更远。我们真的需要开始质疑自己对神经网络的所有假设,包括神经网络应该长什么样,以及应该怎样训练。比如在我公司里,我们正在看的一些最speculative的东西,我们甚至不确定他们原则上,能不能用backpropagation来训练,你真的应该去审视那些隐藏的假设,并且尝试做一些完全不同的事,这样才有可能跳出这个局部最优,我还想说另一点,我觉得作为研究者,作为一个社区,我们同时存在一种很奇怪的认知失调,一方面我们知道突破会到来,对吧,他们最终总会出现,但另一方面,你又会感觉他们不会来 [00:24:27]
Zuzanna Stamirowska:而且每次他们来了,你都会很惊讶,所以我觉得会发生的事情是 Lucas会一直是对的,直到那一天到来,然后从那以后他就永远错了,而那件事可能随时发生,对吧,也许某个人已经在某台电脑上想明白了,只是我们还没听说而已,但在我看来,如果你想找到下一个东西,就真的必须比当前这些架构的样子,走得远得多,谢谢,接下来是快问快答,我们现在会有三轮,每轮四分钟,我们会围绕具体话题提问,你们可以随意讨论,就像一起吃午饭一样,只不过现在你们是在拳击台上,没有世界级研究员,在本节目制作过程中受到伤害,好第一轮,快问快答智能的本质,谁想先来 Lucash 也许你先来,因为你好像知道什么是智能,当然我很早就对AI感兴趣 大概14岁的时候就是这样,这个问题一直反复出现,后来有一段时间,大家开始说,智能就是你在现实世界里做事,并得到你想要结果的能力,所以这基本上就是,我们现在常用的定义,但我不觉得这是一个,很好的智能定义,我觉得作为研究者,应该继续往更深处问,我对这个定义并不满意,但我们之所以,没有更好的智能定义,也正是同一个原因,比如Turing test这个东西,我们现在不太常谈,因为它有时会被,聊天这类东西带偏,原因是,只要你开始尝试定义智能,我们都会有一种感觉,我也有这种感觉,而且我觉得Lillian 这种感觉很强,作为研究者,我们知道这里面有某种很深的东西,我们还不了解,然后我换上工程师的帽子就会想,你需要把智能定义成,你能观察到的东西,也就是系统做了什么,而不是它本质上是什么,就像Circle的中文房间里说的那样 [00:26:10]
Lukasz Kaiser:智能不在你的生物基地里,你需要有某种可以被看见的东西,让你说这就是智能,一旦走到这一步你就会想,好那在当前硬件上,我能看到什么东西算是智能,那就是Transformer [00:27:04]
Zuzanna Stamirowska:如果可以的话,我想接着Lucas刚才说的智能这个话题讲,首先从听众的角度看,智能不是一个东西,不是一个产品,智能是一个过程,智能是信息处理的一部分,智能是一种做事的方式,我希望大家都知道产品和过程的区别,比如一辆Toyota汽车和Toyota的生产流程,智能是一个过程,是解决问题的过程,不是一辆车,不是不是,所以智能是一种做事方式,而一种做事方式可以从算法角度去看,也就是说某个算法正在运行,存在于我们的头脑中的某个地方,由某种计算过程正在发生并产生结果,它也可以用动态系统的视角来看,是一个不断演化的动态系统在产生结果,我开场提到PageRank不是巧合 PageRank是一个过程,它是一小块非常非常小的智能
Lukasz Kaiser:用来给信息建立索引,也就是说,你能在头脑里建立一个知识页面的索引 PageRank是一个过程,而智能就是若干个这样的过程,这些过程让我们不只是索引信息,还能有效地处理信息,所以我认为这个过程是可以被发现的,而且它仍然在等待被发现,因为Transformer并没有发现这个过程,我们是不是可以说对Transformer的这种执着,也许就像Lillian说的,本质上是把当下工程上的方便,误认为某种长期的科学真理,这样说准确吗,还是太过简化了 Tranformer是智能的一种体现,人类也是智能的一种体现,但真正通向智能的那个过程,也就是智能本身现在还没有被量化 Lucas 如果我今天问你 [00:28:11]
Zuzanna Stamirowska:你在Transformer里哪里看到了PageRank 你能指出来吗,因为你说你在里面看到了一个图书馆,那你看到PageRank在发生吗,没有我不太能看到PageRank 但我非常理解你的论点,而且我觉得它确实触及了核心 不过我们先继续,我觉得当前范式有一件事是对的,我们实际上落到了一个非常奇怪的智能定义上,你预测互联网上下一个词的能力有多强,在我看来智能就是压缩,你越能更好的压缩互联网,你就越智能,而且我认为到了下一个东西,我们仍然需要使用这个指标,没关系我们要继续这一轮吗,话题还是智能的本质,如果想继续就给点声音大一点,很好那我们继续,我觉得智能很难量化,这里有文化因素,不同文化可能对什么算,智能有不同看法,不过这里确实有很多,不同的东西在同时发生,比如压缩预测等等,所以我觉得并没有一个清楚的,唯一的定义,也许我的定义只是人类和其他材料 [00:29:12]
语言、推理与Benchmark
Zuzanna Stamirowska:也许我的定义只是人类和其他材料,或者和动物相比,到底有什么不同,但我觉得这也很主观,我有个问题 Transformer从根本上说是在处理语言,对吗,某种意义上是这样吧,它们最初是作为语言模型发展出来的,或者先假设它是为了思考
Lukasz Kaiser:它们处理的是序列,对,这说的对,但序列可以是蛋白质,也可以是图像或者声音,它最初的名字其实来自这样一个想法,我们想把任何数据转换成任何其他数据 [00:30:19]
Zuzanna Stamirowska:对吧,对,现在说到 reasoning 你们觉得language在 reasoning里处在什么位置 reasoning和我们现在做的language models之间,到底是什么关系,从intelligence的角度看又该怎么理解,我觉得language本身承载了intelligence 这也是这些模型这么成功的原因,但这也很好地说明了他们的短板,我们强迫他们用language来思考,可我们自己的某些心理过程,确实不是建立在language上的,所以这是post-transformer需要具备的东西,我想反驳一下
Lukasz Kaiser:就像我们刚才说的,它们是sequence models 不是language models 这些sequence可以表示别的东西,只是现在它们表示的是词,因为我们的pretraining是这样做的,但这不是transformer的错,比如最新模型里的transformer 能做视觉reasoning 因为他们处理的是图像,所以我不认为,他们的限制在于只能处理词,如果我说 reasoning和discovery 有关的那一部分 [00:31:17]
Zuzanna Stamirowska:也就是发现那些,从来没人说过的东西,可能更难用language表达,你会怎么回应,这当然可以表达,但会啰嗦得多,因为它以前没有被说出来过,就像写科学论文的那个时刻,对吧
Lukasz Kaiser:在你真正把它写出来之前的那一刻,你也知道我很认同这种立场,但你也要考虑到,有一个ERDUS问题,开放了60年,没有人类解出来,而大概一周前,被GPT-5.5解出来了,对吧,所以它以前从来没有,被用文字说成已经解决,也许你可以用,非文字的方式,更快解出来,但大家一说到这个,就想说vector 可接着他们又会用 8-bit精度,而8-bit精度里的vector 其实就是词,只是另一套系统里的词,但Transformer 其实不太在乎这一点,所以你能不能缩短 chain of thought 我相信可以,但我个人不觉得,这有那么关键,我觉得更关键的是,除了Transformer 我还有孩子,因为大家都跟我说,常reasoning很厉害,可我看我六岁的孩子,他们能想到,很了不起的地方,而且不会在 chain of thought上,花两个小时,如果说他们有什么,绝对不会做的事,那就是长时间reasoning 但他们能非常快地
Zuzanna Stamirowska:完成一些,更令人惊讶的事情,我还想说 Transformer对,并行硬件来说,非常并行,但大脑看起来,更并行也更快,所以也许它只是一个,更好的Transformer 第二轮来了 Scalability 还有大家最喜欢的话题 Scaling Laws Adrian Scale 还是万能钥匙吗,能不能Scale 仍然是这场讨论里,最重要的部分吗 Lylian 来吧,很遗憾,是的,有一个东西叫Bitter Lesson 它会让AI研究者生气,因为如果你想让系统表现更好,你有两个选择,一个是做有意思的事,比如改Architecture 改Hyperparameter 或者改数据和使用数据的方式,另一个选择是用10倍的computer和10倍的数据,然后你就赢了,所以Transformer真正成功的原因就是它的scalability 任何post Transformer都必须证明自己也能做到这一点,我只能说同意,我们训练小模型也训练大概相差两个数量级规模的模型,在各种不同architecture里都能看到很清楚的scaling loss [00:33:02]
Lukasz Kaiser:所以我觉得这很自然,你确实需要花compute 也特别需要storage 如果你想存下整个世界,存下整个互联网,那就需要memory 所以我觉得这就是为什么,我们仍然看到很强的scaling loss 也看到compute仍然是一条路,但我同意前面那个观点,大多数模型在text space里做reasoning 只是因为那里有数据可用,但那不是最高效的思考方式,我们知道不同模型有不同的scaling loss 我觉得确实有些模型看起来有更好的scaling loss 但没有那么适配硬件
Zuzanna Stamirowska:所以我没有理由认为外面不存在某种东西,拥有好得多的scaling loss 如果我们找到了它,那我们就只能转向它,我非常站在scaling这一边,要说的话 Transformer正是开启这个阵营的东西,刚才有人提到RNS 我觉得scaling不只是增加compute 有些模型scale的比其他模型差,而我认为这确实是模型本身的问题,如果真有scale的更好的模型,那就拿出来,好在现在有这么多data center在建设,你可以承担20倍的compute 但你承担不了50倍的compute 如果你已经跑过scaling curve的低端,那可能就没法用它来发布产品,但在研究测,你应该能够展示出来,如果你给我看一条曲线,它下降得比transformer更陡,那我可能就得承认,但至少到目前为止,我还没有看到一条足够有说服力的曲线,這個特性也讓我有點擔心 他們如果真的擅長scaling 而且現在又有hyperscaler 那就會變成這樣,人類當然不需要讀完整個互聯網,但Transformer這邊給出的答案,好像是我們可以拿整個互聯網來訓練 [00:35:26]
Lukasz Kaiser:那還有什麼問題,可是我覺得如果我們能找到更高效的東西,那肯定更好,不過我想提醒一下,可能會有一種架構數據效率更高,但scale不起來,那會是一個很可怕的架構,因為這意味著,我们可以在用更少数据学习这件事上取得很大进展,但它放大之后实际上还是打不过Transformer 那就有点可惜,我个人其实不认为情况会是这样,但这也不是完全不可能
Zuzanna Stamirowska:我想补充一点,因为前面说的内容基本很难反驳,但Transformer当初设定问题背景时,有一点我觉得我们应该重新看,就是各种scaling往往是绑在一起的,数据的scaling 模型大小的scaling computer scaling 都是一起变的,其他架构也许会用不同方式 scale把这些不同元素拆开,尤其是如果我们看小孩,小孩的scaling方式就不一样,只需要很少的training data 但可以被迫做大量compute 你甚至会看到五岁左右的国际象棋大师之类的情况,所以确实有可能设计出一些架构,不把不同类型的scaling绑在一起,另外借这个机会说一句,现在仍然有一些NICED场景 training data是有限的,有些科学领域是这样,甚至有些企业场景也是这样,数据有限而且没法再增加,所以真正的挑战是 [00:36:05]
Lukasz Kaiser:怎么在这些限制下处理问题,怎么把computer scale上去,同时不把其他东西也一起scale上去,好,那我们现在进入第三轮现实世界部署,可以从Matthias开始,我可以接上前面提到的,现实世界部署这个点,因为文本数据现在非常热门,但很多重要问题处理的是,其他类型的数据,比如蛋白质,基因序列,还有其他生物,医学信号等等,其中有些数据,不是全部,当然要看具体modality 但有些数据上,我们确实看到其他架构,比如recurrent neural network 在performance的scaling law上,表现很强,它们就是效果更好,我们也试过transformer 花了很多compute 但这些序列本身的形态里,似乎有某种内在因素
Zuzanna Stamirowska:让RNN的优势非常明显,同时对现实世界部署来说,正如我前面提到的,速度和硬件也非常重要,所以我觉得,至少从我们接下来几个月,几年会看到的情况来看,架构真的会和硬件一起演化,这件事在两个方向上,都有点遗憾,既有正面的方向,也有负面的方向,好现在我想问一个,关于benchmark的问题,因为这其实是人们试图展示AI真实影响的一种方式,对吧,他们会跑一个benchmark 那我们是不是就应该这样看进展,判断我们用AI是不是真的做得更好了 benchmark会不会误导我们,他们是绝对真理吗,你们怎么看,也许可以从这里开始,因为前面也提到过这个,目前看起来这是我们手里最好的办法,它确实像是在推动进展,但离理想状态还差得很远 [00:37:52]
Lukasz Kaiser:benchmark太容易被针对了,行业里有太强的动机去调这些模型,让他们通过这些benchmark 这不是说他们在作弊,而是说在这些benchmark上表现好,并不一定会转化成在其他地方也表现好,我觉得我们在coding model里就看到了这一点,所以benchmark很重要,但我们确实需要更好的benchmark 只是我也没有什么具体建议,对现场各位来说,更好的benchmark应该具备什么特性,当然如果我们已经知道它该怎么做 [00:38:47]
Zuzanna Stamirowska:肯定已经有人在做了,我在这里说一点Transformer论文,完成的时候,机器翻译里有一个标准指标,叫ViewScore 这个指标测起来有点麻烦,它们有一些老脚本之类的东西,我记得是Nom告诉我,别管这个了,直接看Perplexity 也就是下一个词的概率,这是一个非常好的指标,后来证明它好得多,而且在需要相关的时候,它确实能和效果相关,后来ViewScore变得不再重要,而当模型强到一定程度之后 Perplexity仍然有用,我觉得现在也是一样 OpenAI真正评测模型的方式,是看它在内部code base上的perplexity 我认为很多实验室也在这么做,而且它是大多数模型背后的核心benchmark [00:39:19]
Perplexity与最后陈述
Lukasz Kaiser:而且它是大多数模型背后的核心benchmark 当然你需要一个数据集,它不能出现在互联网上,哪里都不能出现,所以它一发布你就输了,对吧,它有同样的问题,但如果你有一个足够多样,足够好的holdout文本集,也许还需要图像蛋白质或者其他东西,那就直接看它上面的perplexity 这个指标真的很难被超越,它对应的是压缩这个想法,很难想象有哪个benchmark 会比它好得多,当然它也有一些小风险,我可以补充一点,比如在reasoning场景里,有时候你提升的是,某些极低频token的概率,但不管怎么说,这些风险都很小,它大概比我会推荐的,大多数benchmark都更好
Zuzanna Stamirowska:我也想说,我希望看到大家,重新去推动perplexity这个指标,这一组嘉宾真是重量级,这场对话太精彩了,世界上还有哪里能看到这样的讨论,在台上时时发生,这是在见证历史发生,别说是Sandra 在译本,在译本,现在到了最后陈述的时间,每个人都来陈述一下自己的立场,你们每个人有两分钟 [00:40:37]
Lukasz Kaiser:当然如果你们说短一点也没问题,每个人最后说几句,我们从Lucas开始,我觉得我至少在某种程度上承认这一点,首先我们应该开一家小公司里面,有一套保留的text和code数据集,然后向全世界每个实验室收一点费用,在这套数据上测Perplexity 这会成为终极Benchmark 老实说,我不知道为什么到现在还没人做这件事,但也许真的应该有人做,因为它可能会非常有用,另一点是你有这样一套不向外公开的Held Outset 你需要把它运营起来,也许做成一个API 然后你就可以针对它做优化,也许你拿自己最好的Agent来测,但不是为了找最好的架构,因为你总可以用更多数据去训练,而是为了找到最好的scaling curve 找到最好的斜率,也许这才是优化机器学习模型的方式,我想看到比Transformer更好的东西,就现在来说,我会说Transformer仍然赢了,但我觉得至少 如果我们能在metric上达成一致,那也是一种进展,哪怕这个metric有风险,只要风险很小,那就很好 [00:41:56]
Adrian Kosowski:能在一个metric上达成一致是好事,我觉得挑战确实存在,我觉得有一件事之前是隐含说出来的,但也许应该明确说出来 Transformer是一种针对硬件,针对Pretrain做优化的架构,这是高效Transformer背后的原始动机,也就是让训练变得高效,但我认为随着我们进入一个,越来越多时间花在Inference 越来越多时间花在Reasoning上的世界,一个很诚实的问题是,它在Reasoning时对硬件的使用,是否也仍然是终极架构,在这里你可以观察,它到底多有效的使用硬件 Reasoning case有多长,在不同use case里能走多远,所以我认为在这一点上,结论还没有出来,我仍然站在这样一个阵营里 Transformer不是最终答案,从它能做什么来看,它是一个终极答案,因为你可以用chain of thought 表达任何东西,也可以达到任何reasoning 但按照Transformer的方式做reasoning 不一定是对硬件最好的使用方式,所以如果让我下注下一次大突破会是什么,我会压在更高效更紧凑,在用更少硬件的 reasoning 上,好更高效更簡湊,這就是下一步 Matthias 你怎麼說,我只能重複一下我前面說過的觀點,我們兩邊都壓住,我們壓住 transformer 的改進,因為它能在現有硬件上工作,這一點我們剛才也討論過,同時我們也壓住 post-transformer 並且在這方面做很多研究,因為它同樣很快,而且還有剛才聽到的那些理由,比如大脑等等,所以首先,这其实是在某种程度上,对冲我们的下注,并且真正去探索所有可能性 我感觉Lucas的主要论点是 Transformer是最好的,但我的观点当然是,目前如此,今天我没有听到任何理由,能让我怀疑自己的信念,一定还有更好的东西 Transformer有太多事情做得不好,而人脑能做到的事情,也有太多是当前 state of the art做不到的,所以我想再强调一下breakthrough这一点,一方面突破每隔一段时间就会出现,它们出现时会让你惊讶,但它们确实会出现,我认为如果我们觉得从此以后 AI再也不会有任何breakthrough 那是很荒谬的,而当那件事发生时,我们就会稳稳地进入post-transformer世界,谢谢,太精彩了,这个收尾很棒,接下来我们进入观众提问,观众有问题可以提 Claire拿着麦克风,谁有问题请举手 Claire在递麦克风,或者是别人有人在递麦克风,太棒了,谢谢 我有两个问题,第一个是,硬件在这场讨论里,占了非常大的部分,我不太想用黑手党这个词,但感觉上,硬件层面好像只有一种做法,有一个瓶颈是你必须经过的,你可以提出各种漂亮的想法,在理论空间里,它们都很美妙,但到了真正要shift的时候,我们似乎都知道,有一条特定的隧道,是你必须穿过去的,所以我想问,如果我们仍然被困在当初,让Transformer迎来高光时刻的硬件里,我们要怎么走出Transformer 这是一个很重要的点,你基本上说的就是,硬件彩票Transformer 当时真的就是我们在说,哇现在有TPU了 [00:44:45]
Matthias Lechner:他们能做大规模举证惩罚,那我们怎么把它用到极致,也正是这个事实,让我们更困在现在这个局部最优劣,所以我觉得大家需要理解 Post Transformer的第一版,显然不会像Transformer一样,好大家得能接受这一点,它在现有硬件上训练可能会慢很多,但只要我们把它证明到一定程度,也许就能为它做新的硬件,让它跑得更快,在我的实验室里,最让我沮丧的一件事是,我们把论文送审的时候,经常要提醒审稿人,不,它不一定要打败 state of the art 它只要有意思就可以,我希望AI行业里,有更多人能接受这个事实,愿意去尝试不同的东西,看看会发生什么 而不是只把指标往上推,做一点点增量改动,我不想像打擂台一样,反驳这个观点 Lillian说,大规模矩阵惩罚,这一点完全正确,但她很方便地漏掉了MOX 第一代TPU是为服务RNN 做的硬件里,没有指数运算,所以Transformer第一次,拿来服务的时候,必须把attention的activation 卸载到CPU上做muff 然后再放回去,他们慢得要命,我想说的是,他们当时也必须跨过这个障碍 Cerebrus刚成立后不久,我去那里做过一次演讲,讲新的transformer架构,他们当时是在为,完全不同的东西做硬件 transformer根本不适配,他必须先证明自己足够好,硬件公司才会改变方向,现在八年过去了,他们已经能把它服务得非常快,不管post-transformer带来什么,它要跨过的门槛,不会只是好两倍,而是要好十倍,如果它是真的,它大概会做到,这个门槛的存在,其实是好事,不是坏事 [00:46:20]
Lukasz Kaiser:不然你可能会,现在一些确实有用,但只是小修小补的改进力,当你知道自己,必须跨过十倍这个门槛时,反而会把自己解放出来,去想更大的东西,然后我们现在有的硬件,也确实不一样了,是的,它可能不适合你的模型,但我现在有一台笔记本,速度已经和当年,我们开发Transformer时,用的8GPU机器一样快,如果你跑RN 它其实还会更快一点,因为它是单一的东西,内存访问更快,所以是的,你可能比Transformer慢50倍,但没人应该用那个门槛来卡你,如果你给我看一个模型,它只是稳定地慢50倍,但增长曲线更好,那你就赢了,我就必须认输,只要你证明了这一点,硬件就会跟上,因为我觉得大家明白 50倍这种常数因子,是可以被覆盖掉的,而且今年也会被覆盖掉,这对我来说非常新,也非常令人兴奋 Agent现在真的能写CUDI了,这很新,我必须承认 [00:47:15]
Zuzanna Stamirowska:我从来没学会写CUDI 我能写一点Triton 所以很多在GPU上,慢得很痛苦的东西,用一个好的Kernel就能解决,而这个Kernel 你现在不需要自己写了,你只要先写一个慢版本,然后告诉Agent一直写,直到测试通过,直到它给出同样的数字,这件事他们很擅长,他们不会骗你,所以我觉得,这缩小了硬件带来的问题,再加上现在同样价格,能买到好得多的硬件,我确实认为很多研究其实已经可以做了,我不觉得现在还可以把这个当成合理借口,说你不能在同样compute下打败transformer 是的,这个说法本身没错,但你可以找到一个模型,展示一条朝正确方向弯的曲线,我的意思是,我完全同意,但我的感觉是还没有足够多的AI研究者这么想,他们还没有觉得自己可以迈出这一步,把结果展示出来 我会和你一起上这个擂台去跟他们说,不要害怕慢50倍,不要害怕准确率,还不如Transformer 希望我们今天已经说服了几个人,那我们再来一个问题,谢谢你们的讨论,论点和观点都很精彩,我记得刚才某个时候,我们谈到了什么是智能,我同意智能是一个过程,但我从另一个角度看,觉得还有别的东西,我认为智能也是学习的能力,对Neural Network来说,学习就是重新调整网络,因为我们谈到人的智能时,总是把它和学习联系在一起,什么是学习,就是我们在改变自己的neural network连接,我会这样想,是因为我觉得本质上我们发明的东西,不管是transformer架构还是其他架构,都是在发明neural network 而neural network本质上是同一种方法,只是我们这里这些人是探机的,在这个房间里,我们有很多非常成功的neural network 也就是我们自己,而且你们也知道,我们这些neural network不是冻结的,它每一秒都在更新自己 [00:49:54]
连续学习与潜空间安全
Zuzanna Stamirowska:它每一秒都在更新自己,这不只对人类是真的,对自然界里的每一种生物也是真的,所以就算是昆虫或者更小的生物,也一直在更新它们的权重,但我觉得Transformer是先训练,然后冻结,再开始服务给所有人,你必须共享那些基础设施,但即使不共享,你也不能很好的做Inference 所以你们怎么看,如果我可以提供一个看法,也许算是一个提示,我不是说这是好的理解方式,只是说我自己会这样看,如果你想模仿人类学习的方式,你应该看Transformer里的In-Context Learning是怎么工作的,看Backpropagation那一套,也就是说你给一个Transformer一个新问题,一个新谜题,在Context里给它五个例子,然后看它怎么反应,这不是完美类比,但已经很好了,甚至可以在两者之间建立数学联系 所以我的想法是在理想世界里,智能就像是把in-context learning 延长到时间趋近于无穷,也就是让transformer像他在context里那样工作,但这个绘画是无限长的,他什么都不忘,而且会一路学到新技能,而不是重复实验室在pretraining里做的那些事,我明白你的意思,而且我觉得这其实支持我们这一边,因为我同意我们有标准的neural network 它们已经存在很久了,而且一开始设计出来就是静态权重,对吧,這就是他們最初的設計目標,現在2026年據說會是continual learning之年,我們應該要把這個問題解決掉,你聽說過這個嗎,但這感覺像是在打補丁,我們拿了一個從根上就是靜態權重的東西,然後說不行,現在怎麼在上面加點東西,讓它有動態權重 [00:50:54]
Lukasz Kaiser:我更想看到有人從零開始開發一種東西,它從設計之初就是動態權重的,那會更像post transformer 從我們這點來說 Transformer在forward pass里的activation 结果发现在pre-training一段时间之后,会做出某种非常接近 backward pass里 gradient descent的事情,在很多方面,我觉得这就是Adrian刚才暗示的东西,所以作为工程师,我其实会更希望这件事是显示的,也就是把静态权重的训练明确做出来,我以前有这个偏好,后来有人告诉我,大脑其实也有快神经元和慢神经元,所以也许我不该有这种偏好,我也不知道,不过我肯定希望的是,不管你做什么benchmark 比如perplexity的benchmark 都应该在非常长的context上跑,而不是用随机的东西,比如老数据集 LMEB 那种是句子级别的数据集,我最近还和别人争过翻译这件事,他说模型翻译的太差了,然后他们给模型的输入,是半句话让他翻译,是的,你要测试东西就得给他context 但100万个token 已经是很多token了 [00:51:55]
Zuzanna Stamirowska:比如哈利波特全套,大概是50万次,对吧,所以这已经很多了,当context只有一百个词的时候,那肯定不够,但当context已经这么长的时候,要不要在里面做gradient update 还是只做activation update 这就取决于你了,我不会说哪一个才是对的,但benchmark确实应该在哪里,我还想补充一点,有没有可能,其实就算是现在的transformer架构 [00:52:47]
Lukasz Kaiser:已经能解决99.9999%的问题了,而且已经相当不错了,不一定非要大幅改变架构,也可以通过系统和平台里的,某些组织方式,把问题解决掉,解决一个问题,不一定永远只有一种办法,对吧,所以我觉得,即使Transformer还在演进,它也已经能解决大多数问题,而且会继续针对,大多数使用场景做优化,很多场景还是会用Transformer 我同意Transformer不会消失,它太成功了,也太有用了,对吧,所以即使到了 Post Transformer的世界,人们也还是会使用Transformer 肯定会,不过你刚才说,不同模型解决不同问题,这确实可能是未来的一种形态,但它有点违背 Artificial General Intelligence的想法,对吧,我们在寻找的是某种,能够做到通用能力的东西,这是另一个哲学问题,对确实,不过我想说Lucas 你刚才最后那个点说得漂亮,我接受这个论证,而且我觉得Transformer里,有一点其实被低估了 Attention Weights 本身就是动态权重,它们不是固定的,对吧 [00:54:06]
Zuzanna Stamirowska:所以也许Transformer 确实在做某种,类似Continual Learning的事情,我想自己再补充一点,真正让我难受的是,你只能说也许,我们有数量进行的Benchmark 但我觉得没有一个Benchmark 是这样的,给你一段Context 我觉得十万个Token以内,就能放下,它定义一个问题,给你几个例子,然后有点像Few Shot Learning 但它要稍微复杂一点,让你能从Perplexity里看出来 In Context Learning算法,到底是不是真的,做了很多工作,因为我们没有真正的benchmark 能衡量你的in-context learning 到底有多好,我们会说好吧,我们知道它会发生,但它到底发生的好不好,就像碰一下很难说,你可以用后面答案的perplexity来衡量,但我们现在的常context benchmark 很多都是大海捞针,我的意思是这不需要学习,这更像是retrieval
Lukasz Kaiser:我觉得如果真缺什么,就是缺这个,因为在这里你可以用少得多的compute 证明一个post-transformer模型,占优势benchmark 现在的状态我同意,确实还没到它该有的水平,但这应该是可以修正的 [00:55:06]
Zuzanna Stamirowska:我觉得大家低估了Transformer里的in-context learning有多强,这让它非常难被打败,比如有一个很惊人的例子,如果你把表格数据用文本形式喂进去,让它做时间序列预测,虽然那是文本不是伏点数,它其实能把时间序列预测的相当不错,所以Transformer从pre-training里学到的这种in-context learning 一定在做一些比我们想象中更有意思的事情,我也想补充一下,这绝对是一个要点,而且是站在你这边的要点,不过这里有一个cavet 当然我们可以问,最终走向通用人工智能的答案时,到底需要100万token 10亿token 还是很多很多10亿token 但问题是context从哪里来,看benchmark的时候有一个很容易区分,也很值得注意的点,如果我们看的benchmark里 context来自直接塞进Transformer的数据,那是一回事 还有另一种情况 context来自这个Transformer 自己走过的生命路径,他学会拥有经验,经历过自己的错误,把自己的chain of thought内化了,这是第二种情况,我们人类做的就是这种事,对吧,我们拥有的context 不是我们从百科全书,或者图书馆里,从头到尾读过的那些东西,而是我们做过的事,我们采取过的行动,以及这些行动,带来的反应,只要我们到达这样一个阶段,在数百万Token的时间跨度里,有一种架构能够推理,更新自己的想法,建立工作假设,处理Dilemma 证明事情,检查事情,修正自己的观点,并且真的用这种方式,有效利用这些Context 那就会是最终答案,非常精彩的总结,还有什么要补充的吗,我觉得这个和我之前提到的点,有点相关,如果你围绕Transformer 来优化系统 [00:56:14]
Lukasz Kaiser:KVCash变得非常小,但如果你有一个RNN 它的state更大,我觉得它们会融合,它不会一直停留在这两个极端,未来我们一定会看到,这两种想法都会继续演化,太棒了,非常感谢各位先生参加这场 Transformer和Post Transformer之间的历史性对决,现在我们要决定,今晚谁会以冠军身份离开,既然我们热爱科学精确性,再来一个问题,抱歉我可以再问一个问题吗,谁要提问我想没关系,好的,我们刚才一直在谈context learning 把它类比成人类的连续学习,我想知道你们怎么看 final tuning 因为final tuning 也许没有context learning那么高效,但它比pretraining高效得多,所以它们之间该怎么比较,还有 [00:57:09]
Zuzanna Stamirowska:前面也有人提到 reasoning和laded space 我想知道,如果允许模型在Latent Space里推理,而不是在文本里推理,大家会不会担心,这会导致某种生存风险场景,我害怕 Latent Space 这个问题我可以回答,我担心的一点是,现在Chain of Thought在文本里,而且目前和模型实际做的事还算一致,但大家有点过于依赖这一点了,因为你有这些Token 每个Token也就是几个字节,然后在它们上面有Activations 有一层又一层,几十层,每层都是成千上万个浮点数,我们完全不知道里面发生了什么,所以当人们说Lated Space的时候,我理解他们想要的是一堆向量之类的东西,那也没问题,但在这些Token之上,本来就已经有大量Lated Space 只是因为Pre-training 他们现在还算中式,但也许有一天,你会看到模型说出同样的词,可里面的想法已经完全不同,而我不确定你能知道,所以我觉得我们不该自满,幸运的是,现在确实有一些工作在努力让他们保持忠实,但Transformer的activations里已经有大量Lated的东西了 这也许是一种wishful thinking 但Post-Transformer的世界可能会让我们更接近大脑真正工作的方式,最后也许会证明它反而更可解释,也更安全,我觉得我们已经有点超时了,我们准备收尾,最后要打分了,他们待会还会在这里,没错,大家之后还可以跟他们聊,待会儿聊我们这边也会准备些吃的,对就是现在,我们得先弄清楚谁赢了,没错,既然我们已经失去了科学上的精确性,你们的任务就是为自己支持的,一方疯狂欢呼,哪一边声音最大,哪一边就赢下这个称号,反正我们其实准备了四个奖杯,把噪音机放到屏幕上,准备好了吗,你们手里有设备,也知道怎么制造噪音 [00:59:13]
观众投票与收尾
Zuzanna Stamirowska:也知道怎么制造噪音,你们知道怎么制造噪音,我们先来一轮热身,听听大家的声音,这一轮不计分能再测一次吗,刚才那是一次很好的练习,很棒,练习轮很棒,你们确实很会制造噪音,太好了,现在为Transformer队欢呼吧,现在为Post Transformer队欢呼吧,制造点声音,对请大家来点声音,等一下,天啊,你要拿第一个奖杯吗,作为冠军,我们的工作就是把奖杯发给你们,好了剩下的也给你们