#568. Transformer辩论：如何理解下一代智能之争

完整转录稿

Podcast 跨国串门儿计划 2026-06-02 11:24

摘要

整体概括

这是一场围绕“Transformer vs Post Transformer”的现场辩论，真正争论的不是 Transformer 是否已经成功，而是它究竟只是一个高效的中间解，还是已经足够接近“智能本身”。Lukasz Kaiser 从工程与实用的角度为 Transformer 辩护，强调它不仅好用，而且在训练效率、可扩展性和硬件适配上都已经证明自己；Adrian Kosowski、Matthias Lechner、Llion Jones 和 Zuzanna Stamirowska 则不断把问题往更深处推：如果智能是一个过程，那么我们是否需要一种比 Transformer 更接近“过程本身”的架构，而不是继续给现有系统打补丁。整场辩论最后收束成一个比较清晰的共识：Transformer 不会消失，但它很可能只是通往下一代智能系统的过渡层。

主要内容

开场阶段先把争论包装成一场拳台式的思想对决。Lukasz 的核心立场是，Transformer 最重要的价值在于“它能工作”，而且工作得非常好。他把 Transformer 类比为一种记忆系统：输入被写入 key/value 存储，查询时再以 soft 的方式检索出来，因此它本质上并不是某种神秘结构，而是一个足够简单、足够可扩展的机制。对他来说，Transformer 的成功首先来自可扩展性，尤其是在硬件、数据和规模同时增长时，它拥有极强的工程优势。

与之相对，Adrian 把辩论从“模型优劣”拉回到“智能的定义”。他认为智能不是一个产品，而是一种过程；如果真要理解智能，就不该只看模型表面输出，而应该去发现智能背后的共同主题。为此他用了 PageRank 的隐喻：Google 的突破不是把已有方法修修补补，而是发现了信息索引背后的核心机制。按这个思路，Transformer 也是一种智能实现，但它还没有真正触及“智能过程”本身，因此 post-transformer 的目标不是增加更多零碎技巧，而是找到更直接、更完整的表达方式。

Matthias 从工程现实出发补充了另一层视角：世界不是静态的，硬件不是静态的，需求也不是静态的。对他来说，最合理的做法不是在“Transformer 还是 Post Transformer”之间二选一，而是尽可能从各种 building blocks 里组合出当下最强的模型。不同场景会需要不同组件，RNN、SSM、attention、convolution、Gated Linear Attention 等都可能成为更大工具箱的一部分。换句话说，未来的模型演化不是宗教式站队，而是按硬件、模态和任务需求不断重组。

围绕“语言与推理”的讨论，双方进一步拉开分歧。Zuzanna 认为语言承载了大量智能，但并不等于智能本身；很多人类的认知过程并不是建立在语言上的，所以如果未来的系统只会“在文本里想”，那很可能还没到真正的下一代。Lukasz 则强调，Transformer 本质上是 sequence model，而不是只限于语言的 language model，蛋白质、图像、声音都可以被看成序列。对他来说，当前系统的局限不在于“只能处理词”，而在于我们还没有把这些序列真正用到最合适的形式上。

争论继续转向 benchmark 和评测。几位嘉宾都认为，现有 benchmark 太容易被针对，指标一旦公开，模型就会朝着那个指标优化，但这不意味着它们真的在更广泛的任务里变强了。Perplexity 在讨论里被反复提起，因为它至少能较好地反映压缩能力和长上下文中的泛化能力。Zuzanna 和 Lukasz 都认为，真正有价值的 benchmark 应该是长上下文、少样本、甚至带有持续学习意味的任务，而不是短平快、容易被刷分的题目。

最后几轮讨论把焦点放到 continual learning、动态权重和 latent space 上。Zuzanna 认为人类和自然界的智能都在持续更新，而 Transformer 仍然更像先训练、后冻结的系统；Lukasz 则提醒，Transformer 的 activation 里已经存在大量 latent computation，未必像表面那样“静态”。双方最终都接受了一个相对温和的结论：未来最可能出现的不是彻底消灭 Transformer 的单一路线，而是某种动态、可持续、与硬件和模态共同演化的混合体系。

关键 takeaway

Transformer 的最大现实优势是可扩展性，而不是抽象上的优雅。
post-transformer 的真正目标，不是反 Transformer，而是寻找智能的更深层机制。
智能更像“过程”而不是“产品”，这决定了下一代架构不一定还是今天这种形态。
PageRank 的类比很重要：真正的突破常来自发现底层主题，而不是继续堆补丁。
语言和推理密切相关，但语言不等于智能本身。
benchmark 尤其是长上下文 perplexity，比短视、可刷分的测试更有价值。
硬件、数据、模态会持续改变模型设计，未来大概率是混合范式。
Transformer 不会消失，但它也未必是终点。

辩论开场与Transformer之争 [00:00:00 - 00:10:00]
智能过程与PageRank隐喻 [00:10:00 - 00:20:00]
规模化、硬件与现实部署 [00:20:00 - 00:30:00]
语言、推理与Benchmark [00:30:00 - 00:40:00]
Perplexity与最后陈述 [00:40:00 - 00:50:00]
连续学习与潜空间安全 [00:50:00 - 01:00:00]
观众投票与收尾 [01:00:00 - 01:00:30]

辩论开场与Transformer之争

Zuzanna Stamirowska：欢迎收听跨国串门计划。这是一档专注于让中文听众无障碍欣赏全球优质外语播客的节目。通过先进的AI声纹克隆技术,我们不仅将内容翻译成中文,还完美保留了原主持人和嘉宾的独特声音,为您呈现全球顶尖的AI财经健康与科技领域精品内容。我是主播一凯，一位热衷于AI领域的产品经理，很荣幸能为您搭建这座跨越语言障碍的桥梁，接下来让我为您简单介绍本期我们克隆的这档节目，并分享几句非常精彩的原话，本期我们克隆的是Pathway 在2026年5月19日更新的一期现场辩论节目，题目是Transformer vs Post Transformer 这是一场带着拳击赛形式的AI架构思想对决由Pathway CEO BDH架构共同创建者Zuzanna Stamiroska 主持嘉宾包括Transformer共同发明者Lucas Kaiser和Lalin Jones 以及Pathway的Adrian Kosovsky Liquid AI的Matthias Lechner 节目里有几句原话很有力量，这个疯狂简单的机器只是在一句话或者一段更长文本里预测下一个token 却能够和你聊天，现在还能写代码，点击你电脑上的窗口，我认为在智能这件事上，我们还没有迎来PageRank时刻，一个普通人并不需要，把互联网上的所有内容真的读好几遍，才能变得接近人类水平的智能，今天我没有听到任何理由，能让我怀疑自己的信念，一定还有更好的东西，那我们就一起进入这场，关于AI下一代架构的完整对话，华尔街日报碰巧在一个拟议改革时代的开端，发现了一份投诉，女士们先生们，欢迎来到今晚的主赛，七轮提问和讨论，登场的是AI领域最强，也最勇敢的大脑，这是一场重量级思想之战，我是Zuzana Stamiroska Pathway的CEO 也是BDH架构的共同创建者，今晚我们聚在这里，是要讨论点燃AI革命的，最深层结构 Transformers对阵Post Transformers 我们要讨论塑造，万亿美元市场的数学，也许还要讨论人类的未来，好了话不多说，请欢迎我们的参赛者，在紫色角，我们有三位挑战者，要挑战当前主流架构的冠军腰带，他们主张Dynamical Systems Latency Reasoning Continual Learning 以及在我们所知道的Attention之后，会出现的一切，接下来这位挑战者，要争夺主流架构的头衔，他是推理颠覆者，量子物理学家，理论计算机科学家也是Dragon-Hilling BDH架构的发明者 Pathway的CSO 现在在蓝色角，是现代AI的Raining Attention Champion 逻辑学家 Transformers的共同发明者 Transformers改变了一切，他也是ChatGPTO1的创建者，今晚我们来到这里，是要确定谁会赢Transformers 还是Post Transformers 谁会带来AI的下一个时代，好我们有一些规则，首先每位参赛者用五分钟，陈述自己的立场，支持Transformers或Post Transformers 没错然后进入反驳环节，每个人有三分钟回应对手的观点，反驳阶段有一点很重要，你们每个人都可以举起拳套，表示要提出一个信息点，或者发起一个挑战，正在发言的人，可以在自己方便的时候接受，接着我们进入短拳环节，还有三轮每轮四分钟 Susanna和我会向一位参赛者提问，其他人可以自由加入，场面会变得很混乱，然后我们会做一些简短的总结陈词，在开放点现场，各位提问，最后我们会用欢呼声来决定，谁会在今晚离开拳台，成为AI的冠军，各位参赛者，请到拳台中央站到Susanna身边，来吧抱歉，好各位请把拳套举起来，很好很好，现在为了AI冠军头衔，请给我打一场干净漂亮的比赛，遵守规则，用证据支撑你们的说法，现在碰拳玩得开心，好第一轮开始做开场陈述 [00:03:33]

Lukasz Kaiser：你可以到拳台中央或者去任何你想站的地方，非常感谢，谢谢邀请我来，也谢谢这场很棒的比赛，我今天是来谈Transformers的，这其实有点奇怪，因为发明某个东西的人，往往比别人更容易反对他，我曾经和Jeff Hinton 一起工作过一段时间，那时候他讨厌backprop 他会说你得找到更好的东西，这不可能是答案，大脑不是这样工作的 backpropagation的东西，不可能是最终方案，很多年里我对Transformers 也有同样的感觉，但Jeff Hinton后来，已经接受了backpropagation 也许也只是，也许现在也该接受Transformer了，对我来说这是一个巨大的惊喜，我想对Ralyn 以及很多其他人来说也是一样，这个疯狂简单的机器，只是在一句话或者一段更长文本里预测，下一个token却能够和你聊天，现在还能写代码点击你电脑上的窗口，而且很快会帮我们做很多工作，但它确实能工作它能工作这正是transformers 最关键的一点也是很多其他系统还做不到的地方，我最近又试了一次RNN 它们还是不太行，所以这是第一个非常重要的论点，另一个论点是，我是从RNN时代过来的，我很喜欢recurrent networks 所以我想把transformers看成一种memory 而不是一个attention network 如果你把transformer看成一种memory 它是怎么工作的，想象一下，你是互联网出现之前的一位图书管理员，书送到你这里，你得把它们放到书架上，然后还得用某种方式把它们找出来，有人会来问哪本书里有这个人，或者哪本书里有那个东西，你会怎么做，如果你去过还保留这种系统的图书馆，就会看到那些纸质卡片，卡片上写着这个和那个对应的是这本书，在那里，也许在这一页，所以你会写一个key 用来在卡片里搜索，然后写一个value 告诉你去哪里找，以及要找的东西是什么 Transformer本质上就是一个RNN 每当有新信息进来，它就写下一个key 放进自己的key store 然后写下需要取回的value 也放在那里，当问题来了，它就找到和这个问题最相似的key 然后把value给你，只不过它需要是differentiable的，所以是soft的，就是这样，它是一种极其简单，也非常基础的memory形式，它只是把进来的，所有东西拼接起来，长度不断变长，所以Transformer 是一个非常基础的东西，而且它就是必须能工作，对吧，它会记住一切，当然有人会说，也许它应该忘掉一些东西，现在Context变得太常识，它会忘掉一部分，会把内容压缩，这个你可以在上面再加 Reasoning也是一样，你不能总是在模型层里，完成所有Reasoning 你可能需要Chain of Thought 那就加上去参数不够，那就加MOE 但它简单漂亮，而且能用 [00:05:48]

Adrian Kosowski：所以这就是我为Transformer提出的论点，谢谢，好现在交给Adrian 谢谢，我会为Post-Transformer做论证，但最重要的是，我会为智能本身做论证，智能是一个很大的话题，我们都谈过 Artificial General Intelligence Super Intelligence等等，智能到底是什么，它是解决难题，处理难题的能力，尤其是处理你以前没见过的问题的能力，直到不久前，人类我们还认为自己是，当今地球上唯一的智能物种，但今天每一天，如果你看看正在发生什么，数以百万计的非常困难的问题，很多接近人类能力巅峰的问题，正在被两个智能物种解决，人类和Transformer 我在Post-Transformer阵营里，想说的是，这就是Post-Transformer的时刻，重点并不是说Transformer很差，也不是说Transformer不是智能的好例子重点是，我们已经有了几个智能的例子，那接下来该做什么?再造更多例子吗?这不是关键,关键是现在我们可以去发现智能背后的共同主题，每一种智能都有自己的短板 Lucas刚才提到了Transformer作为一种智能形式的优势 Transformer也有短板,比如Continue Learning的问题 Long Term Memory的问题,还有Lated Space里缺少Reasoning 除非用非常复杂的方式把它硬塞进去，这些都是Transformer的问题，那接下來會怎樣?未來會怎樣?我們會不會只是得到更多系統?在這裡補一塊,那裡補一塊，我覺得答案不是這樣 Lucas,你剛才用圖書館所引來解釋Transformer的記憶模型，我就從這個例子出發，回到90年代,當時有一個問題，它只是智能裡很小的一部分，那就是信息索引是90年代的一大挑戰，當時Web還很年輕 Altavista這樣的Web Search Engine已經出現了，我们已经有一些例子，后来有一家公司提出了一个大主题，一个数学方程，以及一种实现这个方程的方法，这个方程叫PageRank 以其中一位创始人命名，实现他的方法叫MapReduce 这家公司现在是世界上最大的软件公司，我不用说出他的名字，只是一种理解信息索引主题的方式，就改变了我们看到的世界，我认为在智能这件事上，我们还没有迎来PageRank时刻，智能系统背后的主题还没有被完全发现 Transformer是智能的一种形式，但如果我们发现了这个主题，理解了这个主题到底是什么，我们就能走得更远，在这里我们可以谈更好的reasoning 更好的memory 作为ABDH架构的创造者我们可以给你一点答案的线索，我们给出的答案是，这个主题的核心，在高维空间里做late reasoning的能力，同时结合state space model 和sequence processing的优势，所以我绝对不是说 transformer做错了什么，我只是说，有一种更完整，更直接的方式，可以实现这个主题，因此我为post-transformer做论证，是把它看作对智能主题的搜索，寻找那个能把我们带到，今天更远处的leitmotiv 这就是我的论点，或者我是不是理解错题了，谢谢，现在请Matthias Lechner发言，非常感谢，我想回答这个问题，我们在Liquid AI是怎么构建Foundation Model的 [00:09:20]

智能过程与PageRank隐喻

Matthias Lechner：我们在Liquid AI是怎么构建Foundation Model的，对我们来说，这不是Transformer还是Post-Transformer的问题，而是Transformer加Post-Transformer 我们设计模型是不是在真空里设计，而是会考虑硬件，使用场景和能力需求，所以作为研究者科学家和工程师，我喜欢尽可能多地使用各种Building Block 举个例子，我们有一个具备GPT三级别能力的语言模型，可以跑在Raspberry Pi上，速度大约是每秒 40个Token真的很快，我们是怎么做到的，不是只靠Transformer 也不是只靠Post Transformer 我们只是根据当下的需求能力和可用速度，把能用的东西都拿来用，所以每当DeepSeek推出新的Attention机制比如AMOLED Compressense Attention等等，我都会很高兴，每当有新的Pulse Transformer模型发布，不管是SSMs 新的Mamba Gated Linear Attention Convolutions 还是别的什么，我也都很高兴，因为这让我可以从更大的架构集合里挑选组件，我们这么做的原因是，我们并不是生活在一个静态世界里，我们生活在一个动态世界里，就像我前面说的，需求会变，我们对AI的期待也会变，同时研究本身也不是静态的，不是说我们今天停止研究，然后就必须做一个决定，不是这样，它是动态的，我们正在和agent一起工作，让他们发现新的layer 新的模型变体，所以我再说一次，未来这件事会加速，随着我们越来越接近通用人工智能这会发生而且从硬件角度看，我们也不是生活在一个静态世界里，就像我前面提到的，把模型部署在Respi上，和你能用到下一代 NVIDIA Vira Rubin Stack 是完全不同的情况，后者可能要消耗差不多一兆瓦的电力，所有这些背景都需要考虑进去，所以至少对我来说，或者说对Liquid来说，这真正意味着，我们希望从所有可能性里取材，去构建今天我们能做出的最好模型，谢谢，现在请最后一位辩手，也就是换边站的那位，谢谢，我觉得我得先承认我有点紧张，一部分原因是，这是我第一次参加这种类似辩论的活动，而且这个现场设置也特别奇怪，我紧张的第二个原因是，这些年我学到一个经验，如果Lucas Kaiser不同意你的观点 [00:11:47]

Llion Jones：那通常是一个很好的信号，说明你可能错了，所以现在看起来三对一好像不公平，但我其实不这么觉得，不过我还是会尽力，先说开场陈述，我先让一步，如果我站在Lucash的位置上，我觉得也许我会站在他那边，因为如果你想一想这个变题 Transformers 对Post Transformers 我应该先简单说一下，我理解这个变题到底是什么意思，他的意思是，我们已经结束了吗 Transformers 真的是最终答案吗，我们是不是只需要继续一点点改进它，继续扩大规模，然后就能达到人工超级智能这个目标，对OpenAI这样的公司来说，从经济角度看，专注于Transformers是合理的，他们现在可以说是世界上最强的，他们需要保持领先，所以他们不把钱投到寻找下一个方向上，而是继续打磨现在已经有效的东西，并守住自己的护城河这是说得通的，但对另一边的创业公司来说，我觉得把一些钱压在长期赌注上，真正花时间去寻找下一个东西会更合理，当然别忘了OpenAI曾经也处在那个位置，他们当时就是在寻找下一个东西，而且找到了，他们发现Transformers 比其他人想象的更适合Scaling 而且也因此做得非常成功，所以如果说我们不应该尝试做同样的事，那几乎有点虚伪，第二点，我觉得这归根结底取决于目标，我坦白说，我其实能理解这种看法，如果我们继续Scaling Transformers 也许真的能到达那里，也许我们真的会到达某个阶段，可以把某个东西称为人工超级智能，只是我有一个很强的直觉，还存在更好的东西，所以我现在看Transformers 当然它是一个非常优雅的架构，但我认为它本质上其实是Brute Force [00:13:36]

Adrian Kosowski：要让这些东西真正工作起来，我们需要的数据量和算力量都非常巨大，一个普通人并不需要把互联网上的所有内容，真的读好几遍，才能变得接近人类水平的智能，所以外面一定还有更好的东西，而且我觉得这不只是直觉，我们每个人这里都有一个proof of concept 那就是我们的大脑，我们的大脑能做transformers 做不到的事，我觉得这非常明显的说明，还有一个缺口需要我们填上，现在很多人也在投入大量努力，去填这个缺口，但在我看来，那些做法总是有点hacky 所以站在Lucas那边的人，可能会说，我们最近在reasoning上取得了成功，现在这些系统写代码也非常厉害，是的很厉害，但这难道不是一种hack吗 Transformers并不是原生会reasoning 我们必须在这些东西外面，手动套一个老派的AI Python程序 [00:14:29]

Zuzanna Stamirowska：才能把输出以正确方式再喂回去，如果Transformer真的像我们想象的那么强大，那它难道不应该能学会原生reasoning吗，所以这是我希望从下一代架构里看到的一件事，最后我用这一点收尾，我其实认为Transformer的成功，正在阻止我们找到下一个东西，人们在这个架构上投入了太多注意力，他太成功了，在他擅长的事情上也太好了，以至于我们现在真的卡在了一个局部最小值里，要找到下一个东西，必须有人去做非常不同的事，我最后一点是，任何站在Lucas那边的人，我认为在我们找到下一个东西的时候，都一定会被迫转到我们这边，因为到那时他们没有别的选择，谢谢，这太疯狂了，很精彩，太棒了，接下来进入反驳环节，这也是我最期待的部分，我们会按刚才同样的顺序来，每位参赛者都有三分钟回应 [00:15:23]

Lukasz Kaiser：其他人的开场陈述，以及其他人的反驳，这个环节比较特别，其他参赛者可以示意，我们就叫他一个信息点，或者一个争议点，如果你想插话，就举起你的拳套，要不要点你发言，由正在反驳的人决定，他也可以选择继续说，我们只有三分钟，所以节奏会很快，天哪，下一个是什么，太好了，没有更多台词了，我们把话筒交回给Lucas 听听你怎么看这些，我敢不敢叫他们论点呢，谢谢非常感谢，我觉得这些论点都很精彩，我对他们其实很有共鸣 [00:16:18]

Adrian Kosowski：但我也想把他们放到一个位置上，这也是为什么我一开始提到 Jeff Hinton和backpropagation 你知道把信息往回传，有很多比backpropagate更好的办法，你可以说backpropagation很brute force 但后来大家也找到了办法，比如实现一些loss 让他们穿过层，并且可以在更小的硬件上跑，这些年来，我已经听过太多次这个说法了，我们会在小硬件上用小语言模型, 可是我每次用任何AI都会选最好的模型, 配最高的thinking budget, 我觉得很多人也都是这样, 所以我认为这些说法在某种程度上都是真的, 但我确实相信AI的下一个阶段需要追求最智能的东西, 而某种recurrent architecture是一个竞争者, 我觉得他们非常漂亮, 但你也可以把transformer看成一种recurrent architecture, 只是它的memory非常简单, 这是一点, 所以你需要做出比这更好的东西, 我也非常同意Lelian的看法，感觉上人脑确实做了更好的事情，有一种方式也许能说明这一点，所以我上周其实把Transformer实现成了一个RNN 也实现了一堆旧的RNN用来做比较，一个很小的Giru 不知道你们还记不记得Giru 它是一种非常简单的RNN 在当前的NVIDIA硬件上，它跑起来比一个大得多的Transformer慢大约50倍，这很致命，因为如果真的有一个漂亮的RNN 你现在就需要多用大约100倍的时间，不是compute 而是wall time 如果按FLOP算，它实际用的compute 反而更少，但因为它是顺序执行的，所以现在跑的就是很慢，如果当初没有transformer 也许我们会有，能更快执行循环的硬件，这不是必然的，它是一种选择，当然，这里面也有一点内在因素，做并行硬件，比做非常顺序化的硬件，要容易得多，不过这些序列，也没有那么长所以我同意这一点，我们现在无论是解释人脑，还是匹配人类泛化的，数据效率和表现，都还差得很远，所以这里确实还有事情要做，但另一方面，如果我们看的是machine learning 而不是psychology 那感觉我们还没有这些方法，硬件似乎也还没到位，那我们怎么到达那里呢，这就是挑战，幸运的是这个挑战不是给我的，而是给我的post-transformer对手的，但也许只是也许，最后会是transformer找到答案，而不是你们，天哪，你刚才打中了太多拳，我本来中途想提出挑战但既然下一个就是，我说我就等会儿再回击两三下，先回应刚才那些权，你一口气提到的很多东西，比如recurrence和backpropagation 它们某种程度上是相互关联的，我个人觉得，穿过若干层做backpropagation 本身没有太大问题，至于为什么某些硬件，比如大脑可能做的backpropagation更少，也许只是因为它不知道怎么做，或者因为这很难，但如果你有能力做backpropagation 为什么不用呢 backpropagation在学习过程中其实好得惊人，但reasoning和learning是有区别的，当你在reasoning的时候，至少是在运行一个相当深的算法，你会经过很多步，无论这些步骤是通过chain of thought展开的，还是通过某个recurrent latent state来完成，他们都会在很长一段时间里展开 [00:19:08]

规模化、硬件与现实部署

Adrian Kosowski：他们都会在很长一段时间里展开，在reasoning的时候，你确实想要这种展开，另一方面，在learning的时候，如果你试图把gradient沿着所有这些步骤一路往回传，那就会变得一团糟，当gradient要沿着很长的路径往回走时，会发生很糟糕的事情，所以这也解释了为什么transformer是可持续的，它在depth和RNN之间做了某种折中，而RNN又和chain of thought等东西联系得很紧，我们相信这个折中可以稍微移动一下，去掉其中一个更大的限制，也就是必须产生很长的chain of thought 而且不能用thought本身来思考，因为transformer是用语言来思考的，他们不是用related thought来思考，他们会记住自己的想法，但他们是在语言里思考，所以这是一个挑战，而这个挑战的解法是存在的而且很漂亮，这就是我想说的，我们愿意接受这个挑战，所以谢谢Lucas把这个挑战抛出来，我们接下了，还有什么要说的，还有谁，我还有时间反击，如果你们现在给我45秒，我说完就交棒，关于硬件，我们现在这些架构，本来就能很自然的适配硬件 RNN不太适合矩阵乘法，这是RNN的问题，我们并不是在替RNN辩护，我们也不叫RNN俱乐部，我们叫后Transformer俱乐部，还有更好的东西，确实有更好的东西，能很好的跑，矩阵乘法，也能充分利用GM之类的能力，所以当然是可以传播的，还有一件事，我只剩6秒了 RNN的state太少，而大腦有很多State 所以大脑能工作 RNN不幸，谢谢，好一句反句，谢谢Adrian 接下来我们欢迎Matthias 谢谢我想提两点第一点还是刚才Lukasz提到的 Transformer和RNN之间的边界，其实很模糊，你可以想象，一个Transformer 有非常高效的KV Cache 比如每一步都很小，同时一个RNN 有非常巨大的State 比如几GB甚至更大，到了那个时候 Transformer和RNN之间的界线，就会变得非常模糊，所以这件事在某种程度上，就变成了哲学问题，那你会选哪一个，对没错这是第一点 Transformer 对吧，也许吧，第二点是你刚才提到的，如果叫Fast Waits可以吗 Fast Waits这个词不错，或者也可以叫别的Fast Waits 其实就是一种记忆存储，这个点很好，这又有点像RNN 前提是它在一个固定预算下运行，但更重要的是刚才也提到过几次，大脑不会因为你变老，就继续长大，对吧，所以从这个意义上说，它有一个固定的state 至少从里面包含的原子数量来看，是这样，也就是说，如果你想构建通用人工智能我们其实已经有了一个智能的实现形式，而且它是在固定State下实现的，当然这个固定State本身可以非常巨大，这就把我带回第一个问题，但考虑到Transformer现在取得的疯狂进展，以及Transformer为什么这么强，是因为现在我们有了所有这些agent 还有这些可以自主工作的东西，我相信他们会找到自己的替代品，所以我觉得也许不是我们会找到更好的架构，我当然希望是我们，但在最坏的情况下我也相信 Transformer会找到它自己的替代品，好我明白了，来自后Transformer队的右翼级重拳，最后收个尾，我们听听Lelian 我觉得我们开始讨论ONN这件事，本身就说明了我前面说的那个问题，我们被困在当前范式里了 Transformer的突破，我认为被严重误解了，大家看那篇论文会觉得，哇，他们只是把神经网络里，那些标准组件换了个位置，比如多层感知机 Attention Residual 主点激活，然后碰巧找到了一个，效果很好的架构，所以其他研究者似乎会觉得，只要我继续重新排列这些组件，我就能发现下一个东西，不你不会的，别这么做了，正如Lucas提到的，真正的突破，在硬件突破在于，我们可以把Token的处理速度 Literally提高几千倍，而且还能更好的Scale 这个优化空间，现在已经不在桌面上了 [00:23:33]

Lukasz Kaiser：事实上,如果我们有足够的计算能力去训练RNN,我们相当确定它们会和Transformer一样强。我说的是按每个参数来算的能力,我看到Lucas好像不同意我的说法,所以我们必须走得更远。我们真的需要开始质疑自己对神经网络的所有假设,包括神经网络应该长什么样,以及应该怎样训练。比如在我公司里，我们正在看的一些最speculative的东西，我们甚至不确定他们原则上，能不能用backpropagation来训练，你真的应该去审视那些隐藏的假设，并且尝试做一些完全不同的事，这样才有可能跳出这个局部最优，我还想说另一点，我觉得作为研究者，作为一个社区，我们同时存在一种很奇怪的认知失调，一方面我们知道突破会到来，对吧，他们最终总会出现，但另一方面，你又会感觉他们不会来 [00:24:27]

Zuzanna Stamirowska：而且每次他们来了，你都会很惊讶，所以我觉得会发生的事情是 Lucas会一直是对的，直到那一天到来，然后从那以后他就永远错了，而那件事可能随时发生，对吧，也许某个人已经在某台电脑上想明白了，只是我们还没听说而已，但在我看来，如果你想找到下一个东西，就真的必须比当前这些架构的样子，走得远得多，谢谢，接下来是快问快答，我们现在会有三轮，每轮四分钟，我们会围绕具体话题提问，你们可以随意讨论，就像一起吃午饭一样，只不过现在你们是在拳击台上，没有世界级研究员，在本节目制作过程中受到伤害，好第一轮，快问快答智能的本质，谁想先来 Lucash 也许你先来，因为你好像知道什么是智能，当然我很早就对AI感兴趣大概14岁的时候就是这样，这个问题一直反复出现，后来有一段时间，大家开始说，智能就是你在现实世界里做事，并得到你想要结果的能力，所以这基本上就是，我们现在常用的定义，但我不觉得这是一个，很好的智能定义，我觉得作为研究者，应该继续往更深处问，我对这个定义并不满意，但我们之所以，没有更好的智能定义，也正是同一个原因，比如Turing test这个东西，我们现在不太常谈，因为它有时会被，聊天这类东西带偏，原因是，只要你开始尝试定义智能，我们都会有一种感觉，我也有这种感觉，而且我觉得Lillian 这种感觉很强，作为研究者，我们知道这里面有某种很深的东西，我们还不了解，然后我换上工程师的帽子就会想，你需要把智能定义成，你能观察到的东西，也就是系统做了什么，而不是它本质上是什么，就像Circle的中文房间里说的那样 [00:26:10]

Lukasz Kaiser：智能不在你的生物基地里，你需要有某种可以被看见的东西，让你说这就是智能，一旦走到这一步你就会想，好那在当前硬件上，我能看到什么东西算是智能，那就是Transformer [00:27:04]

Zuzanna Stamirowska：如果可以的话，我想接着Lucas刚才说的智能这个话题讲，首先从听众的角度看，智能不是一个东西，不是一个产品，智能是一个过程，智能是信息处理的一部分，智能是一种做事的方式，我希望大家都知道产品和过程的区别，比如一辆Toyota汽车和Toyota的生产流程，智能是一个过程，是解决问题的过程，不是一辆车，不是不是，所以智能是一种做事方式，而一种做事方式可以从算法角度去看，也就是说某个算法正在运行，存在于我们的头脑中的某个地方，由某种计算过程正在发生并产生结果，它也可以用动态系统的视角来看，是一个不断演化的动态系统在产生结果，我开场提到PageRank不是巧合 PageRank是一个过程，它是一小块非常非常小的智能

Lukasz Kaiser：用来给信息建立索引，也就是说，你能在头脑里建立一个知识页面的索引 PageRank是一个过程，而智能就是若干个这样的过程，这些过程让我们不只是索引信息，还能有效地处理信息，所以我认为这个过程是可以被发现的，而且它仍然在等待被发现，因为Transformer并没有发现这个过程，我们是不是可以说对Transformer的这种执着，也许就像Lillian说的，本质上是把当下工程上的方便，误认为某种长期的科学真理，这样说准确吗，还是太过简化了 Tranformer是智能的一种体现，人类也是智能的一种体现，但真正通向智能的那个过程，也就是智能本身现在还没有被量化 Lucas 如果我今天问你 [00:28:11]

Zuzanna Stamirowska：你在Transformer里哪里看到了PageRank 你能指出来吗，因为你说你在里面看到了一个图书馆，那你看到PageRank在发生吗，没有我不太能看到PageRank 但我非常理解你的论点，而且我觉得它确实触及了核心不过我们先继续，我觉得当前范式有一件事是对的，我们实际上落到了一个非常奇怪的智能定义上，你预测互联网上下一个词的能力有多强，在我看来智能就是压缩，你越能更好的压缩互联网，你就越智能，而且我认为到了下一个东西，我们仍然需要使用这个指标，没关系我们要继续这一轮吗，话题还是智能的本质，如果想继续就给点声音大一点，很好那我们继续，我觉得智能很难量化，这里有文化因素，不同文化可能对什么算，智能有不同看法，不过这里确实有很多，不同的东西在同时发生，比如压缩预测等等，所以我觉得并没有一个清楚的，唯一的定义，也许我的定义只是人类和其他材料 [00:29:12]

语言、推理与Benchmark

Zuzanna Stamirowska：也许我的定义只是人类和其他材料，或者和动物相比，到底有什么不同，但我觉得这也很主观，我有个问题 Transformer从根本上说是在处理语言，对吗，某种意义上是这样吧，它们最初是作为语言模型发展出来的，或者先假设它是为了思考

Lukasz Kaiser：它们处理的是序列，对，这说的对，但序列可以是蛋白质，也可以是图像或者声音，它最初的名字其实来自这样一个想法，我们想把任何数据转换成任何其他数据 [00:30:19]

Zuzanna Stamirowska：对吧，对，现在说到 reasoning 你们觉得language在 reasoning里处在什么位置 reasoning和我们现在做的language models之间，到底是什么关系，从intelligence的角度看又该怎么理解，我觉得language本身承载了intelligence 这也是这些模型这么成功的原因，但这也很好地说明了他们的短板，我们强迫他们用language来思考，可我们自己的某些心理过程，确实不是建立在language上的，所以这是post-transformer需要具备的东西，我想反驳一下

Lukasz Kaiser：就像我们刚才说的，它们是sequence models 不是language models 这些sequence可以表示别的东西，只是现在它们表示的是词，因为我们的pretraining是这样做的，但这不是transformer的错，比如最新模型里的transformer 能做视觉reasoning 因为他们处理的是图像，所以我不认为，他们的限制在于只能处理词，如果我说 reasoning和discovery 有关的那一部分 [00:31:17]

Zuzanna Stamirowska：也就是发现那些，从来没人说过的东西，可能更难用language表达，你会怎么回应，这当然可以表达，但会啰嗦得多，因为它以前没有被说出来过，就像写科学论文的那个时刻，对吧

Lukasz Kaiser：在你真正把它写出来之前的那一刻，你也知道我很认同这种立场，但你也要考虑到，有一个ERDUS问题，开放了60年，没有人类解出来，而大概一周前，被GPT-5.5解出来了，对吧，所以它以前从来没有，被用文字说成已经解决，也许你可以用，非文字的方式，更快解出来，但大家一说到这个，就想说vector 可接着他们又会用 8-bit精度，而8-bit精度里的vector 其实就是词，只是另一套系统里的词，但Transformer 其实不太在乎这一点，所以你能不能缩短 chain of thought 我相信可以，但我个人不觉得，这有那么关键，我觉得更关键的是，除了Transformer 我还有孩子，因为大家都跟我说，常reasoning很厉害，可我看我六岁的孩子，他们能想到，很了不起的地方，而且不会在 chain of thought上，花两个小时，如果说他们有什么，绝对不会做的事，那就是长时间reasoning 但他们能非常快地

Zuzanna Stamirowska：完成一些，更令人惊讶的事情，我还想说 Transformer对，并行硬件来说，非常并行，但大脑看起来，更并行也更快，所以也许它只是一个，更好的Transformer 第二轮来了 Scalability 还有大家最喜欢的话题 Scaling Laws Adrian Scale 还是万能钥匙吗，能不能Scale 仍然是这场讨论里，最重要的部分吗 Lylian 来吧，很遗憾，是的，有一个东西叫Bitter Lesson 它会让AI研究者生气，因为如果你想让系统表现更好，你有两个选择，一个是做有意思的事，比如改Architecture 改Hyperparameter 或者改数据和使用数据的方式，另一个选择是用10倍的computer和10倍的数据，然后你就赢了，所以Transformer真正成功的原因就是它的scalability 任何post Transformer都必须证明自己也能做到这一点，我只能说同意，我们训练小模型也训练大概相差两个数量级规模的模型，在各种不同architecture里都能看到很清楚的scaling loss [00:33:02]

Lukasz Kaiser：所以我觉得这很自然，你确实需要花compute 也特别需要storage 如果你想存下整个世界，存下整个互联网，那就需要memory 所以我觉得这就是为什么，我们仍然看到很强的scaling loss 也看到compute仍然是一条路，但我同意前面那个观点，大多数模型在text space里做reasoning 只是因为那里有数据可用，但那不是最高效的思考方式，我们知道不同模型有不同的scaling loss 我觉得确实有些模型看起来有更好的scaling loss 但没有那么适配硬件

Zuzanna Stamirowska：所以我没有理由认为外面不存在某种东西，拥有好得多的scaling loss 如果我们找到了它，那我们就只能转向它，我非常站在scaling这一边，要说的话 Transformer正是开启这个阵营的东西，刚才有人提到RNS 我觉得scaling不只是增加compute 有些模型scale的比其他模型差，而我认为这确实是模型本身的问题，如果真有scale的更好的模型，那就拿出来，好在现在有这么多data center在建设，你可以承担20倍的compute 但你承担不了50倍的compute 如果你已经跑过scaling curve的低端，那可能就没法用它来发布产品，但在研究测，你应该能够展示出来，如果你给我看一条曲线，它下降得比transformer更陡，那我可能就得承认，但至少到目前为止，我还没有看到一条足够有说服力的曲线，這個特性也讓我有點擔心他們如果真的擅長scaling 而且現在又有hyperscaler 那就會變成這樣，人類當然不需要讀完整個互聯網，但Transformer這邊給出的答案，好像是我們可以拿整個互聯網來訓練 [00:35:26]

Lukasz Kaiser：那還有什麼問題，可是我覺得如果我們能找到更高效的東西，那肯定更好，不過我想提醒一下，可能會有一種架構數據效率更高，但scale不起來，那會是一個很可怕的架構，因為這意味著，我们可以在用更少数据学习这件事上取得很大进展，但它放大之后实际上还是打不过Transformer 那就有点可惜，我个人其实不认为情况会是这样，但这也不是完全不可能

Zuzanna Stamirowska：我想补充一点，因为前面说的内容基本很难反驳，但Transformer当初设定问题背景时，有一点我觉得我们应该重新看，就是各种scaling往往是绑在一起的，数据的scaling 模型大小的scaling computer scaling 都是一起变的，其他架构也许会用不同方式 scale把这些不同元素拆开，尤其是如果我们看小孩，小孩的scaling方式就不一样，只需要很少的training data 但可以被迫做大量compute 你甚至会看到五岁左右的国际象棋大师之类的情况，所以确实有可能设计出一些架构，不把不同类型的scaling绑在一起，另外借这个机会说一句，现在仍然有一些NICED场景 training data是有限的，有些科学领域是这样，甚至有些企业场景也是这样，数据有限而且没法再增加，所以真正的挑战是 [00:36:05]

Lukasz Kaiser：怎么在这些限制下处理问题，怎么把computer scale上去，同时不把其他东西也一起scale上去，好，那我们现在进入第三轮现实世界部署，可以从Matthias开始，我可以接上前面提到的，现实世界部署这个点，因为文本数据现在非常热门，但很多重要问题处理的是，其他类型的数据，比如蛋白质，基因序列，还有其他生物，医学信号等等，其中有些数据，不是全部，当然要看具体modality 但有些数据上，我们确实看到其他架构，比如recurrent neural network 在performance的scaling law上，表现很强，它们就是效果更好，我们也试过transformer 花了很多compute 但这些序列本身的形态里，似乎有某种内在因素

Zuzanna Stamirowska：让RNN的优势非常明显，同时对现实世界部署来说，正如我前面提到的，速度和硬件也非常重要，所以我觉得，至少从我们接下来几个月，几年会看到的情况来看，架构真的会和硬件一起演化，这件事在两个方向上，都有点遗憾，既有正面的方向，也有负面的方向，好现在我想问一个，关于benchmark的问题，因为这其实是人们试图展示AI真实影响的一种方式，对吧，他们会跑一个benchmark 那我们是不是就应该这样看进展，判断我们用AI是不是真的做得更好了 benchmark会不会误导我们，他们是绝对真理吗，你们怎么看，也许可以从这里开始，因为前面也提到过这个，目前看起来这是我们手里最好的办法，它确实像是在推动进展，但离理想状态还差得很远 [00:37:52]

Lukasz Kaiser：benchmark太容易被针对了，行业里有太强的动机去调这些模型，让他们通过这些benchmark 这不是说他们在作弊，而是说在这些benchmark上表现好，并不一定会转化成在其他地方也表现好，我觉得我们在coding model里就看到了这一点，所以benchmark很重要，但我们确实需要更好的benchmark 只是我也没有什么具体建议，对现场各位来说，更好的benchmark应该具备什么特性，当然如果我们已经知道它该怎么做 [00:38:47]

Zuzanna Stamirowska：肯定已经有人在做了，我在这里说一点Transformer论文，完成的时候，机器翻译里有一个标准指标，叫ViewScore 这个指标测起来有点麻烦，它们有一些老脚本之类的东西，我记得是Nom告诉我，别管这个了，直接看Perplexity 也就是下一个词的概率，这是一个非常好的指标，后来证明它好得多，而且在需要相关的时候，它确实能和效果相关，后来ViewScore变得不再重要，而当模型强到一定程度之后 Perplexity仍然有用，我觉得现在也是一样 OpenAI真正评测模型的方式，是看它在内部code base上的perplexity 我认为很多实验室也在这么做，而且它是大多数模型背后的核心benchmark [00:39:19]

Perplexity与最后陈述

Lukasz Kaiser：而且它是大多数模型背后的核心benchmark 当然你需要一个数据集，它不能出现在互联网上，哪里都不能出现，所以它一发布你就输了，对吧，它有同样的问题，但如果你有一个足够多样，足够好的holdout文本集，也许还需要图像蛋白质或者其他东西，那就直接看它上面的perplexity 这个指标真的很难被超越，它对应的是压缩这个想法，很难想象有哪个benchmark 会比它好得多，当然它也有一些小风险，我可以补充一点，比如在reasoning场景里，有时候你提升的是，某些极低频token的概率，但不管怎么说，这些风险都很小，它大概比我会推荐的，大多数benchmark都更好

Zuzanna Stamirowska：我也想说，我希望看到大家，重新去推动perplexity这个指标，这一组嘉宾真是重量级，这场对话太精彩了，世界上还有哪里能看到这样的讨论，在台上时时发生，这是在见证历史发生，别说是Sandra 在译本，在译本，现在到了最后陈述的时间，每个人都来陈述一下自己的立场，你们每个人有两分钟 [00:40:37]

Lukasz Kaiser：当然如果你们说短一点也没问题，每个人最后说几句，我们从Lucas开始，我觉得我至少在某种程度上承认这一点，首先我们应该开一家小公司里面，有一套保留的text和code数据集，然后向全世界每个实验室收一点费用，在这套数据上测Perplexity 这会成为终极Benchmark 老实说，我不知道为什么到现在还没人做这件事，但也许真的应该有人做，因为它可能会非常有用，另一点是你有这样一套不向外公开的Held Outset 你需要把它运营起来，也许做成一个API 然后你就可以针对它做优化，也许你拿自己最好的Agent来测，但不是为了找最好的架构，因为你总可以用更多数据去训练，而是为了找到最好的scaling curve 找到最好的斜率，也许这才是优化机器学习模型的方式，我想看到比Transformer更好的东西，就现在来说，我会说Transformer仍然赢了，但我觉得至少如果我们能在metric上达成一致，那也是一种进展，哪怕这个metric有风险，只要风险很小，那就很好 [00:41:56]

Adrian Kosowski：能在一个metric上达成一致是好事，我觉得挑战确实存在，我觉得有一件事之前是隐含说出来的，但也许应该明确说出来 Transformer是一种针对硬件，针对Pretrain做优化的架构，这是高效Transformer背后的原始动机，也就是让训练变得高效，但我认为随着我们进入一个，越来越多时间花在Inference 越来越多时间花在Reasoning上的世界，一个很诚实的问题是，它在Reasoning时对硬件的使用，是否也仍然是终极架构，在这里你可以观察，它到底多有效的使用硬件 Reasoning case有多长，在不同use case里能走多远，所以我认为在这一点上，结论还没有出来，我仍然站在这样一个阵营里 Transformer不是最终答案，从它能做什么来看，它是一个终极答案，因为你可以用chain of thought 表达任何东西，也可以达到任何reasoning 但按照Transformer的方式做reasoning 不一定是对硬件最好的使用方式，所以如果让我下注下一次大突破会是什么，我会压在更高效更紧凑，在用更少硬件的 reasoning 上，好更高效更簡湊，這就是下一步 Matthias 你怎麼說，我只能重複一下我前面說過的觀點，我們兩邊都壓住，我們壓住 transformer 的改進，因為它能在現有硬件上工作，這一點我們剛才也討論過，同時我們也壓住 post-transformer 並且在這方面做很多研究，因為它同樣很快，而且還有剛才聽到的那些理由，比如大脑等等，所以首先，这其实是在某种程度上，对冲我们的下注，并且真正去探索所有可能性我感觉Lucas的主要论点是 Transformer是最好的，但我的观点当然是，目前如此，今天我没有听到任何理由，能让我怀疑自己的信念，一定还有更好的东西 Transformer有太多事情做得不好，而人脑能做到的事情，也有太多是当前 state of the art做不到的，所以我想再强调一下breakthrough这一点，一方面突破每隔一段时间就会出现，它们出现时会让你惊讶，但它们确实会出现，我认为如果我们觉得从此以后 AI再也不会有任何breakthrough 那是很荒谬的，而当那件事发生时，我们就会稳稳地进入post-transformer世界，谢谢，太精彩了，这个收尾很棒，接下来我们进入观众提问，观众有问题可以提 Claire拿着麦克风，谁有问题请举手 Claire在递麦克风，或者是别人有人在递麦克风，太棒了，谢谢我有两个问题，第一个是，硬件在这场讨论里，占了非常大的部分，我不太想用黑手党这个词，但感觉上，硬件层面好像只有一种做法，有一个瓶颈是你必须经过的，你可以提出各种漂亮的想法，在理论空间里，它们都很美妙，但到了真正要shift的时候，我们似乎都知道，有一条特定的隧道，是你必须穿过去的，所以我想问，如果我们仍然被困在当初，让Transformer迎来高光时刻的硬件里，我们要怎么走出Transformer 这是一个很重要的点，你基本上说的就是，硬件彩票Transformer 当时真的就是我们在说，哇现在有TPU了 [00:44:45]

Matthias Lechner：他们能做大规模举证惩罚，那我们怎么把它用到极致，也正是这个事实，让我们更困在现在这个局部最优劣，所以我觉得大家需要理解 Post Transformer的第一版，显然不会像Transformer一样，好大家得能接受这一点，它在现有硬件上训练可能会慢很多，但只要我们把它证明到一定程度，也许就能为它做新的硬件，让它跑得更快，在我的实验室里，最让我沮丧的一件事是，我们把论文送审的时候，经常要提醒审稿人，不，它不一定要打败 state of the art 它只要有意思就可以，我希望AI行业里，有更多人能接受这个事实，愿意去尝试不同的东西，看看会发生什么而不是只把指标往上推，做一点点增量改动，我不想像打擂台一样，反驳这个观点 Lillian说，大规模矩阵惩罚，这一点完全正确，但她很方便地漏掉了MOX 第一代TPU是为服务RNN 做的硬件里，没有指数运算，所以Transformer第一次，拿来服务的时候，必须把attention的activation 卸载到CPU上做muff 然后再放回去，他们慢得要命，我想说的是，他们当时也必须跨过这个障碍 Cerebrus刚成立后不久，我去那里做过一次演讲，讲新的transformer架构，他们当时是在为，完全不同的东西做硬件 transformer根本不适配，他必须先证明自己足够好，硬件公司才会改变方向，现在八年过去了，他们已经能把它服务得非常快，不管post-transformer带来什么，它要跨过的门槛，不会只是好两倍，而是要好十倍，如果它是真的，它大概会做到，这个门槛的存在，其实是好事，不是坏事 [00:46:20]

Lukasz Kaiser：不然你可能会，现在一些确实有用，但只是小修小补的改进力，当你知道自己，必须跨过十倍这个门槛时，反而会把自己解放出来，去想更大的东西，然后我们现在有的硬件，也确实不一样了，是的，它可能不适合你的模型，但我现在有一台笔记本，速度已经和当年，我们开发Transformer时，用的8GPU机器一样快，如果你跑RN 它其实还会更快一点，因为它是单一的东西，内存访问更快，所以是的，你可能比Transformer慢50倍，但没人应该用那个门槛来卡你，如果你给我看一个模型，它只是稳定地慢50倍，但增长曲线更好，那你就赢了，我就必须认输，只要你证明了这一点，硬件就会跟上，因为我觉得大家明白 50倍这种常数因子，是可以被覆盖掉的，而且今年也会被覆盖掉，这对我来说非常新，也非常令人兴奋 Agent现在真的能写CUDI了，这很新，我必须承认 [00:47:15]

Zuzanna Stamirowska：我从来没学会写CUDI 我能写一点Triton 所以很多在GPU上，慢得很痛苦的东西，用一个好的Kernel就能解决，而这个Kernel 你现在不需要自己写了，你只要先写一个慢版本，然后告诉Agent一直写，直到测试通过，直到它给出同样的数字，这件事他们很擅长，他们不会骗你，所以我觉得，这缩小了硬件带来的问题，再加上现在同样价格，能买到好得多的硬件，我确实认为很多研究其实已经可以做了，我不觉得现在还可以把这个当成合理借口，说你不能在同样compute下打败transformer 是的，这个说法本身没错，但你可以找到一个模型，展示一条朝正确方向弯的曲线，我的意思是，我完全同意，但我的感觉是还没有足够多的AI研究者这么想，他们还没有觉得自己可以迈出这一步，把结果展示出来我会和你一起上这个擂台去跟他们说，不要害怕慢50倍，不要害怕准确率，还不如Transformer 希望我们今天已经说服了几个人，那我们再来一个问题，谢谢你们的讨论，论点和观点都很精彩，我记得刚才某个时候，我们谈到了什么是智能，我同意智能是一个过程，但我从另一个角度看，觉得还有别的东西，我认为智能也是学习的能力，对Neural Network来说，学习就是重新调整网络，因为我们谈到人的智能时，总是把它和学习联系在一起，什么是学习，就是我们在改变自己的neural network连接，我会这样想，是因为我觉得本质上我们发明的东西，不管是transformer架构还是其他架构，都是在发明neural network 而neural network本质上是同一种方法，只是我们这里这些人是探机的，在这个房间里，我们有很多非常成功的neural network 也就是我们自己，而且你们也知道，我们这些neural network不是冻结的，它每一秒都在更新自己 [00:49:54]

连续学习与潜空间安全

Zuzanna Stamirowska：它每一秒都在更新自己，这不只对人类是真的，对自然界里的每一种生物也是真的，所以就算是昆虫或者更小的生物，也一直在更新它们的权重，但我觉得Transformer是先训练，然后冻结，再开始服务给所有人，你必须共享那些基础设施，但即使不共享，你也不能很好的做Inference 所以你们怎么看，如果我可以提供一个看法，也许算是一个提示，我不是说这是好的理解方式，只是说我自己会这样看，如果你想模仿人类学习的方式，你应该看Transformer里的In-Context Learning是怎么工作的，看Backpropagation那一套，也就是说你给一个Transformer一个新问题，一个新谜题，在Context里给它五个例子，然后看它怎么反应，这不是完美类比，但已经很好了，甚至可以在两者之间建立数学联系所以我的想法是在理想世界里，智能就像是把in-context learning 延长到时间趋近于无穷，也就是让transformer像他在context里那样工作，但这个绘画是无限长的，他什么都不忘，而且会一路学到新技能，而不是重复实验室在pretraining里做的那些事，我明白你的意思，而且我觉得这其实支持我们这一边，因为我同意我们有标准的neural network 它们已经存在很久了，而且一开始设计出来就是静态权重，对吧，這就是他們最初的設計目標，現在2026年據說會是continual learning之年，我們應該要把這個問題解決掉，你聽說過這個嗎，但這感覺像是在打補丁，我們拿了一個從根上就是靜態權重的東西，然後說不行，現在怎麼在上面加點東西，讓它有動態權重 [00:50:54]

Lukasz Kaiser：我更想看到有人從零開始開發一種東西，它從設計之初就是動態權重的，那會更像post transformer 從我們這點來說 Transformer在forward pass里的activation 结果发现在pre-training一段时间之后，会做出某种非常接近 backward pass里 gradient descent的事情，在很多方面，我觉得这就是Adrian刚才暗示的东西，所以作为工程师，我其实会更希望这件事是显示的，也就是把静态权重的训练明确做出来，我以前有这个偏好，后来有人告诉我，大脑其实也有快神经元和慢神经元，所以也许我不该有这种偏好，我也不知道，不过我肯定希望的是，不管你做什么benchmark 比如perplexity的benchmark 都应该在非常长的context上跑，而不是用随机的东西，比如老数据集 LMEB 那种是句子级别的数据集，我最近还和别人争过翻译这件事，他说模型翻译的太差了，然后他们给模型的输入，是半句话让他翻译，是的，你要测试东西就得给他context 但100万个token 已经是很多token了 [00:51:55]

Zuzanna Stamirowska：比如哈利波特全套，大概是50万次，对吧，所以这已经很多了，当context只有一百个词的时候，那肯定不够，但当context已经这么长的时候，要不要在里面做gradient update 还是只做activation update 这就取决于你了，我不会说哪一个才是对的，但benchmark确实应该在哪里，我还想补充一点，有没有可能，其实就算是现在的transformer架构 [00:52:47]

Lukasz Kaiser：已经能解决99.9999%的问题了，而且已经相当不错了，不一定非要大幅改变架构，也可以通过系统和平台里的，某些组织方式，把问题解决掉，解决一个问题，不一定永远只有一种办法，对吧，所以我觉得，即使Transformer还在演进，它也已经能解决大多数问题，而且会继续针对，大多数使用场景做优化，很多场景还是会用Transformer 我同意Transformer不会消失，它太成功了，也太有用了，对吧，所以即使到了 Post Transformer的世界，人们也还是会使用Transformer 肯定会，不过你刚才说，不同模型解决不同问题，这确实可能是未来的一种形态，但它有点违背 Artificial General Intelligence的想法，对吧，我们在寻找的是某种，能够做到通用能力的东西，这是另一个哲学问题，对确实，不过我想说Lucas 你刚才最后那个点说得漂亮，我接受这个论证，而且我觉得Transformer里，有一点其实被低估了 Attention Weights 本身就是动态权重，它们不是固定的，对吧 [00:54:06]

Zuzanna Stamirowska：所以也许Transformer 确实在做某种，类似Continual Learning的事情，我想自己再补充一点，真正让我难受的是，你只能说也许，我们有数量进行的Benchmark 但我觉得没有一个Benchmark 是这样的，给你一段Context 我觉得十万个Token以内，就能放下，它定义一个问题，给你几个例子，然后有点像Few Shot Learning 但它要稍微复杂一点，让你能从Perplexity里看出来 In Context Learning算法，到底是不是真的，做了很多工作，因为我们没有真正的benchmark 能衡量你的in-context learning 到底有多好，我们会说好吧，我们知道它会发生，但它到底发生的好不好，就像碰一下很难说，你可以用后面答案的perplexity来衡量，但我们现在的常context benchmark 很多都是大海捞针，我的意思是这不需要学习，这更像是retrieval

Lukasz Kaiser：我觉得如果真缺什么，就是缺这个，因为在这里你可以用少得多的compute 证明一个post-transformer模型，占优势benchmark 现在的状态我同意，确实还没到它该有的水平，但这应该是可以修正的 [00:55:06]

Zuzanna Stamirowska：我觉得大家低估了Transformer里的in-context learning有多强，这让它非常难被打败，比如有一个很惊人的例子，如果你把表格数据用文本形式喂进去，让它做时间序列预测，虽然那是文本不是伏点数，它其实能把时间序列预测的相当不错，所以Transformer从pre-training里学到的这种in-context learning 一定在做一些比我们想象中更有意思的事情，我也想补充一下，这绝对是一个要点，而且是站在你这边的要点，不过这里有一个cavet 当然我们可以问，最终走向通用人工智能的答案时，到底需要100万token 10亿token 还是很多很多10亿token 但问题是context从哪里来，看benchmark的时候有一个很容易区分，也很值得注意的点，如果我们看的benchmark里 context来自直接塞进Transformer的数据，那是一回事还有另一种情况 context来自这个Transformer 自己走过的生命路径，他学会拥有经验，经历过自己的错误，把自己的chain of thought内化了，这是第二种情况，我们人类做的就是这种事，对吧，我们拥有的context 不是我们从百科全书，或者图书馆里，从头到尾读过的那些东西，而是我们做过的事，我们采取过的行动，以及这些行动，带来的反应，只要我们到达这样一个阶段，在数百万Token的时间跨度里，有一种架构能够推理，更新自己的想法，建立工作假设，处理Dilemma 证明事情，检查事情，修正自己的观点，并且真的用这种方式，有效利用这些Context 那就会是最终答案，非常精彩的总结，还有什么要补充的吗，我觉得这个和我之前提到的点，有点相关，如果你围绕Transformer 来优化系统 [00:56:14]

Lukasz Kaiser：KVCash变得非常小，但如果你有一个RNN 它的state更大，我觉得它们会融合，它不会一直停留在这两个极端，未来我们一定会看到，这两种想法都会继续演化，太棒了，非常感谢各位先生参加这场 Transformer和Post Transformer之间的历史性对决，现在我们要决定，今晚谁会以冠军身份离开，既然我们热爱科学精确性，再来一个问题，抱歉我可以再问一个问题吗，谁要提问我想没关系，好的，我们刚才一直在谈context learning 把它类比成人类的连续学习，我想知道你们怎么看 final tuning 因为final tuning 也许没有context learning那么高效，但它比pretraining高效得多，所以它们之间该怎么比较，还有 [00:57:09]

Zuzanna Stamirowska：前面也有人提到 reasoning和laded space 我想知道，如果允许模型在Latent Space里推理，而不是在文本里推理，大家会不会担心，这会导致某种生存风险场景，我害怕 Latent Space 这个问题我可以回答，我担心的一点是，现在Chain of Thought在文本里，而且目前和模型实际做的事还算一致，但大家有点过于依赖这一点了，因为你有这些Token 每个Token也就是几个字节，然后在它们上面有Activations 有一层又一层，几十层，每层都是成千上万个浮点数，我们完全不知道里面发生了什么，所以当人们说Lated Space的时候，我理解他们想要的是一堆向量之类的东西，那也没问题，但在这些Token之上，本来就已经有大量Lated Space 只是因为Pre-training 他们现在还算中式，但也许有一天，你会看到模型说出同样的词，可里面的想法已经完全不同，而我不确定你能知道，所以我觉得我们不该自满，幸运的是，现在确实有一些工作在努力让他们保持忠实，但Transformer的activations里已经有大量Lated的东西了这也许是一种wishful thinking 但Post-Transformer的世界可能会让我们更接近大脑真正工作的方式，最后也许会证明它反而更可解释,也更安全，我觉得我们已经有点超时了，我们准备收尾，最后要打分了，他们待会还会在这里，没错,大家之后还可以跟他们聊，待会儿聊我们这边也会准备些吃的，对就是现在，我们得先弄清楚谁赢了，没错，既然我们已经失去了科学上的精确性，你们的任务就是为自己支持的，一方疯狂欢呼，哪一边声音最大，哪一边就赢下这个称号，反正我们其实准备了四个奖杯，把噪音机放到屏幕上，准备好了吗，你们手里有设备，也知道怎么制造噪音 [00:59:13]

观众投票与收尾

Zuzanna Stamirowska：也知道怎么制造噪音，你们知道怎么制造噪音，我们先来一轮热身，听听大家的声音，这一轮不计分能再测一次吗，刚才那是一次很好的练习，很棒，练习轮很棒，你们确实很会制造噪音，太好了，现在为Transformer队欢呼吧，现在为Post Transformer队欢呼吧，制造点声音，对请大家来点声音，等一下，天啊，你要拿第一个奖杯吗，作为冠军，我们的工作就是把奖杯发给你们，好了剩下的也给你们

返回该播客打开原文