#552. AI进展为何突然变得真实：详解 GPT 5.5、强化学习与模型最后一公里

完整转录稿

Podcast 跨国串门儿计划 2026-05-25 03:29

摘要

整体概括

这期播客围绕 GPT 5.5、后训练、强化学习、模型评测和 AI 应用的“最后一公里”展开。对话的核心判断是：AI 能力并不是凭空突然跃迁，而是在持续进步中跨过了可靠性和可用性的门槛，因此用户在 coding、agent、知识工作等场景里开始感到“突然变真实”。真正的变化不只是模型更聪明，而是模型开始能在更接近真实世界的任务里稳定产生价值。

主要内容

节目首先解释为什么近几个月 AI 进展给人一种加速感。对话中认为，底层能力大多是连续提升的，但产品体验会呈现阶跃变化：当模型不够可靠时，用户不会把真实工作交给它；一旦可靠性跨过某条线，它就会从“有趣工具”变成“可托付的生产力”。对 agent 模型来说，如果每两分钟都有一定概率出错，任务运行越久，整体失败率越高。因此，降低模型在连续执行过程中的小错误概率，是让 agent 真正可用的关键。

围绕 GPT 5.5，节目强调它的重要性不只是能力变强，也包括效率提升和组织层面的整合。模型效率不是单看每个 token 的速度，而是 token 数、推理时间、服务延迟和最终性能之间的整体关系。AI research 可以让模型用更少 token 达到同样或更好的效果，inference engineering 则把这些 token 更快地服务出来。最终用户真正感受到的是：同样任务更快、更稳、更能完成。嘉宾还解释，前沿模型通常由纵向团队和横向团队共同推进：纵向团队优化 coding、computer use、知识工作、科学研究等具体场景；横向团队负责 instruction following、function calling、thinking time、memory 等通用能力，并把不同改进整合进最终模型。

关于 reasoning，节目把 2026 年的进展和早期 O1 系列做了区分。早期 reasoning 模型主要证明了“模型思考越久，答对概率越高”，但场景集中在数学和编程竞赛这类可验证任务中。现在的关键变化，是把为 verifiable rewards 打造的工具迁移到更混乱的真实世界任务里。真实工作往往没有唯一答案，输入也不完整，用户真正关心的是结果有没有用。Pro 模式代表增加 test-time compute：让模型花更长时间换取更高正确率，适合不在乎延迟、只追求正确率的场景；效率优化则像把“延迟-性能”曲线整体左移，用更少时间达到同等表现。

节目中段梳理了 pre-training、mid-training 和 post-training 的分工。Pre-training 让模型从海量数据中学习世界知识；mid-training 会给高质量数据或更接近目标模型行为的数据更高权重；post-training 则把“知道很多”的模型变成“对用户有用、可交互”的模型。SFT 更像行为克隆，能模仿人类给出的理想答案，但上限受示范数据和标注者能力限制。Reinforcement learning 则通过 reward 优化，让模型不只是复制已有答案，而是有机会超过当前示范水平。

强化学习的难点在于规模、基础设施和结果归因。它的高层流程看似简单：采样很多答案，判断哪些更好，再强化好的行为；但在 agent 系统里，一个 rollout 可能很长，只有最后才知道结果成败，这使得很难判断具体哪一步导致成功或失败。对话中提到，GRPO 在开源世界受到关注，是因为它相对简单，并且看起来能随 compute 扩展。节目也指出，机器学习常见的发展路径是先靠直觉和手艺试出有效做法，再逐步科学化。

在泛化和幻觉问题上，节目提出一个重要区分：模型能力更多按“横向技能”泛化，而不是按表面领域泛化。数学竞赛和编程竞赛都定义清楚、信息完整、答案可验证，所以二者之间能相互促进；但真实世界的金融、咨询、法律、医疗任务需要理解模糊需求、查找外部资源、整合材料，并判断自己不知道什么，这些能力不会自动从竞赛能力中出现。幻觉也可能与 SFT 有关：如果模型不知道某篇论文，但训练答案要求它引用那篇论文，行为克隆可能反而训练模型“像知道一样”输出。好的强化学习流程应当更容易惩罚不知道却乱答的行为。

节目后半部分讨论评测、Model as Judge 和 continuous learning。随着任务越来越开放，评测变得更难：过去可以检查一个具体 bug 是否修好，现在用户可能要求模型做完整网站、处理企业流程或完成开放式研究，而这些任务没有唯一最优答案。与此同时，模型在某些维度上已经超过多数人类评估者，使高质量评测本身变成稀缺资源。Model as Judge 因此很重要，因为更强模型可以成为其他模型的老师和裁判，帮助训练、评估和改进模型，形成能力飞轮。

Continuous learning 仍是一个未解决问题。模型进入公司第一天时可能比许多新员工更有用，但人类会随着时间学习公司内部知识、流程和偏好；如果模型不能持续吸收环境知识，它的长期价值曲线可能变平。企业内部 memory 又涉及权限、隐私和共享边界，因此不只是一个单纯的模型能力问题。

最后，对话回到 harness 和应用机会。嘉宾对通用 harness 的长期价值保持克制，因为基础模型能力会持续变化，今天有效的通用外壳未来可能需要重调。但针对具体垂直目标的 harness 仍然有价值，例如把某个业务场景的可靠性从 80% 提到 85%。真正的护城河往往在最后一公里：让模型访问正确的数据、权限、connectors、上下文和业务流程。外部公司和创业者仍有空间，重点不是复制基础模型能力，而是把已有模型能力转化为具体行业里的可用生产力。

关键 takeaway

AI 进展看起来突然，是因为可靠性跨过门槛后，产品体验会呈现阶跃变化。
GPT 5.5 的重要性不仅在能力，也在效率、整合和真实场景可用性。
强化学习正在从数学、编程竞赛走向真实世界任务。
Post-training 的本质，是把“知道很多”的模型变成“对用户有用”的模型。
真实世界任务的难点在于模糊需求、外部资源、开放式评估和长期执行可靠性。
Model as Judge 可能成为训练和评估中的重要能力飞轮。
Continuous learning 仍未真正解决，企业记忆、权限和隐私是关键障碍。
应用层机会仍集中在最后一公里，而不是基础智能本身。

可靠性跨过门槛 [00:00:00 - 00:10:00]
Frontiers团队与模型效率 [00:10:00 - 00:20:00]
预训练、中训与后训练 [00:20:00 - 00:30:00]
强化学习如何进入真实世界 [00:30:00 - 00:40:00]
泛化、幻觉与能力边界 [00:40:00 - 00:50:00]
评测、Model as Judge 与连续学习 [00:50:00 - 01:00:00]
Harness、应用空间与最后一公里 [01:00:00 - 01:04:29]

可靠性跨过门槛

# #552. AI进展为何突然变得真实：详解 GPT 5.5、强化学习与模型最后一公里

欢迎收听跨国串门计划。这是一档专注于让中文听众无

一凯：欢迎收听跨国串门计划。这是一档专注于让中文听众无障碍欣赏全球优质外语播客的节目。通过先进的AI声纹克隆技术,我们不仅将内容翻译成中文,还完美保留了语言主持人和嘉宾的独特声音,为您呈现全球顶尖的AI、财经、健康与科技领域精品内容。我是主播一凯，一位热衷于AI领域的产品经理，很荣幸能为您搭建这座跨越语言障碍的桥梁，接下来让我为您简单介绍本期我们克隆的这档节目，并分享几句非常精彩的原话，本期我们克隆的是MAD Podcast的一期科技深度访谈主持人MetaTurk 长期关注数据AI和创业生态，这期嘉宾Yan Dubois 是OpenAI Post-Training Frontiers团队的共同负责人参与过GPT-5.5OS和GPT for Thinking等前沿模型的打造，在加入OpenAI之前，他也曾在斯坦福参与Stanford Alpaca项目，节目里有几句原话，很值得先听一听，你需要达到某个可靠性水平，才能真正让这些AI工具有用起来，所以我们从竞赛场景，走到了真正对用户有用的场景，这就是我们现在正在感受到的变化，它的核心就是把一个了解世界上各种知识的东西，变成一个对人有用的东西，我觉得大多数时候真正的护城河在最后一公里，这些话背后有很多关于AI前沿模型，如何被训练评估和落地的细节，那我们就一起来听听这期完整对话

Matt Turk：你需要达到这样的可靠性水平，才能真正让这些AI工具有用起来，我觉得至少在OpenAI 我们大概是在去年12月跨过了这条线，现在我们可以信任这些模型，让他们承担我们正在做的很多工作，过去几个月确实挺疯狂的，我们从竞赛场景，走到了真正对用户有用的场景，这就是我们现在正在感受到的变化，我觉得大多数时候拼紧都在最后一公里，不同垂直领域里，这最后一公里永远还有很多空间，我也非常鼓励大家继续在这方面努力，大家好，我是Matt Turk 欢迎收听MAD Podcast 今天的嘉宾是Yann Dubois 他在OpenAI共同负责Post Training Frontiers团队，最近发布的GPT 5.5是AI领域又一个重要里程碑 Yann的团队参与打造了它，也参与了OpenAI之前的顶级Reasoning模型，包括OC和GPT-5 Thinking 在加入OpenAI之前 Yan在斯坦福工作，她共同参与了 Stanford Alpaca 这个标志性项目，推动了现代Post-Training 研究社区的很多发展，在这次对话里，我们会深入聊聊GPT-5.5 到底新在哪里，为什么Reinforcement Learning 正在从数学和编程竞赛，走向更混乱的，真实世界工作，为什么AI进展，有时会像突然跃迁一样以及为什么在ChatGPT出现三年后 Continual Learning仍然是 AI里一个重要的未解难题，希望大家喜欢这次，和Yan Dubois的精彩对话。Yan 你好欢迎。 [00:02:18]

Yann Dubois：你好 Matt 谢谢邀请我来，过去几周 Frontier AI世界又很疯狂 GPT 5.5发布了 Cloud Mythos Preview也发布了，所以感觉我们好像又解锁了，一次进展上的跃迁，尤其是在网络安全和agent coding方面，站在你的角度应该怎么理解这件事？

Matt Turk：事情是在加速吗，到底发生了什么，过去几个月确实挺疯狂的，我们内部也非常明显地感受到了这一点，我觉得任何在写代码和代码打交道的人，现在基本都能感受到，我觉得这主要有三个原因，第一个是，在我看来，进展其实一直是相当连续的，但你需要达到某个可靠性水平，才能真正让这些AI工具，又用起来，我觉得至少在OpenAI 我们大概是在去年12月，跨过了这条线，那时我觉得，我们真的跨过了那个门槛，现在我们可以信任这些模型，让它们承担，我们正在做的很多工作，所以它感觉像是一次 step function 像突然跳上了一个台阶，但我认为，从能力本身来看，其实进展是相当连续的，这是第一点，第二个原因是，一旦你开始有了非常强的模型你自己也会被加速，尤其是在写代码这件事上，因为我们内部所有人都写代码，这些模型会加速，你一方面，他们可以帮助训练其他模型，另一方面，他们也可以帮我们搭建研究人员，做工作所需要的tooling 我觉得所有这些加速叠加起来，就意味着我们看到，过去几个月的速度越来越快，第三点是，我觉得我们现在感受到的是，去年一整年，我们都在围绕这些reasoning模型，构建也非常用力的推进reinforcement learning 一开始我们有O1 甚至是O1 preview OC 这些模型仍然主要针对我们所说的 verifiable rewards来优化，也就是那些我们真的能拿到ground truth的任务，也就是说很容易测试你的答案，到底对不对，比如数学题或者编程竞赛，就是这样的情况，我觉得我们现在意识到的是我们可以把为这些verifiable reward场景打造的很多工具，拿到更一般的真实使用场景里，用来做reinforcement learning 我觉得这就是为什么我们现在，在真实世界写代码里会感受到这种变化，而不只是竞赛里，所以我们从竞赛场景 [00:04:38]

Yann Dubois：走到了真正对用户有用的场景，这就是我们现在正在感受到的变化，明白很有意思，我们接下来会展开了很多内容，尤其是RL这一块，先说你提到的第一点，可靠性，你说的可靠性是工程问题吗，是模型问题吗，一个模型到底怎样才算可靠，这里面什么都有一点，但总体来说，因为这些是agent模型，如果你把它想成 [00:05:52]

Matt Turk：每两分钟都有一定概率会出错，那它运行的越久，最后答案出错的概率就越高，所以这其实是 agent模型里内在存在的东西，我们一直在重点推进的一件事，就是确保模型每运行两分钟，出错概率都能降下来，这只是从模型角度来说，当然在应用侧，也有很多可靠性方面的工作 OpenAI的团队，在这方面做得非常出色

Yann Dubois：但我这里甚至只是在说，我们模型本身的可靠性，也就是确保，我们基本上能降低，它出错的概率，很好，所以GPT 5.5之前叫Spud 刚才也提到了，它是一次很重要的发布，现在也是很重要的产品，我很好奇，从内部看，你们最自豪的是什么，你们觉得最有挑战的是什么，给我们讲讲你们发布踏实的感受 [00:06:44]

Matt Turk：说实话我们都对，无变辅非常兴奋，这是那种全公司，每个人都深度参与打造的模型，我觉得我们现在，真的能感受到这一点，无变辅，给我们带来了很多关注，而且感觉像是，天时地利都对上了，这种情况并不总是会发生，对这次发布来说，它就是一个很棒的模型，所以我们确实能感受到这种情绪，大家一开始非常兴奋，后来又没那么兴奋了，我们最终发布了它，外部反馈也很好，这是因为5.5引起了很多关注，好像所有条件都刚好配合上了，这种事并不总是发生，这次它就是一个非常适合的模型，所以我们确实有这种感觉，我们会经历一波情绪起伏，大家一开始很兴奋，后来又没那么兴奋，最后发布出去，外部的人很满意 [00:07:12]

Yann Dubois：这个过程一般要多久，包括这种兴奋感上下波动的过程，我猜这取决于具体发布，也取决于每次发布的重要性

Matt Turk：但大概是几周还是几个月，这真的要看情况，我不能具体讲 5.5里面到底做了什么，但它确实取决于很多因素，其中一个因素是模型训练，流水线里的哪一部分，在训练，我们有不同的子团队，包括pre-training 也有mid-training阶段，还有post-training 通常你越接近产品 post-training是最后一段，迭代周期就越快

Yann Dubois：如果你更靠上游，迭代周期就更慢，所以范围，可能从几个月到两天，基本就是这样 Farponf 在agentic coding computer use knowledge work 和早期科学研究方面，特别强，你们内部是怎么做的，是不是不同的人，分别负责这些不同部分，你们怎么得到这样的结果，我们确实有不同团队 [00:08:40]

Matt Turk：专门做特定use case 并且推动这些use case的能力，提升我自己的团队，具体来说，是把所有这些纵向改进拿过来，尽量整合进最终模型的团队，你可以把它理解成一个，同时做平滑函数的团队，也就是说你有很多改进，但你需要确保模型，不要显得太尖锐，不要在不同vertical上，表现得像完全不同的东西，同时也需要有团队去做横向改进，我的团队基本上就在做这个，比如instruction following function calling 或者思考模型，在不同问题上应该想多久，这些都是很横向的能力，会影响所有这些use case 所以我们既有更纵向的团队，也有更横向的团队，两类团队对提升模型都非常重要，好的一点是这些事情，某种程度上可以彼此独立地改进，你可能有多个不同团队，在做某些vertical [00:09:05]

Frontiers团队与模型效率

# #552. AI进展为何突然变得真实：详解 GPT 5.5、强化学习与模型最后一公里

在做某些vertical

Matt Turk：在做某些vertical 某个模型的最后一次打run里，也许只有其中一半团队的成果，被整合进去了，并提升了模型在这些能力上的表现，到下一个模型，也许就是另一半团队的成果，被整合进去，从高层来看，基本就是这样运作的，还有一件事，因为你也问到，我们对这个模型最自豪的地方，我会说有两点，第一是模型的效率，我们真的大幅提升了模型效率，现在大多数任务用这个模型，基本上可以快两倍完成，这很棒，第二点我前面也提到过，就是整个公司的对齐，确保每个人都朝着同一个目标努力，这真的需要整个公司，都围绕同一个北极星，在特定时间线内，一起打造一个好模型，我们能做到这一点，我非常非常自豪

Yann Dubois：说到效率，你们是怎么优化的，我们说的是每个token的效率吗，还是也包括serving模型时的latency 哪一部分属于AI research 哪一部分属于engineering

Matt Turk：这就是我说，这是整个公司共同完成的意思，当我说效率的时候说的，是整个公司都参与，其中是每个token的效率，也包括服务模型时的latency 这件事里既有AI research 也有engineering 你可以这样想，模型在回答时会产生一定数量的token 而token数量和性能之间有一个关系，你可以把X轴看成token数量，把Y轴看成性能 AI research做的一部分工作，就是让模型用更少token 达到同样或者更好的性能，然后inference也会处理这个X轴，只不过它会把token数量换成实际latency 最后大家真正关心的是 X轴是latency Y轴是性能，所有事情最后都会回到这里 5.5这次真正发生的也是这个，所以我才说，这一次我真的为整个公司感到自豪

Yann Dubois：我们花一分钟聊聊你自己，你在Post Training Frontiers团队，你刚才说这个团队是横向的，那这个团队总体上是做什么的，我们主要做三件事 [00:11:55]

Matt Turk：大范围来说，我们属于Post Training组织，我的团队是Frontiers这一块，我们团队做的第一件事，是决定最后那次大训练里放什么，像前面说的，有很多垂直方向，需要有人决定什么能放进去，什么不能放进去，同时我们也要给大家提供科学实验，让他们可以在一个能代表最终大训练的设置上，反复迭代，这是我们团队做的第一件事，第二件事是把所有东西整合到一起，真正跑那次大训练，你可以想象，我们会用相当多的GPU来训练，所以这里需要很多Infra工作，同时也需要很多ML工作，要把所有东西放在一起，并确保他们彼此配合的很好，第三件事是做模型的横向改进，有些事情这些垂直团队通常不会看太多，比如我刚才说的thinking time 也就是模型在某些回答上应该思考多久，还有instruction following function calling memory 这类东西以及跨整个模型战的通用改进，这就是pushing frontiers团队做的事情，我现在负责这个团队，明白很好，那你是怎么进入OpenAI的，这个故事很长，不过我尽量讲短一点，我本科在瑞士学的是，生物医学工程，我来自瑞士，后来我去加拿大交换，接触到了Word2Vec 不知道你有没有听过这个算法，它基本上是把单词，这种离散的东西，放到一个向量空间里，换一种直观的说法，就是把它们放到一个平面上，彼此更相似的词会离得更近，所以它把这些离散的词，带到了一个连续空间里，而且这个空间在语义上是有意义的，当时我完全被这个算法震撼了，也是从那时起我决定自己想做natural language processing 想去理解语言，那时候我的判断非常错误，我以为英语NLP基本已经解决了，或者接近解决了，那是17年正好是transformer 刚开始的时候，其实是在transformer出现之前，所以我当时非常错，但我决定去研究under-resourced languages 也就是数据没有那么多的语言，想提升这些语言上的NLP 所以后来我去了新加坡的Grab工作，我当时基本是在给他们搭 Natural Language Processing Pipeline 处理巴哈萨、泰语、越南语，以及其他很多不同语言，中间我跳过一些经历，后来我在不同国家，做了更多偏学术的工作，最后去了Stanford 在那里读了PhD之后，我短暂做过一段创业公司，然后去了OpenAI 我记得在你的播客 [00:13:54]

Yann Dubois：或者个人页面上，看到过一条说明，写给QuantFirm 说不要联系你，因为你对Hedge Fund工作不感兴趣，对，我一直觉得，对我来说很重要的一点是

Matt Turk：要思考自己对世界产生的正面影响，至少是我努力想产生的正面影响，所以那句话才会放在那里，对，就像我们开始录之前说的 [00:14:59]

Yann Dubois：大家可能在GPT-5的发布视频里见过你，你当时做了一个很有意思的演示，现场搭了一个EPIP 用来教你的伴侣说法语，所以大家应该去看看那个演示

Matt Turk：没错，那次挺好玩的，真的挺好玩 GPT-5当时还没有那么稳定，所以我有点紧张，担心他跑不起来，不过最后他确实跑起来了，所以那是真的，现场演示

Yann Dubois：我猜应该排练了非常非常多次，但确实是live 其实就在我们做演示之前，最后一次彩排的时候，它没有跑起来，所以我当时有点紧张，不过看起来真正live的时候，效果不错，是压力当然不小，但最后呈现的非常好，好很酷，那我们来拆一下，开头提到的几个点，我们一开始其实是在聊 reasoning 我很好奇 2026年的reasoning 和我们当年围绕，欧或欧能聊的东西相比，到底有什么不同，尤其是5.5的一个说法，也是我作为用户的体验，是他特别擅长处理Messy Data 这似乎意味着，他需要在更多模糊性里，推理到底发生了什么变化，我会说 [00:15:38]

Matt Turk：欧汪和欧汪Preview 对研究社区来说，确实是非常大的突破，他们证明了模型可以思考，而且思考的越久，答对的概率就越高，这真的很突破，但一开始，如果你看以前的播客文章，主要会看到数学 EVO也可能有一些编程竞赛，也就是那些，很容易判断对错的任务，这也能让你大概看出，我们当时是怎么训练这些模型的，我对去年一整年，尤其是去年年底，和今年年初的理解，是我们把这些依赖可验证 reward的算法，也就是能明确说，你对了或者你错了的东西，带到了混乱的真实世界里，然后我们开始真正优化给用户带来的使用价值，让用户更高效，我觉得这才是真正改变的地方，所以很大程度上是 [00:16:30]

Yann Dubois：Post Training里的Reinforcement Learning这部分，我会说是的，不过这里还有另一个很大的部分，第一件事是，当你开发一种新方法时，这个方法当然会比较脆弱

Matt Turk：也没那么可靠，很难真正产品化，这一部分也进步了很多，另外更重要的是，我们有了一个工具可以开始针对不同目标去优化，一开始开发这个工具时，我们对真实世界做了很多简化假设，现在我们在逐步去掉这些简化假设，至少在训练里我们已经能够真正优化用户价值，确保这些模型有用，也确保我们看的任务本身是有用的，这也是为什么现在的Evol看起来真实的多，如果你想想GDPVal或者看看Cbench Pro Cbench 它们都比我们在01时看的Codeforces [00:17:32]

Yann Dubois：或编程竞赛真实的多，还是回到reasoning这个话题 5File Thinking和5File Pro最终有什么区别，是不是只是更多Test Time Compute 更多Token 以及在解决一个问题上投入更多时间，对基本上就是我们往模型里，或者说往我们发布的整个系统里，投入多少Test Time Compute的问题

Matt Turk：我们一次又一次看到模型思考的越久答案就越好，问题是我们说的这些曲线绝对不是线性的，它们会有平台期，在某种意义上看起来有点像对数曲线，当然也取决于具体EVO 所以你可能投入两倍compute 但实际只得到很小的性能提升，我个人不太用pro 因为我真的不喜欢等，我挺没耐心的，所以不喜欢等那么久，我知道答对的概率肯定会提高，但对我来说提升还没有大到，让我愿意用它，但有些人会用pro 而且非常喜欢，尤其是在学术研究里，我知道很多数学家特别喜欢用它，因为他们会把这个任务放在后台跑，可能跑一个小时，两个小时，他们并不需要和模型，非常快速的来回迭代 pro就非常适合这种场景 [00:18:34]

Yann Dubois：我想把这个和你前面提到的，每个token的效率对上，这里的意思是不是，你可以思考更久，同时也更高效，所以能把任务解决得更好，时间这个因素和效率这个因素，到底是怎么相互影响的，如果回到我刚才说的那张图 X轴是延迟 Y轴是性能，当我们说效率越来越高时

Matt Turk：本质上是在把这条曲线往左移，也就是说我们变得更高效了，用更少的时间达到同样的性能，但Pro做的是延长这条曲线 [00:19:50]

预训练、中训与后训练

# #552. AI进展为何突然变得真实：详解 GPT 5.5、强化学习与模型最后一公里

但Pro做的是延长这条曲线

Matt Turk：但Pro做的是延长这条曲线，它的意思是，我会思考更久，但答对的概率会更高，不过Pro模型的每一次迭代，也会把曲线往左移，所以它本身也会越来越高效，关键在于总会有一些任务，你只想尽可能提高正确概率，根本不在乎延迟，比如我睡觉前，启动一个任务，模型有8个小时，那它就应该尽可能多想一会儿，这大概就是它能带来的价值，用普通人的话说，这在实际中是什么意思

Yann Dubois：或者实际是怎么工作的，如果模型走错方向，它会更早打断自己吗，这是其中一个维度吗，如果说效率的话，这里有两件事，你问的是效率吗，你是问效率，具体是什么意思，对，效率，是的，主要是效率，我只是很好奇 reasoning到底是怎么变得更强的，这个问题很好，我可以先用人来打个比方，比如一个人

Matt Turk：是某个领域的专家，你把他和一个刚开始学，这个领域的本科生相比，本科生做同一个任务，可能要花一天两天，他得把很多可能性都想一遍，还要去调查，因为他以前没做过这类问题，但这个领域的专家，通常会直接知道该往哪个方向走，他不会花时间去研究十个不同方向，因为他知道其中一个方向，更可能是对的，我们说的效率就是这种效率，本质上是我们把模型，更多地优化在真实世界的问题上，结果就是模型被训练的更能判断，哪些推理路径更可能是正确的，这是效率的一部分，你刚才提到的另一部分是，模型知道自己什么时候走错了路，这也是可以用强化学习训练出来的，模型会知道好像这条路不太对，那我退回去

Yann Dubois：换个方向再测试，如果模型训练的少一些，他可能要晚很多，才会意识到自己走错了路，听起来很多东西又回到了，强化学习和Post Training 那我们来聊聊，现代AI系统里的不同组成部分，我们可以讲讲 Pre Training Mid Training 和Post Training 因为Post Training很重要，我们可以多花点时间在上面，先从Pre Training开始，先从高层次讲起，我也理解，有些内部做法，你可能能讲，也可能不能讲，在5.5这个具体背景下，发生了什么，去年的一个大叙事是 pre-training快撞墙了，接下来不会带来太多进展，但到2026年看起来情况完全不是这样，你能不能带我们梳理一下 pre-training现在到底发生了什么，为什么它现在还在进步，而且是以去年很多人没有预料到的方式进步 [00:21:48]

Matt Turk：关于pre-training内部具体发生了什么，我不能讲太多细节，我能说的是团队确实做了很多很好的工作，我们的模型也在变得越来越好，有一点我想强调，尤其是我们刚才谈到效率的时候，如果模型更大，它需要的思考时间，也就是它用于思考的token数通常会下降，你可以这样理解，打个比方，模型在生成某个token的时候，其实已经在它的权重里完成了一部分思考，所以如果你增加正在训练的模型规模，就可以减少它为了思考而需要生成的Token数，很多时候只要增大模型规模，也就是Pre-trained 更大的模型就能得到更高的效率，更大模型的好处是，在Inference的时候它们更容易被并行化，你可能会想模型生成的Token更少，但模型本身更大，所以整个系统的效率可能反而下降但事实不是这样，模型越大你就越有机会，针对GPU上的Inference做优化，所以你能够让整个系统变得更高效，这是我想说的一点，更大的模型其实能带来很多效率提升，除此之外，说到pre-training 我觉得这件事很有意思，其实大概两年前，我也曾经觉得pre-training可能快撞墙了，但如果我们只看anthropic 比如从成本来看 Opus 显然像是一个大得多的模型，顺便说一下，通常你就是这么判断，一个模型是不是更大，你看每个token的成本，很明显他们只是通过增加模型规模，就得到了很好的性能，所以我觉得这个领域，至少领域里的一部分人，对这一点是感到惊讶的，之前有很多关于数据墙的讨论，但现在看起来，我们并没有真的撞上那堵墙，模型越大训练它需要摄入的数据就越多，看起来不同公司都找到了不同办法，来应对互联网上数据 [00:23:46]

Yann Dubois：没有那么多这个事实，那下一个前沿，或者说现在的前沿是数据吗，是multimodal data 还是synthetic data 我觉得在数据受限的情况下 synthetic data可能会很有用 [00:24:48]

Matt Turk：multimodal也是个很有意思的方向，我当然不能谈，我们内部具体怎么做，但我以前做过 multimodal representation learning 那时候我一直觉得，如果有大量multimodal data 会很有助于提升推理能力，我现在还是这么想，不过比如你看 Anthropic的模型，它们在Multimodal上，通常没有那么强，但依然非常聪明，所以看起来Multimodal Data 并不像我过去以为的那么必要，但我仍然相信，等我们走向Embodied Agent Embodied AI的时候，模型会通过理解世界，如何相互作用，学到很多关于世界的东西，这也会提升通用智能，以及对用户的实用性，不过至少从Anthropic的模型来看，它们似乎不需要那么多Multimodal Data 也能做出很强的模型，你说的embody intelligence

Yann Dubois：是指可能包括机器人吗，比如，如果你用一段视频，展示重力是怎么运作的，机器人又是怎么在空间里移动的，那理论上会更有用 [00:25:52]

Matt Turk：你的意思是这样吗，对，很多人都有过这样一种直觉，我自己也长期这么想，只通过文本，很难理解这个世界，比如，不真正看到东西下落，就很难理解物理是什么，也很难理解重力是什么，但你看我们的模型，他们其实在，没真正看过这些东西的情况下，也某种程度上理解了重力，可是这件事仍然不那么显然，他们好像还是可以理解的更多，而且仍然缺少一些，常识层面的东西，所以我确实觉得，让模型在真实世界里互动，会提升我们模型的常识能力，但我觉得我们离那一步还挺远

Yann Dubois：这里的我们，我是泛指学术界和整个AI社区，大家看起来都还离那一步挺远，既然说到这里，我们稍微绕一下，这就引出了World Models这个概念，先把你的OpenAI身份放到一边，你看好World Models吗，如果你说的World Models 是指可以尝试复制或者模拟事物，也就是基本上在一个模拟环境里工作 [00:26:45]

Matt Turk：那我觉得是可以的，但问题是Simulation永远会非常难，而且不可能完全真实，所以我认为始终都需要有一部分训练发生在真实世界里，让模型意识到模拟世界和真实世界之间的这些不匹配，而且我觉得我们这个领域有一种倾向，会去优化某个模拟出来的，或者不完全真实的东西，甚至优化到已经没有太大用处，之后还继续优化，所以这是我觉得我们需要一直警惕的地方，我们会花很多时间和精力去优化一个模拟的，或者不够真实的目标，一开始这很好，但当你开始对某个东西，优化过头的时候，它就不再能代表真实世界了，可人们还是会继续做，因为他们已经这么做了很长时间，所以我只是觉得，大家需要意识到

Yann Dubois：什么时候该停下来，我自己不太做这类 synthetic environment 主要也是因为我不做 embodied AI 所以我不知道我们是不是，已经遇到这个问题了，好，好那我们回到 pre-training mid-training Post-training 我们来聊聊Mid-training这个词，大家可能听得少一点，出现得也少一些，它是什么，为什么重要 Mid-training [00:27:59]

Matt Turk：就是介于Pre-training和Post-training之间的东西，名字本身也能看出来，它在整个Pipeline里处在中间位置，核心想法是，如果你有高质量数据，而且这些数据更能代表，你最终希望模型具备的样子，那你就应该在这类数据上多训练一些，退一步说 Pretraining是什么，从高层看 Pretraining基本上就是通过学习互联网上的一切，来学习世界上的一切，问题是互联网上大多数东西其实没那么有用，比如Wikipedia或者GitHub 这种代码数据里面的信息量，看起来就比一些随机论坛要大得多，有些随机论坛可能没有那么多信息，再比如广告，互联网上也有很多广告，你大概不希望在这些内容上训练太多，但在Pre-Training里，我们会训练所有东西，而在Mid-Training里我们基本上会给这类高质量数据更高权重，因为我们认为，它们对训练最终模型更有用，我不能谈这里每家公司内部具体发生了什么 [00:28:24]

Yann Dubois：但这件事现在肯定在整个学术界都在发生，所有Open Source模型也都有Mid-Training 这个阶段，很好，接下来是Post-Training 我们先从高层定义一下它是什么，这里面有reinforcement learning 但reinforcement learning不是post-training的全部，还有什么，就要看你怎么定义，这个词也要看你把边界划在哪里，在我看来

Matt Turk：post-training可以按很宽泛的意思来理解，包括所有reinforcement learning [00:29:54]

强化学习如何进入真实世界

# #552. AI进展为何突然变得真实：详解 GPT 5.5、强化学习与模型最后一公里

包括所有reinforcement learni

Matt Turk：包括所有reinforcement learning 以及我们为reasoning models做的训练，它的核心就是把一个了解世界上各种知识的东西，变成一个对人有用的东西，我理解pretraining时，喜欢用一个比喻，你走进图书馆，里面有很多关于各种主题的书，理论上你想要的信息，都能在图书馆里找到，但更有用的是和一位，读过这些书的专家对话，你可以向他提问，他能回答也能理解你真正想找的是什么，所以从很高的层面看 Post-training的目标，就是让模型对用户更有用，也更容易交互，这里面有多个阶段，我主要或者说我只会讲OpenAI之外，正在发生的事情，以及通常会有的那些阶段，通常会有一些SFT It is supervised fine tuning 是supervised fine tuning 对 supervised fine tuning 早期我们看到的大多数模型，其实只做了supervised fine tuning 它的想法是，如果有人能给你理想的最终答案，也就是人给你gold answer 那你基本上就可以复制人的行为，这就是我们说的behavior cloning 但问题是，你永远不会超过ground truth能给你的水平，而人在很多方面其实是很受限制的，所以你永远不会超越和你合作的那些人工标注员 reinforcement learning 或者说reinforcement learning阶段，会从behavior cloning走向真正优化reward 他的想法是我不知道ground truth是什么，也不知道完美答案是什么，但我可以判断一个答案是不是正确，也可以说明我希望答案里有哪些东西，然后你开始优化，你让模型尝试，获得更多reward 也就是更多的优化，这个reward function 我们就是这么叫它的这样它就能超越，你当前已有的水平，超越人类能做到的水平，或者至少超越，和你合作的那些人，能做到的水平，所以我会说，这是两个大的阶段，然后在reinforcement learning里面，具体取决于训练的是什么，模型，至少在开源社区里，大家做reinforcement learning的方式，似乎有不同路径，尤其是当你有可验证reward的时候，也就是那种reinforcement learning 你很容易判断某件事，对不对，而且基本上可以给一个二元reward 这就回到我们之前谈过的O1和O1 preview 然后还有一种reinforcement learning 我觉得是没有可验证reward的情况，也许我可以做pairwise comparison 说这个答案比另一个答案更好，但我并不真正知道，也不能很确定地说，这就是完美答案，当然，这其实是一个连续谱中间有各种情况，但我会说整体思考 Post-training的时候，可以先抓住，这三个高层次的东西，开源世界里通常的做法是，先做SFT 复制那些你能从网上，或从人类那里收集到的行为，等模型已经达到一个，相当不错的水平之后，再做Reinforcement Learning 去超越我们当前已有的东西，因为如果你一开始就从reinforcement learning做起，会非常低效 reinforcement learning的问题在于，你基本上必须碰巧试到正确答案 reinforcement learning的工作方式，是你从正在训练的模型里踩牙一样很多次，然后判断这个是对的这个不是，接着你告诉模型多做那个正确的，所以你必须碰巧撞上正确解法，因此更好的做法 [00:32:39]

Yann Dubois：是先尽量接近你能做到的最好水平，这就是behavior cloning 然后再做reinforcement learning reinforcement learning会创造新的能力吗，还是说它只是让模型

Matt Turk：在已有能力上做得更好，这真的很难说，因为pretraining 用整个互联网来训练，可以说里面已经包含了所有能力，所以这个问题就算从科学上，也很难回答，因为可以说一切都已经在那里了，我会这么说，如果你看两年前，我们在训练的模型，或者开源世界里大家在训练的模型，比如我参与过的Alpaca 我们当时用了5万个样本做SFT 但现在你看Kimi这类模型，或者DeepSeek模型里的reinforcement learning 数据点似乎更接近100万个，所以大家确实把reinforcement learning 这个阶段扩大了很多，从结果看，他们好像学到了一些新能力，比如推理能力，也就是能检查自己的答案，再尝试改进，所以模型可以思考更久，得到更正确的答案，总的来说，可以说一切能力本来就已经在pre-training里了，但在过去一年半里，即使是在开源世界 [00:33:41]

Yann Dubois：我们也确实能在reinforcement之后，得到比以前更多的能力，我听过好几次这种说法，说reinforcement learning很难调，也很难扩展，我们整个行业一开始，在LLM的进展曲线里，没有把reinforcement learning做进去，部分原因正是它很难做出效果，扩展 RL到底难在哪里，是数据级的问题吗，是你不知道reward是否正确吗，还是别的原因，我觉得两年前，在学术界和研究圈里，大多数没有做过reinforcement learning的人，可能都会觉得reinforcement learning 根本不好用 [00:34:40]

Matt Turk：而且太难调，没法实际使用，我以前也是这种人，其实当我看到ChatGPT发布时，他们有一篇播客，当时我还不在OpenAI 我看到那篇播客，说他们用了Reinforcement Learning 我的第一反应是，我不用Reinforcement Learning 也能做同样的事，因为这只是一个过度复杂的方法，我们后来做Alpaca的初衷，其实正是这样，试着只用SFT来复现它，也就是只做Behavior Cloning 还有一个很有名的说法，把Reinforcement Learning比作蛋糕上的樱桃，所以我觉得这确实是大多数人的直觉，但看起来当模型跨过某个规模之后，它已经基本知道世界上的一切，也就是我们说的对世界有很好的priors reinforcement learning就开始变得有效了，这不只发生在ALM上，机器人领域似乎也在进入同一个阶段大家开始意识到它以前确实很难调，但现在我们用的模型本来就已经很了解世界，它其实学得相当好，现在回答你问的 reinforcement learning仍然复杂在哪里，第一是infra的问题，就像系统问题一般都很复杂一样 reinforcement learning从很高层看，基本上就是我前面说的，要采样很多答案，然后判断哪些是正确的，哪些不是，这种采样本身非常昂贵，而且你必须大规模的做另一个问题，现在开源世界里，大家也正在看到，就是当我们训练更有genetic的系统时，只有在一个很长的rollout结束时，你才知道结果是否正确，所以每个token能得到的关于对错的信息非常少，这就很难做attribution 也就是说很难判断整个回答里的哪一部分，导致了最后的错误这更像是machine learning这一侧的问题，在machine learning的理想世界里，我希望能明确地说，这一步做得好，以后多做这个，但问题还是在这些agent系统和reinforcement系统里 [00:36:12]

Yann Dubois：你只有到最后才知道哪一部分好，哪一部分不好，这是reinforcement learning的另一个大问题，现在reinforcement learning的前言是什么，听起来这里有一大片缩写的丛林，比如GRPO还有其他技术，你们在用什么，你对什么感到兴奋，你觉得哪些方向有前景，我不能谈我们在用什么，但比如在开源世界里

Matt Turk：GRPO看起来效果很好，以前大家用过不同的方法，比如PPO DPO 现在大家似乎真的都收敛到GRPO这种方法上了，它和其他方法最大的区别是，你还是用我刚才说的那种简单方法，尽可能多地采样答案，然后判断哪一个是正确的，所以从某种意义上说 GRPO是一个非常简单的方法，在machine learning里，我们一次又一次看到，只要一个最简单的方法，可以随着compute扩展，最后通常就是它效果最好，这里发生的事情大概也是这样，至少在开源世界是这样 [00:37:44]

Yann Dubois：你刚才描述这些挑战时，我脑子里冒出一个问题，你经常会听到一种说法说 AI系统不是被建造出来的，而是被种出来的，你会怎么描述这件事，在你的日常工作里，哪些部分是科学，哪些部分更像手艺，或者说是不断尝试很多东西，然后保留最有效的做法，这是个很好的问题

Matt Turk：我觉得通常的过程是，它一开始更像一门手艺，大家会尝试很多东西，然后慢慢形成一种直觉，知道什么有效，什么没用，随着时间推移，我们会从这种手艺阶段，走向更科学的方法，真正先跑通的，往往不是一开始就很科学的东西，很少会出现这种情况，你用一个非常科学的方法说，这就是最优做法，然后照着做，它就直接成功了，更多时候，里面有一点炼金术的感觉，有人就是对某件事有很好的直觉把它做成了，然后其他人或者这个人，自己再开始用非常科学的方式去改进，我们正在做的事情，我会说这种情况在machine learning里，一次又一次发生，先是手艺，然后是科学，两者都非常重要，只是处在流程的不同阶段，从工程角度看，这也是一直都必要的能力所以我会说，大多数研究员现在都变得相对擅长这件事，我不一定会说，他们都是很好的工程师，但他们至少擅长，在复杂系统里工作，能弄清楚自己需要尝试什么，而且我们现在用的系统和infra 也变得越来越复杂，所以很明显需要做的工作 [00:39:40]

泛化、幻觉与能力边界

# #552. AI进展为何突然变得真实：详解 GPT 5.5、强化学习与模型最后一公里

所以很明显需要做的工作

Matt Turk：所以很明显需要做的工作，也会随着时间变化，很有意思，那我们还是继续讲

Yann Dubois：reinforcement learning 也回到你一开始提到的一些东西，如果我想让我的模型，在computer use 代码生成，或者其他某个领域变得更好，那我是不是要专门花一段时间，为computer use做reinforcement learning 整理一个数据集，然后设计rewards 事情是这样运作的吗，就是选一个问题，然后专门针对它做reinforcement learning 通常是这样吗，我更多讲reinforcement learning 是因为这也是我最了解的部分，也是我长期一直在推进和研究的方向

Matt Turk：我们前面也聊过Mid Training 所有这些东西也都极其重要，而且你可以在流程的不同部分去提升它，就像我前面说的，你离模型最终阶段越近，通常训练规模就越小，所以你可以很快迭代，因为这时候你可以按天来迭代，而不是按月来迭代，所以通常大家会从这种快速迭代循环开始，然后再往更深的地方走，在整个技术战上做更大的改动，所以我不是说只有reinforcement learning重要，我真的不是这个意思，只是说这就是为什么大家会先从那里开始改，然后这些改动会向下渗透，我们会更深入的进入技术战，事情就是这样运作的，在开源世界里也很像，我觉得你看到的post-trained models 远远多于新的pre-trained based models 你也会看到更多算法上的改进

Yann Dubois：所以我们才会聊到GRPO DPO PPO 现在有很多XPO 原因就是大家可以在流程最后这个阶段非常快速的迭代，那这些模型参差不齐的特点，是不是就来自这种做法，也就是挑这个问题，挑那个问题来优化，所以模型在这些问题上会非常强，但在其他问题上没那么好，还是说这其实是AI模型更根本的一种特征，这里面肯定有这个因素，如果你在某些特定类型的问题上优化的更多，那你在那个场景里肯定会更好 [00:41:37]

Matt Turk：但我的直觉是，关键不在于你优化的具体问题，而更在于你优化的是哪一类问题，比如如果你的模型很擅长数学竞赛，那它很可能也会比较擅长编程竞赛，所以重点不是领域本身，而是完成这些任务所需要的技能，以及思考方式，也就是你执行这些任务所需要的横向能力，我觉得你通常看到的情况是，如果某个模型在某件事上很差，它其实会在任何领域，任何语言里都差，所以你要考虑这个领域，也要考虑这个领域会怎样泛化

Yann Dubois：而不一定是按单个领域去看能力，说到泛化，过去确实有一个很清楚的演进，先是在数学和coding上取得成功，现在开始覆盖不同领域，这就是GDP value那件事，对整个经济里的不同领域，评估模型表现，还是同一个问题，这是整体模型进步带来的结果，还是一种，有意为之的安排，比如说，好，现在我们要拿经济里的这一块，给它构建数据集，做mid training 再做post training 这种进展，是怎么从那些非常具体的领域，走向对世界其他部分的泛化的，这肯定是我们在主动推进的方向，我觉得大家都意识到了，包括我们和其他公司 [00:42:50]

Matt Turk：整个行业正在走向这样一个世界，我们真的想做出有用的产品，提高人们的生产力，帮助人们的日常生活，所以我觉得现在大家非常主动地在决定，哪些领域应该优先做，既然我们已经知道，有一套算法可以用到不同地方，那真正限制我们的，更多是能不能收集到合适的数据，能不能让真正关心某个问题的人，来做这个问题，但能做这些事的人并不多，所以你真的需要排优先级，所以这里的做法，是非常主动，非常积极的，总体来说，我会说模型的表现，很大程度取决于，有多少人在关心模型最终输出，有多少人在盯着这个模型看，如果他们开始更多关注，某些垂直领域，那这些垂直领域会进步的非常快，但还是那句话，能做这些事的人 [00:43:37]

Yann Dubois：并没有那么多，我想顺着你刚才提到的一点展开，现在模型是不是真的更能泛化了，尤其是从reinforcement learning的角度看，如果把一个模型在领域A或领域B上，训练得非常好，是不是就很可能让它在领域C上，也变得更好，哪怕你没有在领域C上，投入那么多精力去设计reward 我觉得泛化有不同的维度，一个是算法层面的泛化

Matt Turk：也就是说我为领域A 开发出来的算法，或者说这个black box 能不能用到领域B 至少目前来看，即使只看开源世界，大家似乎确实能做到，他们拿JR pole 用到很多不同地方，结果就是能跑起来，所以这种泛化看起来相对不错，这也是为什么我们能看到很多进展，否则进展会很难做出来，然后还有一种泛化是模型，在某一个特定的，运营上训练之后，它本身的泛化，这就是我前面提到的，至少在我的理解里，泛化是按能力来发生的，如果需要的能力是一样的，你就会看到跨领域的泛化，比如不同语言，比如coding 你可以针对C++ coding做优化，让模型成为一个不错的C++模型，而在C++上只做很少的训练，或者很少的RL 部分原因是pre-trained model 已经看过大量C++ 所以他已经大致理解了这门语言的基础，所以这种泛化肯定会发生，我觉得更难的泛化是，那些我们没有这种横向能力的时候，我给一个具体例子，如果我的模型很聪明，体现在它在竞赛题上回答正确，我经常举这个例子，因为它有点刻意，比如数学竞赛 coding竞赛，从人的角度看，擅长这些事的人通常就是聪明，或者至少有人会觉得他们就是聪明，而如果他们聪明，他们其实也能做别的事，但这对模型来说真的不成立，这种泛化真的不成立，因为很多需要人类在专家领域工作的事情，现实世界非常混乱，而这些coding竞赛和数学竞赛，题目都被规定得非常清楚，你需要有一种能力，去理解那些定义不完整的任务，理解怎么处理混乱的现实世界，还要理解为了回答问题你到底需要哪些资源，比如你看数学竞赛，通常所有信息都在prompt里，可能是五行，也可能是十五行，但回答这个问题，所需的所有信息都在里面，但在真实世界里，如果我是一个顾问，或者我在金融行业工作，我需要上网，我需要找到并提取不同的信息，甚至在开始做任何推理之前，我先得理解这些信息，才有可能进行推理，而这种横向能力，通常不是自动就有的，如果你有这种横向能力，确实可以繁华，但很多情况下，我们并没有这种横向能力，所以这也是为什么LLM 其实会在每个领域都hallucinate 比如模型出现hallucination 如果一个模型非常不擅长说我不知道，那通常会发生在每一个领域，不会出现一个领域里 [00:46:45]

Yann Dubois：模型对自己知道什么，校准的非常好，而另一个领域里完全不行，稍微岔开一下 hallucination也是一个reinforcement learning问题吗，也就是说当模型应该说我不知道的时候，你去奖励他，说我不知道这种行为 John Shulman 关于这个有一个很好的演讲，我记得是一两年前的

Matt Turk：他说如果你做behavior cloning 也就是我们前面说的SFT 你基本上可能会在奖励和优化幻觉，原因是，如果你的模型不知道某件事，但你现在告诉它正确答案，就是把那件事说出来，那会发生什么，我说的具体一点，如果模型不知道某篇论文，而你给的答案，也就是人类给的ground truth 答案里说，我的信息来自这里，然后引用了那篇论文，那你实际上是在优化模型，去引用一个他并不知道存在的东西，因为他不知道那篇论文存在，所以John当时有一个很好的演讲，说SF会迫使模型产生幻觉，而在reinforcement learning里，像我刚才说的，你一开始某种程度上是从模型自己那里sample 模型sample出一个他不知道，但又正确的东西概率极低，真的极低，所以你永远不会奖励那种行为你只会sample到他不知道，而且答错的东西，然后你会把这种行为压掉，所以关于幻觉 [00:48:53]

Yann Dubois：至少大家的直觉是，它可能来自SFT 也可能来自这种SFT流程，但如果你有好的reinforcement learning流程，这件事不应该太常发生，再回到generalization 有没有这样的例子，模型在一个领域变得更强，反而会让它在其他领域稍微变差，这有点像你刚才说的，有些人数学很好，有些人英语很好，但通常不是同一批人

Matt Turk：在具体领域里通常不会，更常见的情况是，你会根据要优化哪个领域来做取舍，如果你优化一个领域，你就没法在另一个领域上，投入同样多的优化，所以不一定是优化一个东西，会让另一个东西变差，而是结果上，你能给另一个东西的优化变少了，因为你受compute限制，受数据限制，也受人的瓶颈限制，真正会发生的是，在模型这些横向能力上，可能会出现，负向generalization 也就是不好的generalization 或者negative transfer [00:49:26]

评测、Model as Judge 与连续学习

# #552. AI进展为何突然变得真实：详解 GPT 5.5、强化学习与模型最后一公里

或者negative transfer

Matt Turk：或者negative transfer 我给你一个很具体的例子，显示指令遵循和影视指令遵循，如果我有一个模型，我们经常听到，比如open AI的模型，在你把想要什么说得非常明确时，它们往往表现很好，但结果是，有时候我们也会听到，如果你没有把想要什么说的那么具体，他们就没那么好，比如我打了个错字，我说修改这个文件，但文件名里有个tipo 一个在显示指令遵循上极强的模型，会去修改那个错误的文件，也就是带tipo的那个文件，但人类可能会意识到你是打错了，所以在一些情况下，这种显示指令遵循会和隐示指令遵循冲突，也就是说这些横向能力之间

Yann Dubois：有时候会互相抵触，也许我们可以用这个问题，来结束整个reinforcement learning的讨论，你的感觉是，随着我们从非常擅长coding 非常精进的其他数学，你觉得其他领域，也是一个可处理的问题吗，你觉得最终我们能达到，同样的表现水平吗，可以，但我要加一个，但是可以

Matt Turk：我们能做到，我不觉得这些领域，有什么特别深层的特殊性，导致我们不能优化，或者不能在其他领域达到同样的水平，但有至少两个原因，第一个是，做这些模型的大多数人都很擅长coding 而且他们真的很在意coding 因为那是他们日常使用的核心场景，没有什么比用户同时也是训练模型的人更好了，因为他们理解问题在哪里，比如对我来说，如果我完全不了解法律领域，那我就很难真正理解，模型在法律方面到底应该改什么，这是一个原因，另一个你经常会听到的点，我前面也简短提过，就是这种verifiable rewards 有些领域更容易判断，某个东西到底对不对，比如cyber 你前面也提到过 cyber能力提升了很多，模型的cyber能力提升了很多，原因是在cyber里要判断你是否正确，非常容易，比如你发现的那个cyber问题，是不是真问题，这很容易测试，所以有些领域里 reinforcement learning 就是更容易应用，但我会说，模型的能力本身，并没有什么东西限制它，让它不能在法律，医疗，以及其他领域，做到同样好，所以简短回答是，我们对这些领域 [00:51:11]

Yann Dubois：了解的更少，而且确实有些领域，在reinforcement learning价值上，更容易优化，好我们先聊一会儿 EVE-ELSE 也就是模型评测，这是一个非常重要的话题，也许可以先从这里开始，为什么评估一个模型本身，就这么难，随着模型变得越来越强，评测也变得越来越难，原因是我们让模型，做的任务越来越通用，也越来越开放

Matt Turk：比如，现在我可能会直接说，帮我做一个，能完成某个功能的网站，但在过去，我可能只是问，你这个实现里，有没有某个具体bug 判断是不是bug 要容易得多，因为我可以提取出来，可以知道一个明确的问题，也可以让人类标出，这里有哪些bug 然后再自动去检查，但做网站这个例子就很难判断，什么是最优答案，因为好的答案有很多，做出某个网站也有很多种好方法，模型任务这种开放式的特点，确实让EVOS变得更难，还有一个问题是，在某些具体维度上，模型已经比大多数人类更强了，所以真正有能力，在这些具体维度上，评估模型的人越来越少，这当然也是一个限制，还有一个问题，说实话，有点文化上的因素，大多数人都想改进模型，而且他们会觉得最好的方式就是训练模型，但实际上发现问题，并且确保我们能量化改进，至少同样重要，甚至可能更重要，可这里一直存在一种文化上的落差，我觉得这在学术界尤其明显，大概直到两年前 EVOS基本都是固定的 Benchmark也总是固定的，甚至数据集在某种程度上，也一直是固定的，也许可以说是四年前的情况，后来大家的心态发生了变化，开始意识到数据其实非常关键，现在有很多人在做数据，但我觉得EVOS还没有完全到那个阶段，大家都知道它重要，但并不是所有人都真正理解，投入EVOS会有多大的影响，所以我到OpenAI之后的第一个项目，其实就是我一进来就说，我想做数据和EVOS 因为我知道这件事没有多少人在做，也正因为这样 [00:53:48]

Yann Dubois：我知道做这件事会非常有影响力，现在风向是在变，但变得还不够快，那么在model as a judge 也就是让模型当裁判，以及AI评估AI这方面，进展速度也一样快吗，这是研究里一个独立的方向，还是说本质上还是同一套思路，同一类技术，本质上真的是同一种方法 [00:54:40]

Matt Turk：而且我们在EVOS里做的大多数事情，尤其是现在有了reinforcement learning之后，几乎都可以原封不动的用到训练里，所以这其实也是EVOS很复杂的另一个原因，因为每次你构建一个EVOS 本质上也构建了一种深层训练数据集的方法，接下来你就会去优化那个训练数据集，即使优化的不是那个EVOS 本身也会是同一类型的数据，然后模型就会在这个评测上表现得特别好，因为我前面说过，能力是会泛化的，你在另一个数据集上学到了能力之后，就会在这个EVAL上变得非常强，于是这个EVAL很快就过死了，所以这也是EVALS的一个问题，回到你的问题 Model as a judge真的很重要，我觉得它可能是最重要的事情之一，因为随着模型变得更强，我们会得到一个自我强化的循环也会有一个能力飞轮，更好的模型会成为其他模型更好的老师，这对训练非常重要，然后你也可以把同样的事情，用在评估上，所以我的团队里有很多人，就在做这件事，我觉得去做这种model as a judge的框架，真的非常关键，好非常棒，那我们快到这次对话的尾声了 [00:55:05]

Yann Dubois：我想把视角拉远一点听听，你觉得接下来事情，可能会往哪里走，很显然预测几年后的AI 发展非常难，但我们就说接下来12个月 18个月，也许24个月，你的感觉是，事情会继续按现在这样推进，还是，我们正在走向某种，更像断点式变化的东西，如果说进展本身，就像我前面说的

Matt Turk：我觉得现在它总是连续的，但人们会感觉到断点式变化，三个月前，或者四个月前，在coding上就发生过这种感觉，我觉得现在这种感觉，会在其他每个领域里出现，大多数人，现在还没有像coding 和软件工程领域那样，感受到我们模型的能力和有用性，但我认为这种感受，一定会渗透到很多其他垂直领域，不过如果说能力本身的提升，尤其是在我们已经关注的那些垂直领域里，我觉得它会更连续，不会出现特别大的断点，大多数情况下都是局部的断点，但你把视角拉远看，它通常还是相当平滑的，当然也不总是这样，但大多数时候确实是这样，至于下一次大的断点，什么时候出现，我肯定没法预测，你怎么看AI里 [00:56:48]

Yann Dubois：循环加速这个大概念，比如continue learning 让模型更新，更快学习，再比如更广义的AI 构建AI 而且自动化程度越来越高，这里哪些是真实的，哪些更像想象，你又对什么最兴奋，我对continue learning 非常兴奋，我觉得我们还没有，真正攻克它，我们现在有codex memories之类的东西，确实有帮助 [00:57:39]

Matt Turk：但肯定还不是最终形态，我有个朋友总跟我说，还有一种图我们应该看，横轴是时间，纵轴是给用户提供的utility 也就是模型的有用程度，现在大多数模型在D0天，如果你直接把他们放进一家公司，可以说他们比大多数新员工更有用，所以他们在T0时起点更高，但随着时间过去，他们基本是横定的，因为他们并不会真正学到公司内部知识，也不会随着时间变得更擅长，更高效地完成自己正在做的事，而人类学得很快，重要的是这些曲线的积分，或者说曲线下面积，所以我觉得在很多情况下，人类仍然更有用，因此我们需要的是continuous learning 让这条曲线随着时间单调上升，也就是说，让模型在某个环境里，工作得越久就变得越有用所以我对此非常兴奋，其实我也很惊讶，我们到现在还没做到，三年前ChatGPT刚出来的时候，我记得我在和朋友，做一个startup 我们当时就在想要不要做 continual learning 个性化，以及memories这类东西，我们当时觉得 OpenAI六个月内就会做出来，他们有所有数据也会想明白，而且他们有所有用户模型 [00:58:57]

Yann Dubois：会很快从用户那里，学到东西，但三年过去了，我觉得我们还没到那个阶段，用外行也能懂的话，简单说一下，根本难点是什么，这是个好问题，完全坦白说

Matt Turk：我其实不太知道，我不太知道，为什么我们花了这么久，还没把它弄明白，我觉得这类领域，如果我们真的投入足够多资源，应该是能做出来的，当然，尤其当我们谈到，公司内部的memory时，会有很大的权限问题，也会有很多隐私问题，比如什么能分享，什么不能在不同用户之间分享，抱歉，我刚才说成不同模型之间了 [00:59:34]

Harness、应用空间与最后一公里

# #552. AI进展为何突然变得真实：详解 GPT 5.5、强化学习与模型最后一公里

我刚才说成不同模型之间了

Matt Turk：我刚才说成不同模型之间了，但即使只针对单个用户，哪怕只是一个用户，我们也还没做到，我不太知道为什么，至少在我能公开讨论的高层次上，我不知道原因，你提到的这一点

Yann Dubois：我觉得对AI Builder 投资人和Startup都很有意思，也就是模型在企业内部，变得越来越聪明这个问题，这里特别有一种张力，一边是模型本身能做什么，另一边是很多人围绕模型搭出来的东西，一两年前大家讲的是Ray G 现在大家都在讲Agent的Harness 很多人在想，模型最后会不会把Harness吃掉 Harness会不会只是一个临时阶段，从你的角度看你觉得会发生什么，我觉得现在Harness确实能显著提升模型能力

Matt Turk：但考虑到我们正在看到能力上非常快的进展，我个人不会在Harness上压得太重，除非这个Harness 是为了你现在想达成的，一个非常具体的目标，比如某些公司，专注在一个特定垂直领域，他们想把可靠性，从大概80%提高到85% Harness能帮他们做到，我觉得这很重要，但他们做的时候也要知道，未来还得重新调这个Harness 我觉得这完全没问题，如果你想做一个通用Harness 希望它能长期持续有效，我觉得这行不通 Harness更适合特定领域，是短期内你需要做的事，我觉得Harness里，永远有很多可以做的东西，甚至可以说，如果大家心里有一个具体问题，都应该多做一些，因为没有好的Harness 我们浪费了太多潜力，可以说，如果我们现在冻结现有模型然后真的去打磨Harness 也许再花更多时间，用一个很好的Harness来训练，我觉得人们在每一个领域，都会真正感受到通用人工智能或者说已经可以在每个领域感受到它，但问题是我们不会冻结模型，我们还会继续训练越来越好的模型，所以我觉得我们并不真正知道，最终的Harness会是什么样 [01:01:45]

Yann Dubois：而且它会一直变化，关于应用我也想问同一个问题，我们刚才提到，你们在不同垂直领域都有进展，比如总体上的GDP Vale 也包括T-Bench Telecom 它测试的是复杂客服工作流，还有finance agents的进展，它能自动化88.5%的内部投行建模任务，以及office QA pro上51.1%的成绩，所以你们正在一点一点做越来越多这类事情，那你觉得人们还应该继续构建应用吗，还是说随着我们越来越接近通用人工智能这些最终都会变成模型能力的一部分，外部公司或者创业公司，在具体垂直领域继续推进，还有非常大的空间 [01:02:08]

Matt Turk：原因是很多人会把所谓的智能，或者说原始能力，看成真正的护城河，但我不觉得是这样，我觉得大多数时候，真正的护城河在最后一公里，也就是要确保模型能访问正确的东西，有正确的权限，也能接入正确的connectors 诸如此类，我们会非常专注在这种更通用的方面，我觉得其他公司应该更多专注在垂直领域，把我们现在已有的能力发挥出最大价值，所以我认为在不同垂直领域的最后一公里，永远都会留下很多空间，我非常鼓励大家继续做这件事，也许有一天当我们不再取得横向进展时，我们会开始专注这些事情，但我不觉得那会很快发生，至少现在这不是我们正在做的重点

Yann Dubois：好吧，至少对创业生态来说，用这个非常乐观的结尾收尾，挺合适的，非常感谢你 Yan这次聊得太棒了，我很享受，谢谢你抽时间来参加节目，太好了，谢谢你 Matt 大家好，我是Matt Turk 感谢收听这一期MAD Podcast 如果你喜欢这一期节目，如果你还没有订阅，欢迎订阅，也欢迎在你观看或收听，本节目的平台上，留下好评或评论，我们会非常感谢，这对我们继续做这个播客，邀请到优秀嘉宾，真的很有帮助，谢谢，我们下期再见 [01:03:49]

返回该播客打开原文

#552. AI进展为何突然变得真实：详解 GPT 5.5、强化学习与模型最后一公里

整体概括

主要内容

关键 takeaway

目录

可靠性跨过门槛

目录

欢迎收听跨国串门计划。这是一档专注于让中文听众无

Frontiers团队与模型效率

目录

在做某些vertical

预训练、中训与后训练

目录

但Pro做的是延长这条曲线

强化学习如何进入真实世界

目录

包括所有reinforcement learni

泛化、幻觉与能力边界

目录

所以很明显需要做的工作

评测、Model as Judge 与连续学习

目录

或者negative transfer

Harness、应用空间与最后一公里

目录

我刚才说成不同模型之间了