目录
- 可靠性跨过门槛 [00:00:00 - 00:10:00]
- Frontiers团队与模型效率 [00:10:00 - 00:20:00]
- 预训练、中训与后训练 [00:20:00 - 00:30:00]
- 强化学习如何进入真实世界 [00:30:00 - 00:40:00]
- 泛化、幻觉与能力边界 [00:40:00 - 00:50:00]
- 评测、Model as Judge 与连续学习 [00:50:00 - 01:00:00]
- Harness、应用空间与最后一公里 [01:00:00 - 01:04:29]
可靠性跨过门槛
# #552. AI进展为何突然变得真实:详解 GPT 5.5、强化学习与模型最后一公里
目录
- 欢迎收听跨国串门计划。这是一档专注于让中文听众无 [00:00:00 - 00:10:00]
欢迎收听跨国串门计划。这是一档专注于让中文听众无
一凯:欢迎收听跨国串门计划。这是一档专注于让中文听众无障碍欣赏全球优质外语播客的节目。通过先进的AI声纹克隆技术,我们不仅将内容翻译成中文,还完美保留了语言主持人和嘉宾的独特声音,为您呈现全球顶尖的AI、财经、健康与科技领域精品内容。我是主播一凯,一位热衷于AI领域的产品经理,很荣幸能为您搭建这座跨越语言障碍的桥梁,接下来让我为您简单介绍本期我们克隆的这档节目,并分享几句非常精彩的原话,本期我们克隆的是MAD Podcast的一期科技深度访谈主持人MetaTurk 长期关注数据AI和创业生态,这期嘉宾Yan Dubois 是OpenAI Post-Training Frontiers团队的共同负责人 参与过GPT-5.5OS和GPT for Thinking等前沿模型的打造,在加入OpenAI之前,他也曾在斯坦福参与Stanford Alpaca项目,节目里有几句原话,很值得先听一听,你需要达到某个可靠性水平,才能真正让这些AI工具有用起来,所以我们从竞赛场景,走到了真正对用户有用的场景,这就是我们现在正在感受到的变化,它的核心就是把一个了解世界上各种知识的东西,变成一个对人有用的东西,我觉得大多数时候真正的护城河在最后一公里,这些话背后有很多关于AI前沿模型,如何被训练评估和落地的细节,那我们就一起来听听这期完整对话
Matt Turk:你需要达到这样的可靠性水平,才能真正让这些AI工具有用起来,我觉得至少在OpenAI 我们大概是在去年12月跨过了这条线,现在我们可以信任这些模型,让他们承担我们正在做的很多工作,过去几个月确实挺疯狂的,我们从竞赛场景,走到了真正对用户有用的场景,这就是我们现在正在感受到的变化,我觉得大多数时候拼紧都在最后一公里,不同垂直领域里,这最后一公里永远还有很多空间,我也非常鼓励大家继续在这方面努力,大家好,我是Matt Turk 欢迎收听MAD Podcast 今天的嘉宾是Yann Dubois 他在OpenAI共同负责Post Training Frontiers团队,最近发布的GPT 5.5是AI领域又一个重要里程碑 Yann的团队参与打造了它,也参与了OpenAI之前的顶级Reasoning模型,包括OC和GPT-5 Thinking 在加入OpenAI之前 Yan在斯坦福工作,她共同参与了 Stanford Alpaca 这个标志性项目,推动了现代Post-Training 研究社区的很多发展,在这次对话里,我们会深入聊聊GPT-5.5 到底新在哪里,为什么Reinforcement Learning 正在从数学和编程竞赛,走向更混乱的,真实世界工作,为什么AI进展,有时会像突然跃迁一样 以及为什么在ChatGPT出现三年后 Continual Learning仍然是 AI里一个重要的未解难题,希望大家喜欢这次,和Yan Dubois的精彩对话。Yan 你好欢迎。 [00:02:18]
Yann Dubois:你好 Matt 谢谢邀请我来,过去几周 Frontier AI世界又很疯狂 GPT 5.5发布了 Cloud Mythos Preview也发布了,所以感觉我们好像又解锁了,一次进展上的跃迁,尤其是在网络安全和agent coding方面,站在你的角度应该怎么理解这件事?
Matt Turk:事情是在加速吗,到底发生了什么,过去几个月确实挺疯狂的,我们内部也非常明显地感受到了这一点,我觉得任何在写代码和代码打交道的人,现在基本都能感受到,我觉得这主要有三个原因,第一个是,在我看来,进展其实一直是相当连续的,但你需要达到某个可靠性水平,才能真正让这些AI工具,又用起来,我觉得至少在OpenAI 我们大概是在去年12月,跨过了这条线,那时我觉得,我们真的跨过了那个门槛,现在我们可以信任这些模型,让它们承担,我们正在做的很多工作,所以它感觉像是一次 step function 像突然跳上了一个台阶,但我认为,从能力本身来看,其实进展是相当连续的,这是第一点,第二个原因是,一旦你开始有了非常强的模型 你自己也会被加速,尤其是在写代码这件事上,因为我们内部所有人都写代码,这些模型会加速,你一方面,他们可以帮助训练其他模型,另一方面,他们也可以帮我们搭建研究人员,做工作所需要的tooling 我觉得所有这些加速叠加起来,就意味着我们看到,过去几个月的速度越来越快,第三点是,我觉得我们现在感受到的是,去年一整年,我们都在围绕这些reasoning模型,构建也非常用力的推进reinforcement learning 一开始我们有O1 甚至是O1 preview OC 这些模型仍然主要针对我们所说的 verifiable rewards来优化,也就是那些我们真的能拿到ground truth的任务,也就是说很容易测试你的答案,到底对不对,比如数学题或者编程竞赛,就是这样的情况,我觉得我们现在意识到的是 我们可以把为这些verifiable reward场景打造的很多工具,拿到更一般的真实使用场景里,用来做reinforcement learning 我觉得这就是为什么我们现在,在真实世界写代码里会感受到这种变化,而不只是竞赛里,所以我们从竞赛场景 [00:04:38]
Yann Dubois:走到了真正对用户有用的场景,这就是我们现在正在感受到的变化,明白很有意思,我们接下来会展开了很多内容,尤其是RL这一块,先说你提到的第一点,可靠性,你说的可靠性是工程问题吗,是模型问题吗,一个模型到底怎样才算可靠,这里面什么都有一点,但总体来说,因为这些是agent模型,如果你把它想成 [00:05:52]
Matt Turk:每两分钟都有一定概率会出错,那它运行的越久,最后答案出错的概率就越高,所以这其实是 agent模型里内在存在的东西,我们一直在重点推进的一件事,就是确保模型每运行两分钟,出错概率都能降下来,这只是从模型角度来说,当然在应用侧,也有很多可靠性方面的工作 OpenAI的团队,在这方面做得非常出色
Yann Dubois:但我这里甚至只是在说,我们模型本身的可靠性,也就是确保,我们基本上能降低,它出错的概率,很好,所以GPT 5.5之前叫Spud 刚才也提到了,它是一次很重要的发布,现在也是很重要的产品,我很好奇,从内部看,你们最自豪的是什么,你们觉得最有挑战的是什么,给我们讲讲你们发布踏实的感受 [00:06:44]
Matt Turk:说实话我们都对,无变辅非常兴奋,这是那种全公司,每个人都深度参与打造的模型,我觉得我们现在,真的能感受到这一点,无变辅,给我们带来了很多关注,而且感觉像是,天时地利都对上了,这种情况并不总是会发生,对这次发布来说,它就是一个很棒的模型,所以我们确实能感受到这种情绪,大家一开始非常兴奋,后来又没那么兴奋了,我们最终发布了它,外部反馈也很好,这是因为5.5引起了很多关注,好像所有条件都刚好配合上了,这种事并不总是发生,这次它就是一个非常适合的模型,所以我们确实有这种感觉,我们会经历一波情绪起伏,大家一开始很兴奋,后来又没那么兴奋,最后发布出去,外部的人很满意 [00:07:12]
Yann Dubois:这个过程一般要多久,包括这种兴奋感上下波动的过程,我猜这取决于具体发布,也取决于每次发布的重要性
Matt Turk:但大概是几周还是几个月,这真的要看情况,我不能具体讲 5.5里面到底做了什么,但它确实取决于很多因素,其中一个因素是模型训练,流水线里的哪一部分,在训练,我们有不同的子团队,包括pre-training 也有mid-training阶段,还有post-training 通常你越接近产品 post-training是最后一段,迭代周期就越快
Yann Dubois:如果你更靠上游,迭代周期就更慢,所以范围,可能从几个月到两天,基本就是这样 Farponf 在agentic coding computer use knowledge work 和早期科学研究方面,特别强,你们内部是怎么做的,是不是不同的人,分别负责这些不同部分,你们怎么得到这样的结果,我们确实有不同团队 [00:08:40]
Matt Turk:专门做特定use case 并且推动这些use case的能力,提升我自己的团队,具体来说,是把所有这些纵向改进拿过来,尽量整合进最终模型的团队,你可以把它理解成一个,同时做平滑函数的团队,也就是说你有很多改进,但你需要确保模型,不要显得太尖锐,不要在不同vertical上,表现得像完全不同的东西,同时也需要有团队去做横向改进,我的团队基本上就在做这个,比如instruction following function calling 或者思考模型,在不同问题上应该想多久,这些都是很横向的能力,会影响所有这些use case 所以我们既有更纵向的团队,也有更横向的团队,两类团队对提升模型都非常重要,好的一点是这些事情,某种程度上可以彼此独立地改进,你可能有多个不同团队,在做某些vertical [00:09:05]
Frontiers团队与模型效率
# #552. AI进展为何突然变得真实:详解 GPT 5.5、强化学习与模型最后一公里
目录
- 在做某些vertical [00:09:59 - 00:20:00]
在做某些vertical
Matt Turk:在做某些vertical 某个模型的最后一次打run里,也许只有其中一半团队的成果,被整合进去了,并提升了模型在这些能力上的表现,到下一个模型,也许就是另一半团队的成果,被整合进去,从高层来看,基本就是这样运作的,还有一件事,因为你也问到,我们对这个模型最自豪的地方,我会说有两点,第一是模型的效率,我们真的大幅提升了模型效率,现在大多数任务用这个模型,基本上可以快两倍完成,这很棒,第二点我前面也提到过,就是整个公司的对齐,确保每个人都朝着同一个目标努力,这真的需要整个公司,都围绕同一个北极星,在特定时间线内,一起打造一个好模型,我们能做到这一点,我非常非常自豪
Yann Dubois:说到效率,你们是怎么优化的,我们说的是每个token的效率吗,还是也包括serving模型时的latency 哪一部分属于AI research 哪一部分属于engineering
Matt Turk:这就是我说,这是整个公司共同完成的意思,当我说效率的时候说的,是整个公司都参与,其中是每个token的效率,也包括服务模型时的latency 这件事里既有AI research 也有engineering 你可以这样想,模型在回答时会产生一定数量的token 而token数量和性能之间有一个关系,你可以把X轴看成token数量,把Y轴看成性能 AI research做的一部分工作,就是让模型用更少token 达到同样或者更好的性能,然后inference也会处理这个X轴,只不过它会把token数量换成实际latency 最后大家真正关心的是 X轴是latency Y轴是性能,所有事情最后都会回到这里 5.5这次真正发生的也是这个,所以我才说,这一次我真的为整个公司感到自豪
Yann Dubois:我们花一分钟聊聊你自己,你在Post Training Frontiers团队,你刚才说这个团队是横向的,那这个团队总体上是做什么的,我们主要做三件事 [00:11:55]
Matt Turk:大范围来说,我们属于Post Training组织,我的团队是Frontiers这一块,我们团队做的第一件事,是决定最后那次大训练里放什么,像前面说的,有很多垂直方向,需要有人决定什么能放进去,什么不能放进去,同时我们也要给大家提供科学实验,让他们可以在一个能代表最终大训练的设置上,反复迭代,这是我们团队做的第一件事,第二件事是把所有东西整合到一起,真正跑那次大训练,你可以想象,我们会用相当多的GPU来训练,所以这里需要很多Infra工作,同时也需要很多ML工作,要把所有东西放在一起,并确保他们彼此配合的很好,第三件事是做模型的横向改进,有些事情这些垂直团队通常不会看太多,比如我刚才说的thinking time 也就是模型在某些回答上应该思考多久,还有instruction following function calling memory 这类东西以及跨整个模型战的通用改进,这就是pushing frontiers团队做的事情,我现在负责这个团队,明白很好,那你是怎么进入OpenAI的,这个故事很长,不过我尽量讲短一点,我本科在瑞士学的是,生物医学工程,我来自瑞士,后来我去加拿大交换,接触到了Word2Vec 不知道你有没有听过这个算法,它基本上是把单词,这种离散的东西,放到一个向量空间里,换一种直观的说法,就是把它们放到一个平面上,彼此更相似的词会离得更近,所以它把这些离散的词,带到了一个连续空间里,而且这个空间在语义上是有意义的,当时我完全被这个算法震撼了,也是从那时起 我决定自己想做natural language processing 想去理解语言,那时候我的判断非常错误,我以为英语NLP基本已经解决了,或者接近解决了,那是17年正好是transformer 刚开始的时候,其实是在transformer出现之前,所以我当时非常错,但我决定去研究under-resourced languages 也就是数据没有那么多的语言,想提升这些语言上的NLP 所以后来我去了新加坡的Grab工作,我当时基本是在给他们搭 Natural Language Processing Pipeline 处理巴哈萨、泰语、越南语,以及其他很多不同语言,中间我跳过一些经历,后来我在不同国家,做了更多偏学术的工作,最后去了Stanford 在那里读了PhD之后,我短暂做过一段创业公司,然后去了OpenAI 我记得在你的播客 [00:13:54]
Yann Dubois:或者个人页面上,看到过一条说明,写给QuantFirm 说不要联系你,因为你对Hedge Fund工作不感兴趣,对,我一直觉得,对我来说很重要的一点是
Matt Turk:要思考自己对世界产生的正面影响,至少是我努力想产生的正面影响,所以那句话才会放在那里,对,就像我们开始录之前说的 [00:14:59]
Yann Dubois:大家可能在GPT-5的发布视频里见过你,你当时做了一个很有意思的演示,现场搭了一个EPIP 用来教你的伴侣说法语,所以大家应该去看看那个演示
Matt Turk:没错,那次挺好玩的,真的挺好玩 GPT-5当时还没有那么稳定,所以我有点紧张,担心他跑不起来,不过最后他确实跑起来了,所以那是真的,现场演示
Yann Dubois:我猜应该排练了非常非常多次,但确实是live 其实就在我们做演示之前,最后一次彩排的时候,它没有跑起来,所以我当时有点紧张,不过看起来真正live的时候,效果不错,是压力当然不小,但最后呈现的非常好,好很酷,那我们来拆一下,开头提到的几个点,我们一开始其实是在聊 reasoning 我很好奇 2026年的reasoning 和我们当年围绕,欧或欧能聊的东西相比,到底有什么不同,尤其是5.5的一个说法,也是我作为用户的体验,是他特别擅长处理Messy Data 这似乎意味着,他需要在更多模糊性里,推理到底发生了什么变化,我会说 [00:15:38]
Matt Turk:欧汪和欧汪Preview 对研究社区来说,确实是非常大的突破,他们证明了模型可以思考,而且思考的越久,答对的概率就越高,这真的很突破,但一开始,如果你看以前的播客文章,主要会看到数学 EVO也可能有一些编程竞赛,也就是那些,很容易判断对错的任务,这也能让你大概看出,我们当时是怎么训练这些模型的,我对去年一整年,尤其是去年年底,和今年年初的理解,是我们把这些依赖可验证 reward的算法,也就是能明确说,你对了或者你错了的东西,带到了混乱的真实世界里,然后我们开始真正优化给用户带来的使用价值,让用户更高效,我觉得这才是真正改变的地方,所以很大程度上是 [00:16:30]
Yann Dubois:Post Training里的Reinforcement Learning这部分,我会说是的,不过这里还有另一个很大的部分,第一件事是,当你开发一种新方法时,这个方法当然会比较脆弱
Matt Turk:也没那么可靠,很难真正产品化,这一部分也进步了很多,另外更重要的是,我们有了一个工具可以开始针对不同目标去优化,一开始开发这个工具时,我们对真实世界做了很多简化假设,现在我们在逐步去掉这些简化假设,至少在训练里我们已经能够真正优化用户价值,确保这些模型有用,也确保我们看的任务本身是有用的,这也是为什么现在的Evol看起来真实的多,如果你想想GDPVal或者看看Cbench Pro Cbench 它们都比我们在01时看的Codeforces [00:17:32]
Yann Dubois:或编程竞赛真实的多,还是回到reasoning这个话题 5File Thinking和5File Pro最终有什么区别,是不是只是更多Test Time Compute 更多Token 以及在解决一个问题上投入更多时间,对基本上就是我们往模型里,或者说往我们发布的整个系统里,投入多少Test Time Compute的问题
Matt Turk:我们一次又一次看到模型思考的越久答案就越好,问题是我们说的这些曲线绝对不是线性的,它们会有平台期,在某种意义上看起来有点像对数曲线,当然也取决于具体EVO 所以你可能投入两倍compute 但实际只得到很小的性能提升,我个人不太用pro 因为我真的不喜欢等,我挺没耐心的,所以不喜欢等那么久,我知道答对的概率肯定会提高,但对我来说提升还没有大到,让我愿意用它,但有些人会用pro 而且非常喜欢,尤其是在学术研究里,我知道很多数学家特别喜欢用它,因为他们会把这个任务放在后台跑,可能跑一个小时,两个小时,他们并不需要和模型,非常快速的来回迭代 pro就非常适合这种场景 [00:18:34]
Yann Dubois:我想把这个和你前面提到的,每个token的效率对上,这里的意思是不是,你可以思考更久,同时也更高效,所以能把任务解决得更好,时间这个因素和效率这个因素,到底是怎么相互影响的,如果回到我刚才说的那张图 X轴是延迟 Y轴是性能,当我们说效率越来越高时
Matt Turk:本质上是在把这条曲线往左移,也就是说我们变得更高效了,用更少的时间达到同样的性能,但Pro做的是延长这条曲线 [00:19:50]
预训练、中训与后训练
# #552. AI进展为何突然变得真实:详解 GPT 5.5、强化学习与模型最后一公里
目录
- 但Pro做的是延长这条曲线 [00:19:57 - 00:30:00]
但Pro做的是延长这条曲线
Matt Turk:但Pro做的是延长这条曲线,它的意思是,我会思考更久,但答对的概率会更高,不过Pro模型的每一次迭代,也会把曲线往左移,所以它本身也会越来越高效,关键在于总会有一些任务,你只想尽可能提高正确概率,根本不在乎延迟,比如我睡觉前,启动一个任务,模型有8个小时,那它就应该尽可能多想一会儿,这大概就是它能带来的价值,用普通人的话说,这在实际中是什么意思
Yann Dubois:或者实际是怎么工作的,如果模型走错方向,它会更早打断自己吗,这是其中一个维度吗,如果说效率的话,这里有两件事,你问的是效率吗,你是问效率,具体是什么意思,对,效率,是的,主要是效率,我只是很好奇 reasoning到底是怎么变得更强的,这个问题很好,我可以先用人来打个比方,比如一个人
Matt Turk:是某个领域的专家,你把他和一个刚开始学,这个领域的本科生相比,本科生做同一个任务,可能要花一天两天,他得把很多可能性都想一遍,还要去调查,因为他以前没做过这类问题,但这个领域的专家,通常会直接知道该往哪个方向走,他不会花时间去研究十个不同方向,因为他知道其中一个方向,更可能是对的,我们说的效率就是这种效率,本质上是我们把模型,更多地优化在真实世界的问题上,结果就是模型被训练的更能判断,哪些推理路径更可能是正确的,这是效率的一部分,你刚才提到的另一部分是,模型知道自己什么时候走错了路,这也是可以用强化学习训练出来的,模型会知道好像这条路不太对,那我退回去
Yann Dubois:换个方向再测试,如果模型训练的少一些,他可能要晚很多,才会意识到自己走错了路,听起来很多东西又回到了,强化学习和Post Training 那我们来聊聊,现代AI系统里的不同组成部分,我们可以讲讲 Pre Training Mid Training 和Post Training 因为Post Training很重要,我们可以多花点时间在上面,先从Pre Training开始,先从高层次讲起,我也理解,有些内部做法,你可能能讲,也可能不能讲,在5.5这个具体背景下,发生了什么,去年的一个大叙事是 pre-training快撞墙了,接下来不会带来太多进展,但到2026年看起来情况完全不是这样,你能不能带我们梳理一下 pre-training现在到底发生了什么,为什么它现在还在进步,而且是以去年很多人没有预料到的方式进步 [00:21:48]
Matt Turk:关于pre-training内部具体发生了什么,我不能讲太多细节,我能说的是团队确实做了很多很好的工作,我们的模型也在变得越来越好,有一点我想强调,尤其是我们刚才谈到效率的时候,如果模型更大,它需要的思考时间,也就是它用于思考的token数通常会下降,你可以这样理解,打个比方,模型在生成某个token的时候,其实已经在它的权重里完成了一部分思考,所以如果你增加正在训练的模型规模,就可以减少它为了思考而需要生成的Token数,很多时候只要增大模型规模,也就是Pre-trained 更大的模型就能得到更高的效率,更大模型的好处是,在Inference的时候它们更容易被并行化,你可能会想模型生成的Token更少,但模型本身更大,所以整个系统的效率可能反而下降 但事实不是这样,模型越大你就越有机会,针对GPU上的Inference做优化,所以你能够让整个系统变得更高效,这是我想说的一点,更大的模型其实能带来很多效率提升,除此之外,说到pre-training 我觉得这件事很有意思,其实大概两年前,我也曾经觉得pre-training可能快撞墙了,但如果我们只看anthropic 比如从成本来看 Opus 显然像是一个大得多的模型,顺便说一下,通常你就是这么判断,一个模型是不是更大,你看每个token的成本,很明显他们只是通过增加模型规模,就得到了很好的性能,所以我觉得这个领域,至少领域里的一部分人,对这一点是感到惊讶的,之前有很多关于数据墙的讨论,但现在看起来,我们并没有真的撞上那堵墙,模型越大 训练它需要摄入的数据就越多,看起来不同公司都找到了不同办法,来应对互联网上数据 [00:23:46]
Yann Dubois:没有那么多这个事实,那下一个前沿,或者说现在的前沿是数据吗,是multimodal data 还是synthetic data 我觉得在数据受限的情况下 synthetic data可能会很有用 [00:24:48]
Matt Turk:multimodal也是个很有意思的方向,我当然不能谈,我们内部具体怎么做,但我以前做过 multimodal representation learning 那时候我一直觉得,如果有大量multimodal data 会很有助于提升推理能力,我现在还是这么想,不过比如你看 Anthropic的模型,它们在Multimodal上,通常没有那么强,但依然非常聪明,所以看起来Multimodal Data 并不像我过去以为的那么必要,但我仍然相信,等我们走向Embodied Agent Embodied AI的时候,模型会通过理解世界,如何相互作用,学到很多关于世界的东西,这也会提升通用智能,以及对用户的实用性,不过至少从Anthropic的模型来看,它们似乎不需要那么多Multimodal Data 也能做出很强的模型,你说的embody intelligence
Yann Dubois:是指可能包括机器人吗,比如,如果你用一段视频,展示重力是怎么运作的,机器人又是怎么在空间里移动的,那理论上会更有用 [00:25:52]
Matt Turk:你的意思是这样吗,对,很多人都有过这样一种直觉,我自己也长期这么想,只通过文本,很难理解这个世界,比如,不真正看到东西下落,就很难理解物理是什么,也很难理解重力是什么,但你看我们的模型,他们其实在,没真正看过这些东西的情况下,也某种程度上理解了重力,可是这件事仍然不那么显然,他们好像还是可以理解的更多,而且仍然缺少一些,常识层面的东西,所以我确实觉得,让模型在真实世界里互动,会提升我们模型的常识能力,但我觉得我们离那一步还挺远
Yann Dubois:这里的我们,我是泛指学术界和整个AI社区,大家看起来都还离那一步挺远,既然说到这里,我们稍微绕一下,这就引出了World Models这个概念,先把你的OpenAI身份放到一边,你看好World Models吗,如果你说的World Models 是指可以尝试复制或者模拟事物,也就是基本上在一个模拟环境里工作 [00:26:45]
Matt Turk:那我觉得是可以的,但问题是Simulation永远会非常难,而且不可能完全真实,所以我认为始终都需要有一部分训练发生在真实世界里,让模型意识到模拟世界和真实世界之间的这些不匹配,而且我觉得我们这个领域有一种倾向,会去优化某个模拟出来的,或者不完全真实的东西,甚至优化到已经没有太大用处,之后还继续优化,所以这是我觉得我们需要一直警惕的地方,我们会花很多时间和精力去优化一个模拟的,或者不够真实的目标,一开始这很好,但当你开始对某个东西,优化过头的时候,它就不再能代表真实世界了,可人们还是会继续做,因为他们已经这么做了很长时间,所以我只是觉得,大家需要意识到
Yann Dubois:什么时候该停下来,我自己不太做这类 synthetic environment 主要也是因为我不做 embodied AI 所以我不知道我们是不是,已经遇到这个问题了,好,好那我们回到 pre-training mid-training Post-training 我们来聊聊Mid-training这个词,大家可能听得少一点,出现得也少一些,它是什么,为什么重要 Mid-training [00:27:59]
Matt Turk:就是介于Pre-training和Post-training之间的东西,名字本身也能看出来,它在整个Pipeline里处在中间位置,核心想法是,如果你有高质量数据,而且这些数据更能代表,你最终希望模型具备的样子,那你就应该在这类数据上多训练一些,退一步说 Pretraining是什么,从高层看 Pretraining基本上就是通过学习互联网上的一切,来学习世界上的一切,问题是互联网上大多数东西其实没那么有用,比如Wikipedia或者GitHub 这种代码数据里面的信息量,看起来就比一些随机论坛要大得多,有些随机论坛可能没有那么多信息,再比如广告,互联网上也有很多广告,你大概不希望在这些内容上训练太多,但在Pre-Training里,我们会训练所有东西,而在Mid-Training里 我们基本上会给这类高质量数据更高权重,因为我们认为,它们对训练最终模型更有用,我不能谈这里每家公司内部具体发生了什么 [00:28:24]
Yann Dubois:但这件事现在肯定在整个学术界都在发生,所有Open Source模型也都有Mid-Training 这个阶段,很好,接下来是Post-Training 我们先从高层定义一下它是什么,这里面有reinforcement learning 但reinforcement learning不是post-training的全部,还有什么,就要看你怎么定义,这个词也要看你把边界划在哪里,在我看来
Matt Turk:post-training可以按很宽泛的意思来理解,包括所有reinforcement learning [00:29:54]
强化学习如何进入真实世界
# #552. AI进展为何突然变得真实:详解 GPT 5.5、强化学习与模型最后一公里
目录
- 包括所有reinforcement learni [00:29:58 - 00:40:00]
包括所有reinforcement learni
Matt Turk:包括所有reinforcement learning 以及我们为reasoning models做的训练,它的核心就是把一个了解世界上各种知识的东西,变成一个对人有用的东西,我理解pretraining时,喜欢用一个比喻,你走进图书馆,里面有很多关于各种主题的书,理论上你想要的信息,都能在图书馆里找到,但更有用的是和一位,读过这些书的专家对话,你可以向他提问,他能回答也能理解你真正想找的是什么,所以从很高的层面看 Post-training的目标,就是让模型对用户更有用,也更容易交互,这里面有多个阶段,我主要或者说我只会讲OpenAI之外,正在发生的事情,以及通常会有的那些阶段,通常会有一些SFT It is supervised fine tuning 是supervised fine tuning 对 supervised fine tuning 早期我们看到的大多数模型,其实只做了supervised fine tuning 它的想法是,如果有人能给你理想的最终答案,也就是人给你gold answer 那你基本上就可以复制人的行为,这就是我们说的behavior cloning 但问题是,你永远不会超过ground truth能给你的水平,而人在很多方面其实是很受限制的,所以你永远不会超越和你合作的那些人工标注员 reinforcement learning 或者说reinforcement learning阶段,会从behavior cloning走向真正优化reward 他的想法是我不知道ground truth是什么,也不知道完美答案是什么,但我可以判断一个答案是不是正确,也可以说明我希望答案里有哪些东西,然后你开始优化,你让模型尝试,获得更多reward 也就是更多的优化,这个reward function 我们就是这么叫它的 这样它就能超越,你当前已有的水平,超越人类能做到的水平,或者至少超越,和你合作的那些人,能做到的水平,所以我会说,这是两个大的阶段,然后在reinforcement learning里面,具体取决于训练的是什么,模型,至少在开源社区里,大家做reinforcement learning的方式,似乎有不同路径,尤其是当你有可验证reward的时候,也就是那种reinforcement learning 你很容易判断某件事,对不对,而且基本上可以给一个二元reward 这就回到我们之前谈过的O1和O1 preview 然后还有一种reinforcement learning 我觉得是没有可验证reward的情况,也许我可以做pairwise comparison 说这个答案比另一个答案更好,但我并不真正知道,也不能很确定地说,这就是完美答案,当然,这其实是一个连续谱 中间有各种情况,但我会说整体思考 Post-training的时候,可以先抓住,这三个高层次的东西,开源世界里通常的做法是,先做SFT 复制那些你能从网上,或从人类那里收集到的行为,等模型已经达到一个,相当不错的水平之后,再做Reinforcement Learning 去超越我们当前已有的东西,因为如果你一开始就从reinforcement learning做起,会非常低效 reinforcement learning的问题在于,你基本上必须碰巧试到正确答案 reinforcement learning的工作方式,是你从正在训练的模型里踩牙一样很多次,然后判断这个是对的这个不是,接着你告诉模型多做那个正确的,所以你必须碰巧撞上正确解法,因此更好的做法 [00:32:39]
Yann Dubois:是先尽量接近你能做到的最好水平,这就是behavior cloning 然后再做reinforcement learning reinforcement learning会创造新的能力吗,还是说它只是让模型
Matt Turk:在已有能力上做得更好,这真的很难说,因为pretraining 用整个互联网来训练,可以说里面已经包含了所有能力,所以这个问题就算从科学上,也很难回答,因为可以说一切都已经在那里了,我会这么说,如果你看两年前,我们在训练的模型,或者开源世界里大家在训练的模型,比如我参与过的Alpaca 我们当时用了5万个样本做SFT 但现在你看Kimi这类模型,或者DeepSeek模型里的reinforcement learning 数据点似乎更接近100万个,所以大家确实把reinforcement learning 这个阶段扩大了很多,从结果看,他们好像学到了一些新能力,比如推理能力,也就是能检查自己的答案,再尝试改进,所以模型可以思考更久,得到更正确的答案,总的来说,可以说一切能力 本来就已经在pre-training里了,但在过去一年半里,即使是在开源世界 [00:33:41]
Yann Dubois:我们也确实能在reinforcement之后,得到比以前更多的能力,我听过好几次这种说法,说reinforcement learning很难调,也很难扩展,我们整个行业一开始,在LLM的进展曲线里,没有把reinforcement learning做进去,部分原因正是它很难做出效果,扩展 RL到底难在哪里,是数据级的问题吗,是你不知道reward是否正确吗,还是别的原因,我觉得两年前,在学术界和研究圈里,大多数没有做过reinforcement learning的人,可能都会觉得reinforcement learning 根本不好用 [00:34:40]
Matt Turk:而且太难调,没法实际使用,我以前也是这种人,其实当我看到ChatGPT发布时,他们有一篇播客,当时我还不在OpenAI 我看到那篇播客,说他们用了Reinforcement Learning 我的第一反应是,我不用Reinforcement Learning 也能做同样的事,因为这只是一个过度复杂的方法,我们后来做Alpaca的初衷,其实正是这样,试着只用SFT来复现它,也就是只做Behavior Cloning 还有一个很有名的说法,把Reinforcement Learning比作蛋糕上的樱桃,所以我觉得这确实是大多数人的直觉,但看起来当模型跨过某个规模之后,它已经基本知道世界上的一切,也就是我们说的对世界有很好的priors reinforcement learning就开始变得有效了,这不只发生在ALM上,机器人领域似乎也在进入同一个阶段 大家开始意识到它以前确实很难调,但现在我们用的模型本来就已经很了解世界,它其实学得相当好,现在回答你问的 reinforcement learning仍然复杂在哪里,第一是infra的问题,就像系统问题一般都很复杂一样 reinforcement learning从很高层看,基本上就是我前面说的,要采样很多答案,然后判断哪些是正确的,哪些不是,这种采样本身非常昂贵,而且你必须大规模的做另一个问题,现在开源世界里,大家也正在看到,就是当我们训练更有genetic的系统时,只有在一个很长的rollout结束时,你才知道结果是否正确,所以每个token能得到的关于对错的信息非常少,这就很难做attribution 也就是说很难判断整个回答里的哪一部分,导致了最后的错误 这更像是machine learning这一侧的问题,在machine learning的理想世界里,我希望能明确地说,这一步做得好,以后多做这个,但问题还是在这些agent系统和reinforcement系统里 [00:36:12]
Yann Dubois:你只有到最后才知道哪一部分好,哪一部分不好,这是reinforcement learning的另一个大问题,现在reinforcement learning的前言是什么,听起来这里有一大片缩写的丛林,比如GRPO还有其他技术,你们在用什么,你对什么感到兴奋,你觉得哪些方向有前景,我不能谈我们在用什么,但比如在开源世界里
Matt Turk:GRPO看起来效果很好,以前大家用过不同的方法,比如PPO DPO 现在大家似乎真的都收敛到GRPO这种方法上了,它和其他方法最大的区别是,你还是用我刚才说的那种简单方法,尽可能多地采样答案,然后判断哪一个是正确的,所以从某种意义上说 GRPO是一个非常简单的方法,在machine learning里,我们一次又一次看到,只要一个最简单的方法,可以随着compute扩展,最后通常就是它效果最好,这里发生的事情大概也是这样,至少在开源世界是这样 [00:37:44]
Yann Dubois:你刚才描述这些挑战时,我脑子里冒出一个问题,你经常会听到一种说法说 AI系统不是被建造出来的,而是被种出来的,你会怎么描述这件事,在你的日常工作里,哪些部分是科学,哪些部分更像手艺,或者说是不断尝试很多东西,然后保留最有效的做法,这是个很好的问题
Matt Turk:我觉得通常的过程是,它一开始更像一门手艺,大家会尝试很多东西,然后慢慢形成一种直觉,知道什么有效,什么没用,随着时间推移,我们会从这种手艺阶段,走向更科学的方法,真正先跑通的,往往不是一开始就很科学的东西,很少会出现这种情况,你用一个非常科学的方法说,这就是最优做法,然后照着做,它就直接成功了,更多时候,里面有一点炼金术的感觉,有人就是对某件事有很好的直觉把它做成了,然后其他人或者这个人,自己再开始用非常科学的方式去改进,我们正在做的事情,我会说这种情况在machine learning里,一次又一次发生,先是手艺,然后是科学,两者都非常重要,只是处在流程的不同阶段,从工程角度看,这也是一直都必要的能力 所以我会说,大多数研究员现在都变得相对擅长这件事,我不一定会说,他们都是很好的工程师,但他们至少擅长,在复杂系统里工作,能弄清楚自己需要尝试什么,而且我们现在用的系统和infra 也变得越来越复杂,所以很明显需要做的工作 [00:39:40]
泛化、幻觉与能力边界
# #552. AI进展为何突然变得真实:详解 GPT 5.5、强化学习与模型最后一公里
目录
- 所以很明显需要做的工作 [00:39:58 - 00:50:01]
所以很明显需要做的工作
Matt Turk:所以很明显需要做的工作,也会随着时间变化,很有意思,那我们还是继续讲
Yann Dubois:reinforcement learning 也回到你一开始提到的一些东西,如果我想让我的模型,在computer use 代码生成,或者其他某个领域变得更好,那我是不是要专门花一段时间,为computer use做reinforcement learning 整理一个数据集,然后设计rewards 事情是这样运作的吗,就是选一个问题,然后专门针对它做reinforcement learning 通常是这样吗,我更多讲reinforcement learning 是因为这也是我最了解的部分,也是我长期一直在推进和研究的方向
Matt Turk:我们前面也聊过Mid Training 所有这些东西也都极其重要,而且你可以在流程的不同部分去提升它,就像我前面说的,你离模型最终阶段越近,通常训练规模就越小,所以你可以很快迭代,因为这时候你可以按天来迭代,而不是按月来迭代,所以通常大家会从这种快速迭代循环开始,然后再往更深的地方走,在整个技术战上做更大的改动,所以我不是说只有reinforcement learning重要,我真的不是这个意思,只是说这就是为什么大家会先从那里开始改,然后这些改动会向下渗透,我们会更深入的进入技术战,事情就是这样运作的,在开源世界里也很像,我觉得你看到的post-trained models 远远多于新的pre-trained based models 你也会看到更多算法上的改进
Yann Dubois:所以我们才会聊到GRPO DPO PPO 现在有很多XPO 原因就是大家可以在流程最后这个阶段非常快速的迭代,那这些模型参差不齐的特点,是不是就来自这种做法,也就是挑这个问题,挑那个问题来优化,所以模型在这些问题上会非常强,但在其他问题上没那么好,还是说这其实是AI模型更根本的一种特征,这里面肯定有这个因素,如果你在某些特定类型的问题上优化的更多,那你在那个场景里肯定会更好 [00:41:37]
Matt Turk:但我的直觉是,关键不在于你优化的具体问题,而更在于你优化的是哪一类问题,比如如果你的模型很擅长数学竞赛,那它很可能也会比较擅长编程竞赛,所以重点不是领域本身,而是完成这些任务所需要的技能,以及思考方式,也就是你执行这些任务所需要的横向能力,我觉得你通常看到的情况是,如果某个模型在某件事上很差,它其实会在任何领域,任何语言里都差,所以你要考虑这个领域,也要考虑这个领域会怎样泛化
Yann Dubois:而不一定是按单个领域去看能力,说到泛化,过去确实有一个很清楚的演进,先是在数学和coding上取得成功,现在开始覆盖不同领域,这就是GDP value那件事,对整个经济里的不同领域,评估模型表现,还是同一个问题,这是整体模型进步带来的结果,还是一种,有意为之的安排,比如说,好,现在我们要拿经济里的这一块,给它构建数据集,做mid training 再做post training 这种进展,是怎么从那些非常具体的领域,走向对世界其他部分的泛化的,这肯定是我们在主动推进的方向,我觉得大家都意识到了,包括我们和其他公司 [00:42:50]
Matt Turk:整个行业正在走向这样一个世界,我们真的想做出有用的产品,提高人们的生产力,帮助人们的日常生活,所以我觉得现在大家非常主动地在决定,哪些领域应该优先做,既然我们已经知道,有一套算法可以用到不同地方,那真正限制我们的,更多是能不能收集到合适的数据,能不能让真正关心某个问题的人,来做这个问题,但能做这些事的人并不多,所以你真的需要排优先级,所以这里的做法,是非常主动,非常积极的,总体来说,我会说模型的表现,很大程度取决于,有多少人在关心模型最终输出,有多少人在盯着这个模型看,如果他们开始更多关注,某些垂直领域,那这些垂直领域会进步的非常快,但还是那句话,能做这些事的人 [00:43:37]
Yann Dubois:并没有那么多,我想顺着你刚才提到的一点展开,现在模型是不是真的更能泛化了,尤其是从reinforcement learning的角度看,如果把一个模型在领域A或领域B上,训练得非常好,是不是就很可能让它在领域C上,也变得更好,哪怕你没有在领域C上,投入那么多精力去设计reward 我觉得泛化有不同的维度,一个是算法层面的泛化
Matt Turk:也就是说我为领域A 开发出来的算法,或者说这个black box 能不能用到领域B 至少目前来看,即使只看开源世界,大家似乎确实能做到,他们拿JR pole 用到很多不同地方,结果就是能跑起来,所以这种泛化看起来相对不错,这也是为什么我们能看到很多进展,否则进展会很难做出来,然后还有一种泛化是模型,在某一个特定的,运营上训练之后,它本身的泛化,这就是我前面提到的,至少在我的理解里,泛化是按能力来发生的,如果需要的能力是一样的,你就会看到跨领域的泛化,比如不同语言,比如coding 你可以针对C++ coding做优化,让模型成为一个不错的C++模型,而在C++上只做很少的训练,或者很少的RL 部分原因是pre-trained model 已经看过大量C++ 所以他已经大致理解了这门语言的基础,所以这种泛化肯定会发生,我觉得更难的泛化是,那些我们没有这种横向能力的时候,我给一个具体例子,如果我的模型很聪明,体现在它在竞赛题上回答正确,我经常举这个例子,因为它有点刻意,比如数学竞赛 coding竞赛,从人的角度看,擅长这些事的人通常就是聪明,或者至少有人会觉得他们就是聪明,而如果他们聪明,他们其实也能做别的事,但这对模型来说真的不成立,这种泛化真的不成立,因为很多需要人类在专家领域工作的事情,现实世界非常混乱,而这些coding竞赛和数学竞赛,题目都被规定得非常清楚,你需要有一种能力,去理解那些定义不完整的任务,理解怎么处理混乱的现实世界,还要理解为了回答问题 你到底需要哪些资源,比如你看数学竞赛,通常所有信息都在prompt里,可能是五行,也可能是十五行,但回答这个问题,所需的所有信息都在里面,但在真实世界里,如果我是一个顾问,或者我在金融行业工作,我需要上网,我需要找到并提取不同的信息,甚至在开始做任何推理之前,我先得理解这些信息,才有可能进行推理,而这种横向能力,通常不是自动就有的,如果你有这种横向能力,确实可以繁华,但很多情况下,我们并没有这种横向能力,所以这也是为什么LLM 其实会在每个领域都hallucinate 比如模型出现hallucination 如果一个模型非常不擅长说我不知道,那通常会发生在每一个领域,不会出现一个领域里 [00:46:45]
Yann Dubois:模型对自己知道什么,校准的非常好,而另一个领域里完全不行,稍微岔开一下 hallucination也是一个reinforcement learning问题吗,也就是说当模型应该说我不知道的时候,你去奖励他,说我不知道这种行为 John Shulman 关于这个有一个很好的演讲,我记得是一两年前的
Matt Turk:他说如果你做behavior cloning 也就是我们前面说的SFT 你基本上可能会在奖励和优化幻觉,原因是,如果你的模型不知道某件事,但你现在告诉它正确答案,就是把那件事说出来,那会发生什么,我说的具体一点,如果模型不知道某篇论文,而你给的答案,也就是人类给的ground truth 答案里说,我的信息来自这里,然后引用了那篇论文,那你实际上是在优化模型,去引用一个他并不知道存在的东西,因为他不知道那篇论文存在,所以John当时有一个很好的演讲,说SF会迫使模型产生幻觉,而在reinforcement learning里,像我刚才说的,你一开始某种程度上是从模型自己那里sample 模型sample出一个他不知道,但又正确的东西概率极低,真的极低,所以你永远不会奖励那种行为 你只会sample到他不知道,而且答错的东西,然后你会把这种行为压掉,所以关于幻觉 [00:48:53]
Yann Dubois:至少大家的直觉是,它可能来自SFT 也可能来自这种SFT流程,但如果你有好的reinforcement learning流程,这件事不应该太常发生,再回到generalization 有没有这样的例子,模型在一个领域变得更强,反而会让它在其他领域稍微变差,这有点像你刚才说的,有些人数学很好,有些人英语很好,但通常不是同一批人
Matt Turk:在具体领域里通常不会,更常见的情况是,你会根据要优化哪个领域来做取舍,如果你优化一个领域,你就没法在另一个领域上,投入同样多的优化,所以不一定是优化一个东西,会让另一个东西变差,而是结果上,你能给另一个东西的优化变少了,因为你受compute限制,受数据限制,也受人的瓶颈限制,真正会发生的是,在模型这些横向能力上,可能会出现,负向generalization 也就是不好的generalization 或者negative transfer [00:49:26]
评测、Model as Judge 与连续学习
# #552. AI进展为何突然变得真实:详解 GPT 5.5、强化学习与模型最后一公里
目录
- 或者negative transfer [00:49:59 - 01:00:01]
或者negative transfer
Matt Turk:或者negative transfer 我给你一个很具体的例子,显示指令遵循和影视指令遵循,如果我有一个模型,我们经常听到,比如open AI的模型,在你把想要什么说得非常明确时,它们往往表现很好,但结果是,有时候我们也会听到,如果你没有把想要什么说的那么具体,他们就没那么好,比如我打了个错字,我说修改这个文件,但文件名里有个tipo 一个在显示指令遵循上极强的模型,会去修改那个错误的文件,也就是带tipo的那个文件,但人类可能会意识到你是打错了,所以在一些情况下,这种显示指令遵循会和隐示指令遵循冲突,也就是说这些横向能力之间
Yann Dubois:有时候会互相抵触,也许我们可以用这个问题,来结束整个reinforcement learning的讨论,你的感觉是,随着我们从非常擅长coding 非常精进的其他数学,你觉得其他领域,也是一个可处理的问题吗,你觉得最终我们能达到,同样的表现水平吗,可以,但我要加一个,但是可以
Matt Turk:我们能做到,我不觉得这些领域,有什么特别深层的特殊性,导致我们不能优化,或者不能在其他领域达到同样的水平,但有至少两个原因,第一个是,做这些模型的大多数人都很擅长coding 而且他们真的很在意coding 因为那是他们日常使用的核心场景,没有什么比用户同时也是训练模型的人更好了,因为他们理解问题在哪里,比如对我来说,如果我完全不了解法律领域,那我就很难真正理解,模型在法律方面到底应该改什么,这是一个原因,另一个你经常会听到的点,我前面也简短提过,就是这种verifiable rewards 有些领域更容易判断,某个东西到底对不对,比如cyber 你前面也提到过 cyber能力提升了很多,模型的cyber能力提升了很多,原因是在cyber里 要判断你是否正确,非常容易,比如你发现的那个cyber问题,是不是真问题,这很容易测试,所以有些领域里 reinforcement learning 就是更容易应用,但我会说,模型的能力本身,并没有什么东西限制它,让它不能在法律,医疗,以及其他领域,做到同样好,所以简短回答是,我们对这些领域 [00:51:11]
Yann Dubois:了解的更少,而且确实有些领域,在reinforcement learning价值上,更容易优化,好我们先聊一会儿 EVE-ELSE 也就是模型评测,这是一个非常重要的话题,也许可以先从这里开始,为什么评估一个模型本身,就这么难,随着模型变得越来越强,评测也变得越来越难,原因是我们让模型,做的任务越来越通用,也越来越开放
Matt Turk:比如,现在我可能会直接说,帮我做一个,能完成某个功能的网站,但在过去,我可能只是问,你这个实现里,有没有某个具体bug 判断是不是bug 要容易得多,因为我可以提取出来,可以知道一个明确的问题,也可以让人类标出,这里有哪些bug 然后再自动去检查,但做网站这个例子就很难判断,什么是最优答案,因为好的答案有很多,做出某个网站也有很多种好方法,模型任务这种开放式的特点,确实让EVOS变得更难,还有一个问题是,在某些具体维度上,模型已经比大多数人类更强了,所以真正有能力,在这些具体维度上,评估模型的人越来越少,这当然也是一个限制,还有一个问题,说实话,有点文化上的因素,大多数人都想改进模型,而且他们会觉得 最好的方式就是训练模型,但实际上发现问题,并且确保我们能量化改进,至少同样重要,甚至可能更重要,可这里一直存在一种文化上的落差,我觉得这在学术界尤其明显,大概直到两年前 EVOS基本都是固定的 Benchmark也总是固定的,甚至数据集在某种程度上,也一直是固定的,也许可以说是四年前的情况,后来大家的心态发生了变化,开始意识到数据其实非常关键,现在有很多人在做数据,但我觉得EVOS还没有完全到那个阶段,大家都知道它重要,但并不是所有人都真正理解,投入EVOS会有多大的影响,所以我到OpenAI之后的第一个项目,其实就是我一进来就说,我想做数据和EVOS 因为我知道这件事没有多少人在做,也正因为这样 [00:53:48]
Yann Dubois:我知道做这件事会非常有影响力,现在风向是在变,但变得还不够快,那么在model as a judge 也就是让模型当裁判,以及AI评估AI这方面,进展速度也一样快吗,这是研究里一个独立的方向,还是说本质上还是同一套思路,同一类技术,本质上真的是同一种方法 [00:54:40]
Matt Turk:而且我们在EVOS里做的大多数事情,尤其是现在有了reinforcement learning之后,几乎都可以原封不动的用到训练里,所以这其实也是EVOS很复杂的另一个原因,因为每次你构建一个EVOS 本质上也构建了一种深层训练数据集的方法,接下来你就会去优化那个训练数据集,即使优化的不是那个EVOS 本身也会是同一类型的数据,然后模型就会在这个评测上表现得特别好,因为我前面说过,能力是会泛化的,你在另一个数据集上学到了能力之后,就会在这个EVAL上变得非常强,于是这个EVAL很快就过死了,所以这也是EVALS的一个问题,回到你的问题 Model as a judge真的很重要,我觉得它可能是最重要的事情之一,因为随着模型变得更强,我们会得到一个自我强化的循环 也会有一个能力飞轮,更好的模型会成为其他模型更好的老师,这对训练非常重要,然后你也可以把同样的事情,用在评估上,所以我的团队里有很多人,就在做这件事,我觉得去做这种model as a judge的框架,真的非常关键,好非常棒,那我们快到这次对话的尾声了 [00:55:05]
Yann Dubois:我想把视角拉远一点听听,你觉得接下来事情,可能会往哪里走,很显然预测几年后的AI 发展非常难,但我们就说接下来12个月 18个月,也许24个月,你的感觉是,事情会继续按现在这样推进,还是,我们正在走向某种,更像断点式变化的东西,如果说进展本身,就像我前面说的
Matt Turk:我觉得现在它总是连续的,但人们会感觉到断点式变化,三个月前,或者四个月前,在coding上就发生过这种感觉,我觉得现在这种感觉,会在其他每个领域里出现,大多数人,现在还没有像coding 和软件工程领域那样,感受到我们模型的能力和有用性,但我认为这种感受,一定会渗透到很多其他垂直领域,不过如果说能力本身的提升,尤其是在我们已经关注的那些垂直领域里,我觉得它会更连续,不会出现特别大的断点,大多数情况下都是局部的断点,但你把视角拉远看,它通常还是相当平滑的,当然也不总是这样,但大多数时候确实是这样,至于下一次大的断点,什么时候出现,我肯定没法预测,你怎么看AI里 [00:56:48]
Yann Dubois:循环加速这个大概念,比如continue learning 让模型更新,更快学习,再比如更广义的AI 构建AI 而且自动化程度越来越高,这里哪些是真实的,哪些更像想象,你又对什么最兴奋,我对continue learning 非常兴奋,我觉得我们还没有,真正攻克它,我们现在有codex memories之类的东西,确实有帮助 [00:57:39]
Matt Turk:但肯定还不是最终形态,我有个朋友总跟我说,还有一种图我们应该看,横轴是时间,纵轴是给用户提供的utility 也就是模型的有用程度,现在大多数模型在D0天,如果你直接把他们放进一家公司,可以说他们比大多数新员工更有用,所以他们在T0时起点更高,但随着时间过去,他们基本是横定的,因为他们并不会真正学到公司内部知识,也不会随着时间变得更擅长,更高效地完成自己正在做的事,而人类学得很快,重要的是这些曲线的积分,或者说曲线下面积,所以我觉得在很多情况下,人类仍然更有用,因此我们需要的是continuous learning 让这条曲线随着时间单调上升,也就是说,让模型在某个环境里,工作得越久就变得越有用 所以我对此非常兴奋,其实我也很惊讶,我们到现在还没做到,三年前ChatGPT刚出来的时候,我记得我在和朋友,做一个startup 我们当时就在想要不要做 continual learning 个性化,以及memories这类东西,我们当时觉得 OpenAI六个月内就会做出来,他们有所有数据也会想明白,而且他们有所有用户模型 [00:58:57]
Yann Dubois:会很快从用户那里,学到东西,但三年过去了,我觉得我们还没到那个阶段,用外行也能懂的话,简单说一下,根本难点是什么,这是个好问题,完全坦白说
Matt Turk:我其实不太知道,我不太知道,为什么我们花了这么久,还没把它弄明白,我觉得这类领域,如果我们真的投入足够多资源,应该是能做出来的,当然,尤其当我们谈到,公司内部的memory时,会有很大的权限问题,也会有很多隐私问题,比如什么能分享,什么不能在不同用户之间分享,抱歉,我刚才说成不同模型之间了 [00:59:34]
Harness、应用空间与最后一公里
# #552. AI进展为何突然变得真实:详解 GPT 5.5、强化学习与模型最后一公里
目录
- 我刚才说成不同模型之间了 [00:59:58 - 01:04:29]
我刚才说成不同模型之间了
Matt Turk:我刚才说成不同模型之间了,但即使只针对单个用户,哪怕只是一个用户,我们也还没做到,我不太知道为什么,至少在我能公开讨论的高层次上,我不知道原因,你提到的这一点
Yann Dubois:我觉得对AI Builder 投资人和Startup都很有意思,也就是模型在企业内部,变得越来越聪明这个问题,这里特别有一种张力,一边是模型本身能做什么,另一边是很多人围绕模型搭出来的东西,一两年前大家讲的是Ray G 现在大家都在讲Agent的Harness 很多人在想,模型最后会不会把Harness吃掉 Harness会不会只是一个临时阶段,从你的角度看你觉得会发生什么,我觉得现在Harness确实能显著提升模型能力
Matt Turk:但考虑到我们正在看到能力上非常快的进展,我个人不会在Harness上压得太重,除非这个Harness 是为了你现在想达成的,一个非常具体的目标,比如某些公司,专注在一个特定垂直领域,他们想把可靠性,从大概80%提高到85% Harness能帮他们做到,我觉得这很重要,但他们做的时候也要知道,未来还得重新调这个Harness 我觉得这完全没问题,如果你想做一个通用Harness 希望它能长期持续有效,我觉得这行不通 Harness更适合特定领域,是短期内你需要做的事,我觉得Harness里,永远有很多可以做的东西,甚至可以说,如果大家心里有一个具体问题,都应该多做一些,因为没有好的Harness 我们浪费了太多潜力,可以说,如果我们现在冻结现有模型 然后真的去打磨Harness 也许再花更多时间,用一个很好的Harness来训练,我觉得人们在每一个领域,都会真正感受到通用人工智能 或者说已经可以在每个领域感受到它,但问题是我们不会冻结模型,我们还会继续训练越来越好的模型,所以我觉得我们并不真正知道,最终的Harness会是什么样 [01:01:45]
Yann Dubois:而且它会一直变化,关于应用我也想问同一个问题,我们刚才提到,你们在不同垂直领域都有进展,比如总体上的GDP Vale 也包括T-Bench Telecom 它测试的是复杂客服工作流,还有finance agents的进展,它能自动化88.5%的内部投行建模任务,以及office QA pro上51.1%的成绩,所以你们正在一点一点做越来越多这类事情,那你觉得人们还应该继续构建应用吗,还是说随着我们越来越接近通用人工智能 这些最终都会变成模型能力的一部分,外部公司或者创业公司,在具体垂直领域继续推进,还有非常大的空间 [01:02:08]
Matt Turk:原因是很多人会把所谓的智能,或者说原始能力,看成真正的护城河,但我不觉得是这样,我觉得大多数时候,真正的护城河在最后一公里,也就是要确保模型能访问正确的东西,有正确的权限,也能接入正确的connectors 诸如此类,我们会非常专注在这种更通用的方面,我觉得其他公司应该更多专注在垂直领域,把我们现在已有的能力发挥出最大价值,所以我认为在不同垂直领域的最后一公里,永远都会留下很多空间,我非常鼓励大家继续做这件事,也许有一天当我们不再取得横向进展时,我们会开始专注这些事情,但我不觉得那会很快发生,至少现在这不是我们正在做的重点
Yann Dubois:好吧,至少对创业生态来说,用这个非常乐观的结尾收尾,挺合适的,非常感谢你 Yan这次聊得太棒了,我很享受,谢谢你抽时间来参加节目,太好了,谢谢你 Matt 大家好,我是Matt Turk 感谢收听这一期MAD Podcast 如果你喜欢这一期节目,如果你还没有订阅,欢迎订阅,也欢迎在你观看或收听,本节目的平台上,留下好评或评论,我们会非常感谢,这对我们继续做这个播客,邀请到优秀嘉宾,真的很有帮助,谢谢,我们下期再见 [01:03:49]