165: 英伟达 GEAR 高深远:世界模型、自进化循环、DreamDojo

完整转录稿

Podcast 晚点聊 LateTalk 2026-05-18 08:45

目录

世界模型与动作控制

高深远:世界模型的最关键两点就是它对物理的模拟和Action控制能力。这两点直接决定了它能不能预测出一个很好的未来。OpenAI 的话,他们所有的team重组到Robotics Lab下了,所以我感觉今年也是比较竞争激烈。就是现在这个循环里有三个部分吧,通用的agent policy 然后世界模型,大家都在往这个泛化性方面去推,所以说到未来某个点,我觉得可能就发生在今年,一旦它的误差累积到一个可接受的程度,整个循环就会变得越来越简单 [00:00:00]

程曼祺:就相当于是可以实现自进化,欢迎收听晚点聊,我是曼琪,今天的嘉宾是刚刚从港科大博士毕业的,一位年轻研究者高深远,他从去年开始在英伟达实习,接下来马上会正式加入,英伟达的具身智能实验室GEAR Lab。这次我们聊了深远2024年以来,一直专注的方向世界模型,前一个多小时,我们展开了整个世界模型的途径,它的分类,它是为了解决什么问题,它的现状,瓶颈和未来方向,以及各主要公司的思路 show notes里有一些图示可以帮助理解,后一部分我们聊了GEAR Lab 在世界模型上的一些实践,尤其是去年到今年,他们陆续发布的世界模型DreamDojo,深远也是这个工作的联合一作,以及被认为有可能会取代VLA的DreamZero。我们聊了这些模型的研发历程和具体的创新点也延展了世界模型可能的竞争情况,这期又有非常多的干货,我们一起深度学习吧,今天非常高兴邀请到了一位很年轻的AI研究者高深远,正好是我们前段时间具身季报里讨论到的一个成果,就是英伟达去年发的DreamDojo的联合一作,深远你可以和我们的听友简单的打一个招呼,简单的自我介绍一下,感谢曼琪的邀请,大家好 [00:01:31]

高深远:我是香港科技大学final year的PhD 然后我叫高深远,然后同时现在也是NVIDIA GEAR Lab的成员,我自己的话主要研究兴趣就是,构造各种各样的世界模型,然后之前有从自动驾驶的世界模型开始做起,然后也做过种游戏的世界模型,然后从去年开始的话,更关注机器人世界模型的构建,以及它的应用,对这次请深远来聊

程曼祺:也是想聊我很久以来,就想自己学习,弄清楚的一个话题,就是世界模型,因为这个词也比较大,我觉得它算是AI领域,一个典型的buzzword 就是你刚自己也说了好多领域,比如做游戏的,做自驾的,然后做具身的,可能都会提到这个,我觉得我们可以在第一部分,先给大家一些世界模型的,一个整体的途径,就比如说你自己,作为研究这个方向的人,你会怎么来给世界模型分类,现在好像很多不同的东西,都站在这个大的概念,对。 [00:02:21]

高深远:这是一个很好的问题,对就是,我自己从两年前开始做世界模型,然后今年我感觉这个词,尤其的就是受大家关注吧,现在有很多不同的种domain 都在说自己在做世界模型,然后我从上往下拆解吧,然后最high level的话,可能就是一部分人,比如说他是种决策背景的,他做的世界模型,可能就是他有个model 去模拟这个world 或者说模拟这个环境,然后所以说它叫世界模型,然后但另一部分,就比如说它有个model 它有world knowledge 它就是说它叫,它这是一个世界模型,对。然后第二个代表的,可能就是现在做这些,基模的,就是多模态大模型的,他们会说自己做世界模型,对我感觉也合理,就是说相当于是,他们有个模型,然后他有多模态的输入输出,然后你可以,让他回答各种各样的问题,然后相当于是,比如说你用各种,维基百科上的问题问他他基本上都知道,然后相当于是它有个world knowledge 然后它就是世界模型,但做决策的话,就是可能大家更关注的世界模型,它是这样一个formulation 就是它是一个预测未来状态的一个模型,然后同时这个预测未来状态的过程,是受一个条件控制的,然后这个条件控制一般都是这个action 对就是简单来说,就是它会根据过去的这个历史,然后预测未来,同时这个预测的未来,是根据你要做的这个action所决定的,在这个方面的话,可能又要分个几个派别,可能世界模型这个词,为什么认为起来,我感觉主要是因为,就是这种视频生成,技术的发展,这句有代表性,就是Sora 她release的时候,她有个blog 说什么 video generation as world simulator 相当于是,你可以这么理解,就是它有个model 然后你可以用不同的text 去control它,然后这个text 也可以理解为一种action 就是对这个世界的一个编辑,对这个世界的一个干预,然后相当于是,根据你不同的文本的干预,它会得到一个未来的一个画面,未来的一个视频,假如说你给它是一些real world的场景的话,它生成的这个画面也比较真,符合物理规律,所以说它是个世界的模拟器,我感觉这是没有问题的,所以说很多做video gen的,他就是说自己在做世界模型,对。我感觉这就是也make sense 就是他能够自然起说,但是真正对决策有用的话,你光在text这种层面去control 这个未来是不够的,因为你文本只是一些,就是用于编辑,可能用于用户交付的,但你真正去做决策的时候,你输出的是,比如说机器人输出的是action 游戏里的这种决策的话,它输出的是,也是一些动作,然后比如说技能什么的,然后像这个自驾的话,它就输出的是自车的这种轨迹,所以说一个对决策有用的,世界模型来说的话它应该是接收这种action轨迹的输入的,我想先补充问一下,就是你刚刚说的这个action 的话 [00:05:31]

程曼祺:你讲的几种不同的,大家都可能把它算成action 比如说你给他一个文本的指令,这也是,然后他是车的轨迹也是,然后机器人的一个动作也是,那这个action 他如果解释的更详细来说的话,就是他比如从AI 或者计算机科学的角度来说,你会怎么去描述,就是action就是,对世界的一个干预吧,就是比如说你看到一个,世界的状态,它可以是个画面,或者说其他的一个表示,然后你这个action给进去之后,它对这个世界会产生一些影响,然后我感觉这些都可以是action 就比如说你文本告诉他,天上有个鸟飞过来,那这个动作的主体是什么,比如说我感觉,在你刚刚说这几种情形里,这个主体就不一样,如果是车和机器人的话,我理解这个东西,它就在那个世界里,它是这个世界里的一个主体,对吧,但是比如说像视频生成模型,你如果把文本,也算成一个动作的话,那个动作并不是,那个视频里的,一个主体加之的动作,那是比如说我是个用户就我有点像上帝的感觉,然后我希望这个视频,接下来怎么样,我给了它一个动作,对这两种是要区分吗,还是这都是,对我感觉这个问题,其实已经非常深度了,就是一般比如说,构建决策这种智能体的话 [00:06:32]

高深远:一般都是只关心自身,比如说我们讨论具身智能的话,一般都只关心自己的action 因为你一个policy 就是一个具身本体,它其实很难去,凭自己的意志去改变别人,对但是对于一个世界模型来说的话,它其实是可以接受,比如说对其他agent 的一些编辑,就控制他们的action 就比如说视频生成里的话,它比如说它编辑的是这个环境,因为我觉得就是做一个通用智能体的话,就是首先最通用的智能体,肯定是就是它应该是对外界无法操控的,就可以操控外界,基本上是就是比如说你去做一些游戏,你才可以操控,但是比如说像我们人活在这个世界中的话,我们能控制其实只是自己的action 所以说一个比如说对于具身智能来说的话,一个最有那种思想模型,它应该是只接受自己的这种action出发的,但是假如说你能控制第三方的agent 的话,它其实也有一些好处,就比如说你自动驾驶的world model 或者其他什么world model 游戏的world model 假如说你能控制,其他的东西的话,相当于是你可以构造,一些奇怪的这种case 就最终的话,像这种multi-agent 或者说控制环境的,这种world model 它也是会有用的,对。但是对于通用的,这种具身智能体来说的话,目前直接的意义,还没有那么大,对。这个虽然有点扯远了,但是你说的这个,让我想到了一个 [00:07:39]

程曼祺:更未来的情况,因为现在我们可能讨论,具身智能,更多还是讨论,你一个单独的机器人,你到了比如说,一个新的环境,你能不能适应这个环境,能不能干一些比较复杂的任务,但如果说,未来真的像比如马斯克说的,世界上有一百亿台机器人,因为机器人之间,它其实跟人不一样,它可以直接联网,对吧,它可以直接通信,对。它怎么交互又会是一个,更复杂的一个世界的系统,这个可能跟我们刚才说的问题,已经有点远了

高深远:但我感觉你说的这个点很好,包括现在不是有车联网吗,我之前也研究过一段时间,这种multi agent 这种感知,就是机器人车,这种游戏智能体,跟人不一样的是,它其实是可以通信的,然后未来就是假如说,从安全或者说,从决策质量的角度考虑的话,肯定是能通信,肯定是更好的,这是能超越人的一点,所以说确实就从长远来看的话 Multi-agent这种world model 确实更有必要的,但从通信角度来说,就是你不能假设,你把你这个机器人,固使在任何环境里,它都可以直接,跟其他agent 的通信,所以说从通信的角度来说 [00:08:26]

程曼祺:一个自身的一个实践方式,它还是最通用,就跟人一样的,对。其实当年自动驾驶的时候,因为大家最关注的路线之争,后来最明显的,肯定是Waymo和特斯拉之间,这个路线之争,但是更早的时候,其实在中国,当时也有一个车联网的风口,那会儿也有很多创业的项目,比如说在什么路上,电灯的灯柱上,装很多激光雷达之类的东西,就是你可以通过环境,去给这个车一些信号,让它不是就完全靠我自己适应环境,我环境也能给我助力,就类似这种,但确实后来我觉得,最主流的还是大家去发展这个车,本身单独一个车的制造,对国内我感觉有基建的这个优势,然后当时车联网V2X 这个确实是很火,包括现在可能也还在推,所以我觉得它可能有个先后关系,对然后从通用性角度来说,还是先开发自身的这种比较好,那我们继续可以说回,这个世界模型的分类,就是你刚才讲到 [00:09:06]

表征路线与视频世界模型

程曼祺:就是你刚才讲到,就是它还可以按派别分,你可以继续说,对然后按派别的话,其实我感觉用表征的去来进行分类会比较明显,对就是世界模型

高深远:就是一个是action 还有这个condition和他要预测的东西,就是世界的状态,然后这个世界的状态,他又可以就是有多种表征,首先最抽象的就可能比如说,你是用一些几何表示去表示这些物体的状态,或者说什么点啊图去表示这个物体的结构,对然后他的好处就是说,他把这个世界表示的非常简单,你可以非常高效的进行模拟,因为你只需要模拟一些,可能举证惩罚就好了,对。然后另外你可能也不需要,很多的data去学习这个表证,对。但它的问题就是说,它的泛化性会没有那么好,就是相当于是,你对不同的物体,比如说它不同的柔性物体,还是什么物体,你可能需要专门去定义,一个这种粒子的表证,对。这个之外的话,就是可能是显示的3D表证,就是它可能比较代表性,就是像李飞飞老师的,他那个World Labs 对,它就相当于是把世界就是重建成这种3D的这种表示,就无论是点云啊,还是高斯splatting啊,然后或者说occupancy这种,可能他们不在用,但是可能自驾里用的会比较多,就是相当于是,你把世界重建出来,然后每个物体,它的这个位置啊,坐标啊,你都是知道的,对。然后有了这个3D表示之后呢,相当于是,你可以很好的去操控这个物体,比如说你对它做一些移动,做一些这种空间位置上的编辑,都会非常容易,然后它的一致性也会非常好,就因为你已经把它重建出来了,所以相当于是,你在这个世界里绕来绕去,绝对坐标还是那个坐标,所以说不会因为,不会有一些这种遗忘,或者说长程这种,误差累积的一些问题,但它坏处就是说,因为它有个显示重建的这一步,就是其实我们最终用的,还是一个观测,就是我们基于观测去做决策,所以说这种3D表是它最终用于观测的时候,它还会有这种渲染的这一步,所以说就是为了得到智能观测,它其实是先重建,重建成显示3D表征,然后再把3D表征渲染成,我们能看的比如说是 2D的video或者说画面,所以说这个多阶段的步骤的话,就导致它可能就没法,很好的去做这种data driven 就首先它做这些3D表征,它需要有一些3D的标注,才能去学这些表征,然后另外就是,它不是N2N的优化的,所以说它受限的,还是这个数据的瓶颈,对然后另外就是,像Yann LeCun他比较推的,就是影空间的这种表征,比较有代表性的就是JEPA 他主打的就是,我不需要有显示的3D表征,然后可能也不是用粒子这种,去进行表征,然后同时也不是用video 去作为表征,他就是他学一个表征空间,然后这个表征空间,他会比video 视频更加紧致然后会就是更容易预测吧,就是你预测他,需要更少的这个计算量,同时呢,他是一些high level的,一些语意信息,对。就是他跟决策,是更加直接相关的,对。我感觉也合理,就是说,有一个他很喜欢举的例子,然后反正我也借鉴一下,就是比如说,你去做决策的时候,其实比如说,你在街上走的时候,你是没法精准的预测,比如说每个行人的这个脸,对。然后而且预测出,每个行人的脸,因为你都不认识嘛,然后而且预测出,每个行人的脸,对你的决策来说,其实也没有什么用,你只需要知道,那边大概模糊,有一个人就行了,然后包括你,到一个新的房间的时候,你也不可能一下子把这个房间,所有的这个信息都预测出来,包括所有的东西的这个位置都预测出来,对你只是知道大概的一个布局,然后其实已经足够你去做决策了,对所以他就是想把所有跟决策相关的,压缩到一个影空间上,然后在这个影空间上去做这个世界模型的这个预测,我感觉也有好处对但是可能有一些不太方便的,就是相当于是你首先要构建这么一个空间,影空间,然后这个影空间同时呢,他需要跟其他的一些决策模型接起来才能用,所以说这个怎么去衡量,怎么去评测,以及怎么去用它,其实会带来更多的这种阻碍的,然后我自己比较相信的就是,纯预测video 就是用video去做这个世界模型的,这个表征空间,对就是你video进video出,然后最终看到的也是video 然后它是端到端的,然后也是直接可以用这种互联网视频,去作为data去训练的,其实本质上来说的话,就是预测video 其实它也不一定要求你,把每个精准的像素都预测出来,它只是作为一个监督,而且其实我们已经看到,就是现在像这种Coding 包括这些LRM 就是它的预测能力,肯定是比人要强的,就所以说,比如说Yann LeCun,它的担忧可能是,就是比如说,我们人做决策的时候可能没法,把每个像素都预测出来,然后但是可能,现在的model 尤其是这种video model的话,它就有这个能力,去把这些细节预测出来,而且这些细节预测,它也是一个,就是也是一个采样,就它不是一个确定性的,所以说它也没有,就是会损害这个模型决策的能力,其实也不冲突,就是你以重建的目标,去做一个世界模型,其实跟决策有用性,包括效率,其实也不是很冲突,对。所以就是简单来说,就是最抽象的,就是比如说用粒子去表示,然后或者是用显示3D去表示,或者是用一个影空间去表示,然后现在最data driven 我个人认为最promise 就是用这种视觉,就是video画面去表示,我的state 然后我感觉这样,可以分成四个主要的 world model 的派别,大家共同目的,都是用action control 这个预测,然后去做decision 你自己最相信的,这个方向上面,是不是 [00:14:41]

程曼祺:包括你们自己做的 DreamDojo式的,然后Google的,那个Genie系列,应该也是,对。因为你基于video的model 你可以很好的这种,数据驱动的方式,把它这个 scale up 对,就是相当于是 [00:15:35]

高深远:现在从视频出发的话,你本身对这个世界,已经有很好的理解了,我觉得就是,通往通用人工智能 包括这种具身智能,他的思路肯定就是说,你从一些数据非常多的一些domain开始,然后往数据比较稀缺的一些,这种domain去做对齐,然后唯一两个目前最有代表性的,数据丰富的这种空间,一个是语言空间,然后一个就是视频空间,然后像比如说像机器人数据的话,就比如说他有这个action data 他可能就是相对视频来说,他是一个比较稀缺的一个domain 所以说从视频开始去接入这个action 然后去做机器人的这个世界模型,是比较合理的,假如说你要构造一个新的一个表征空间,然后去做世界模型的话,它可能就没有那么make sense 它可能会有一些效率上的优势但是它其实跟下来的这些语言和视频的这种基模型,它其实就很难去直接的应用,直接的去接起来,直接去利用他们很强的这个泛化能力 [00:16:41]

程曼祺:前面提到说,就是李飞飞世界模型,那个公司,他们做了marble 你觉得那个方式,它有一个劣势,是它不是端到端的,对。我想补充问一下,乐坤他们做的,就Meta AMI 乐坤提的JEPA 这个方式,它是端到端的吗,就我勾结一个影空间,是不是也可以,做端到端的训练,对。它可能是端到端的,就具体技术细节,肯定大家都不知道,对。但是我觉得,就是从他们之前的,研究的脉络来看的话,它是一个端到端的

高深远:但他们有个问题,就是说,他们要切换到一个新的影空间,而这个影空间,它不是现在的所有的这种,比如说GPT JMEI这些模型,能够直接读懂的,也不是现在这种,比如说SORA 或者其他这种视频模型,能够直接读懂的,反正这是我个人观点,就是假如说,他们构造一个新的影空间之后的话,想利用其他基座模型的能力,他们希望把其他基座模型,再往他们构造新的影空间上,去做对齐,但我觉得目前来看的话 [00:17:20]

程曼祺:就是现在的这些语言和视频,这两个表征,去比如说通往通用人工智能 已经是比较足够了,对。就你觉得他那个路线,至少有一个局限,或者说有一个限制能看见,就是他不能很好的受益于,现在整个行业的技术的进展和,我感觉也是有希望的,就是他们相当于有个更高效的,然后更适合决策的一个空间,但是问题就在于就是说,他们这个空间构造出来

高深远:比如说他预测出一个影空间,然后这个影空间,你直接给语言模型看,语言模型接不上,你给视频模型看,视频模型也接不上,对就是基本上是这么一个情况,那像在英伟达的GEAR Lab的话,因为你说你是比较看好 [00:18:13]

程曼祺:就是视频生成这个方法,去实现世界模型吗,在GEAR Lab你们是,大家都比较看好这个方向,还是你们也是好多不同的方向,就看研究员自己的兴趣,对首先就是应该是看大家的兴趣,然后其实各种有希望的路线

高深远:我们都会尝试的,从我的角度来看的话,就是视频就首先,它是一个数据非常富足的一个模态,对它跟文本一样,它有很强的这种scalability 对然后另外就是,其实从比如说现在的技术,包括现在的计算,比如说芯片的优化来看的话,视觉预测它并不是一个,就可能之前大家认为,是会很慢的一个问题,对就是它的效率,也会被得到解决,对但是影空间,可能也有它的优势,相当于是你会更加高效,然后对于机器人来说,尤其是比如说,你这种要部署在真机上的话,你可能这个效率,也是一个很大的一个关心点,对。但不管怎么样,就是你学习影空间,还是说你就在视频空间,它这个数据的来源,肯定还是视频,对。就是你构造影空间

程曼祺:肯定也是从视频数据中,学得一个影空间,就它一切的来源,都是那个视频,你提到就是,大概两三年前,你开始研究世界模型,这个方向,明显感到,从去年到今年,这个领域变得更火热了,你觉得这个是为什么呀,就大家看到世界模型的价值是什么,用它来干嘛,可能有多方面因素吧,最大的因素可能就是,这种生成模型的发展,对就是比如说,尤其是SORA吧,就是相当于是,现在的这种视频生成模型 [00:19:30]

高深远:它有很强的这个生成能力

世界模型热潮与策略关系

高深远:它有很强的这个生成能力,然后有了这个生成能力之后的话,就是大家发现,从一开始啥都模拟不了,到现在就是模拟这种非常高质量,非常逼真的这种物理规律,都有可能了,对然后这是大家开始,关注世界模型的一个方面,然后另一方面就是数据,对就是,尤其是具身智能,这几年火热起来之后的话,有很多这种数据供应商,包括开源数据集,就之前相当于是,比如说你要做具身智能的话,大家可能更关注,你去穿一个这种决策模型,然后决策模型的话,它可能只是去模仿一些,这种专家轨迹,你就可以去得到一个决策模型,但世界模型,它的目的是做一个世界的模拟器,所以说它更加吃数据,它不仅要有专家轨迹的数据,去训练世界模型,还有一种差的轨迹数据,他也要,世界模型也需要去训练,他才能得到一个,就是没有这种bias 没有这种偏好的这种action 的模拟,所以说这是之前大家,就是数据不够的情况下,就是可能得到一个policy 是比较合理的,但是构造一个世界模型,你是得不到一个有效的,一个反馈的,然后这是第二点,就是数据,然后第三点就是,这几年这个policy 它逐步发展之后的话,它已经达到一定的水平了,而之前就比如说,大家是训练一些,非常简单的policy 然后是在一个,比如说实验室里,去做一些简单一些任务,对然后这个时候,你其实也用不着世界模型,就是世界模型,它其实是,其实为了就是,帮助policy做泛化,无论是场景的泛化,还是这种task action 的泛化,但你这个policy 水平还比较低的时候,其实世界模型,其实很难用起来,就是因为首先,你世界模型,没有很多data 去得到一个非常公正的,一个action 的模拟,这里的policy是指什么 VLA它就是一种policy 世界模型和policy 的,这个关系是这样的,就世界模型,它是就是action输入,然后你给它过去的,这个state 然后它预测,未来的这个世界状态,然后policy可以,跟世界模型互相交互,世界模型可以,把它预测的这个状态,给到policy 然后policy可以再做action 然后这个action 你可以给世界模型,然后世界模型,把下一个时刻的,这个观测模拟出来,然后下一个时刻的观测,模拟出来之后,又可以给policy 然后policy再输出,下一个时刻的这个action 就policy 的输出,是世界模型的输入,然后世界模型的输出,是policy下一个时刻的输入 [00:21:45]

程曼祺:就policy是一个模型是吗,对。 policy可以是各种各样的模型,那世界模型要部署到,具身机器人上吗,世界模型你可以,就是部署到机器人上,然后你也可以部署在云端,不知道云端,然后把状态传给他,对,所以世界模型,其实在大小上的限制,比policy要更宽泛,对吧,就你说比如VLA 就要尽量做的小一点,因为你是要跑在端侧的,而世界模型,可以在短测,也可以在云端 VLA你也可以部署到云端 [00:22:20]

高深远:其实就是看你部署环境的这个问题,对。就是假如说你有一个,比如说你网络很好,你就可以全部在云端,相当于policy到一定水平之后的话,就是它输出的这个action 就不会那么乱了,对。然后假如说输出的这个action 没有那么乱之后的话,你这个world model 它需要模拟的action 也会在一个比较窄的一个分布里面,对。所以说对world model来说,它需要模拟的这个分布更窄,然后它就更容易模拟,就更容易提供更可靠的反馈,它就能够具备对policy 进行优化的一些条件,总的来说的话,就是我感觉就是,尤其是视频生成技术,然后就是视频数据,包括这个不同分布的action数据,然后第三点就是说,现在policy达到一定水平之后的话,一方面它输出的action 的分布,比较可控了,然后另一方面就是,要提升它的泛化能力的话,这个时候世界模型介入

程曼祺:是一个比较好的点,那说到这个,我正好补充问一个,我可能自己之前没搞清楚的事,就是因为这次,就是GEAR Lab发了DreamDojo DreamZero这一系列的进展之后,其实国内有很多,就一些文章会写,你们提了一个新的范式,就是世界动作模型WAM 大家会去把这个和VLA做对比,它们俩是对等的吗,就WAM它是一个策略,还是一个世界模型,这个也可以做一个分类 [00:23:38]

高深远:就是我们做了DreamDojo DreamZero两个工作,然后你可以就是简单称,这两个都是世界模型,然后但他们在功能上,其实是有点不一样的 WAM的话相当于是,他输入是一个text 就是你把当前是什么任务告诉他,然后他会预测未来的视频,以及未来的这个action 这边叫WAM 其实是想就是说 W是word 然后action是他的那个决策出来的action WAM其实严谨来说,他不是一个world simulator 就他其实是个policy 他跟VLA是同样的一个功能的定位,对。但它跟VLA不同的是,它不仅把action输出来,它还会把未来的world state输出来,所以说它也可以起到一个,这种世界模型的作用,为什么呢,就是因为最开始说,就是世界模型的action 它表征也可以是多模态的,你可以是机器人轨迹,然后或者说,比如说自动驾驶汽车的轨迹,然后你也可以是比如说是一个文本,就这个文本,它就是一个instruction 人做决策的时候,其实是有很多的这种action space的,就比如说你一开始去做规划的时候,你肯定不是想,你最终这个手怎么动了,你肯定是想一些步骤,比如说先拿这个,举起这个放下这个,对。然后这个其实是相当于是 high level planning 然后它是在文本空间,可以完成的一个决策,然后所以说假如说,你把文本也当做一种action 的话,那WAM它就是一个world model 它接受的是text 就文本的这种action 然后它模拟的也是这个文本action 它对应的这个未来的,这个世界的状态,所以从这个意义上来说的话 [00:24:57]

程曼祺:WAM它也是世界模型,所以它输出的那个世界的状态,是一个文本的方式来表达的,所以它是又输出了,这个机器人的轨迹和动作,同时还输出了状态,输出了世界的状态,这个其实是个组合词 [00:25:36]

高深远:就是WAM 它又是world model 然后它又有个Action 它输出未来的状态也是视频,然后它同时会输出这个Action 就是相比world model 的话,它多了Action预测的功能,以及它输入的Action 是一个文本的空间,然后相比VLA的话,它多了一个视频预测的功能,有点像它既具备,在high level action planning下,这个world model 的功能

程曼祺:也具备就是VLA的功能,然后但平时我们会把它,用作一个policy 那所以它相当于,有点是合二为一的,那个意思对吧,这个也是我想问的,就是你说你平时吧,还用作一个policy 所以它如果要放在一个,机器人上去用的时候,它除了自己本身就输出了,一个多模态的世界状态之外,我还要用另外一个世界模型,再去给它那个状态吗,如果你把它作为一个策略来,对,我感觉你完全理解了,就是word action model 相当于是 [00:26:15]

高深远:它可以做一个policy来用,然后你可以把它这个action 去接给DreamDojo 或者其他的各种这种,大家常识意义上的这个world model world model相当于是,你给它action 它可以把未来的状态给你,所以说有了这个功能之后呢,会有什么好处呢,就是相当于是,你执行你这个action之前,你不需要跟世界进行交互,你就能得到,你不同action 的这个,它的后果,就本来的话,没有一个世界模型的话,就是必须得在现实生活中,做了这个动作,我们才能知道它的后果,然后有的世界模型的话,相当于是它能替代世界,然后我们用它去,模拟各种action带来的后果,然后相当于是,我们在真正做这个action之前,就得到它的后果,然后所以说这个好处就是说,你可以在你真正做之前,你先做一个搜索,就可能人脑中也在发生这个事情,但是可能人脑会发生的很快,所以说几乎没感觉到,但实际上就是说比如说你在做步骤规划的时候,你先用这个DreamZero world action model 你可以去做一个步骤上的搜索,然后相当于是每个文本,每个文本的步骤,它都会把这个未来的这个状态告诉你了,然后你从这边做一个选择,就是哪个可能是,让你完成这个任务最佳的,然后你确定这个子任务之后呢,同时你也得到了这个Action的轨迹,但这个Action轨迹,它可能还有一些优化的空间,比如说你怎么去接近这个东西的速度,包括你怎么去抓这个东西,它的角度和力度,然后这个low level的这种action 你又可以去给到这个DreamDojo,或者说其他这种,更偏决策意义上的这种世界模型,就是它输入就真的是机器人的轨迹,然后它输出的是这个world state 然后相当于是,你又可以用这个去做一个优化,做一个搜索,然后去做出最终的决策,对。对这个本来也是我刚想追问的 [00:27:35]

程曼祺:因为你前面讲的三个点,一个视频生成的模型的发展,一个数据,还有一个就是策略变得更复杂,我觉得它是带来了说,为什么最近这两年,世界模型的进展比较快,所以做的人更多,它更火了,然后还有一个,其实我想问的问题,就是它长远,长期来说,肯定这个方向是有一个,比如大家老早就觉得,我们应该这么做,这么做有价值,才研究世界模型,就你刚刚其实说了,就是因为,它好像还是一个,仿生的大的思路,就还是模仿,这个人的这种,或者说动物吧,在环境中的,一个反应的方式,觉得我提前给一个预测,会更高效,然后会让它,真的能自主地去放话,对吧,对就是更泛化,然后更安全,对就是你人其实,就是比如说你闭着眼睛 [00:28:27]

高深远:想想我要做什么,然后你其实能想出,你要就是做了这个之后,会变成什么样的,没有世界模型的话,所有的决策都是,先不管后果,就反正我做了就做了,对但是有了一个世界模型的话,相当于是,你可以在做之前,你就知道它的这个后果,对然后可以让你的决策,更加安全,对而这其实只是一个,最基本的功能,然后其实还有其他很多功能,就比如说你可以,有个世界模型之后的话,你可以拿它用来做评测,比如说你有个世界模型,它能够替代真正的世界,然后现在这个具身,其实最大的一个问题,就是评测很难,而且很不公平,对很难是因为,就是你每次都要真机部署,然后就是你有个人看着它,就那个人下班了,他就你没法去测你这个模型了,就是相当于是,它是受物理限制的,然后另外就是,假如说你这个模型很烂的话,你测出来,比如说他把这个盘子打碎了,他就打碎在那里,还有一个就是不公平的问题 [00:29:08]

世界模型支撑自进化循环

高深远:还有一个就是不公平的问题,就是因为大家都只能在自己的房间里去测,然后比如说别人发你一个模型过来,首先现实世界里,你永远没法把一个场景摆到一模一样的一个位置,就比如说你上午测这个模型,下午测这个模型,光照不一样,然后你摆的这个位置肯定也不一样,然后包括这个机器人动一下,对他这个传感器可能有些不准了,校准不准了,所以说所有的比较永远都是不公平的,对所以就是没有世界模型之前的话,评测就是一个是不高效,然后另一个就是不公平,但有一个世界模型的话,好处就是说,首先你可以在世界模型里,去做这个评测,因为世界模型,它代表了这个世界,就是你policy 跟世界模型交互,然后你就能知道,这个policy 它是怎样一个表现,另一个就是说,就是世界模型,你是非常容易,把这个场景,重置到一个,一模一样的状态的,就是你只要,把那个状态告诉他,比如说这个状态,你存在电脑上,一模一样就能够重置好,然后这个比较,就是完全公平的了,相当于就是拿算力,然后去换这些高效性和公平性的,另外就是说,你还用世界模型去做这个数据生成,就是比如说你有个世界模型,然后像Genie这里,他有一个比较有意思的例子,就是我们把世界模型做到实时之后的话,你可以直接去遥操,这个世界模型你的机器人,之前数据采集就比如说是,我要去遥控一个真的机器人,然后把这个机器人,他的这个action录下来,然后我才有这样一个训练轨迹,去训我的这个policy 但是假如说我有个世界模型,然后世界模型里有个机器人,然后当然这个机器人是假的,它是跑在一个虚拟环境里的,你只需要去遥操这个世界模型,这个机器人,你就能得到这些数据,那这个遥操过程中间,我是要带个传感器吗,对,就是设备可能还是需要的,你本来怎么去遥操一个机器人,你就怎么去,就是用同样的设备,但好处就是说 [00:30:52]

程曼祺:你不需要真的有那个机器人了,这是节省成本的一个地方,如果你说跟遥操设备一样的话,当然我感觉这设备肯定可能简化,因为那种最完整的遥操设备,你可能你的那个,就手臂的构型 [00:31:47]

高深远:都是和那个机器是要同构的,对,有很多现在已经简化到手套了,对,就这个随着硬件的发展,遥操设备也会越来越简单吧,就是当这个硬件,跟这个人越来越像之后,然后另一个,就是现在policy进一步提升的话,它可能需要一些这种干预的数据,然后假如说你有个policy 你有个世界模型,然后你有遥操设备的话,你可以对,跑在这个世界模型的policy 去做一个干预,得到这些纠正回来的轨迹,去提升这个policy 对世界模型非常promising 就是除了policy评测,然后数据生成,然后包括我说的,就是你部署的时候,你做一个想象式的这种搜索,然后你还可以做这个强化学习,就是世界模型相当于是一个虚拟的世界,你在这个虚拟的世界里失败,它其实就是非常安全,相当于是你可以做这种自我进化,就比如说像QQ 农场这种,就是相当于是它在一个世界模型里跑然后就是你晚上睡觉,他晚上也过了一天,这个东西都长出来了,像有个世界模型的话,他也是这样,就是现在这个机器人,比如说他没法像大语言模型,这样进化,或者说像AlphaGo这样进化,他的最大的问题就是,他是被这个物理时间限制住了,就一天24个小时,对。然后包括人还有上班下班,对。但是假如说你有个世界模型的话,你在这个里面去跑仿真,跑强化学习的话,他是可以突破物理时间限制的,就是首先你算力越快的话,你每天迭代的轮次越多,然后假如说你卡更多的话,它可以构造的环境也会更多,对然后假如说世界模型,它真的跟现实世界也没有任何gap的话,你就可以把这个东西,在比如说集群上,你去跑一个月,可能会涌现一些东西出来,当然现在还远远没有到那个阶段,但是我感觉这是未来,一个比较promising的点,哈萨比斯就是他之前 [00:32:53]

程曼祺:上Google的官方的博客的时候,他有讲过,他觉得世界模型,就Genie那个系列,以及他们有一个配合的东西,叫SIMA 都是DeepMind的,他觉得这个东西,一个非常有沉浸的应用,就是我在这个模拟的世界里面,去做实验,去搞科学发现,他觉得可以大大加速,什么可控核聚变之类的这种,大家认为很难的一些科研的成果,这是他讲到的其中一个价值,不过这里也有一个问题,这个我之前也跟人讨论过,就是一个具身蛋,蛋生机的问题,就如果说世界模型,能达到你刚刚说的,那种程度的时候,我就感觉,可能都已经实现了吧,你可能才能模拟一个,真的很像世界的世界,这如果能达到这个水平的话,那是不是按你说具身智能,应该在你之前就实现了 [00:33:44]

高深远:我感觉你问的这两个问题都非常好,对首先那个哈萨比斯是吧,就是反正我是很相信他那一套的,他的这个想法,跟我现在想法是非常像的,就是他有一个世界模型,然后是在video space 然后他有个通用的智能体叫SIMA 然后他也其实是,类似于一个VLM的架构,相当于是他们两个,可以合成一个这种,自我进化的一个loop 然后包括你说的第二个问题,我刚刚说,现在还远远没有达到那个阶段,但是并不意味着,我们得达到那个阶段,我们才可以去构造这个循环,它是一个循环上升的过程,现在的状况就是说,我们的世界模型,可能跟这种通用的agent 还没法完美地连起来,因为他们各自的,这个泛化能力还没到,现在这个循环里,有三个部分,一个是你有一个,连接这个循环的,一个很强的,比如说VLM 它的作用就是说它去定义,我现在这个agent 要做什么task 以及这个world model 预测出来之后的话,它要去评判,各种的这个world state 是不是好,然后这个像Gemini 这种基座模型,它其实已经能达到,一定的这个水平了,然后你把这个,做什么任务,去告诉这个agent之后的话,这个agent 它可以做一些这种action 然后这个action 去给这个world model 然后world model去想象未来,然后再去给这个,通用的这个agent 去做这个评测,然后这个loop转起来之后的话,就相当于是可以实现自进化,然后下来的问题就是说,这三个模型之间,它的泛化能力,会导致一定的这个级联误差,就是我的这个通用的这个agent 它没有足够好的泛化性,去提供很好的这个reward 这个反馈,然后呢,这个policy 它没有足够的泛化能力去在各种场景下去做一个,比较可靠的一个action 的预测,或者说proposal 然后世界模型,它没法很好的在各种环境下,预测出都非常逼真的这个未来,但是已经看到一些迹象,就是说大家都在往,这个泛化性方面去推,所以说到未来某个点,我觉得可能就发生在今年吧,就是一旦这个东西连接起来之后的话,这个循环一旦,比如说它的误差,累积到一个可接受的程度,一旦达到那个点的话,你的policy就会开始提升,整个循环就会变得越来越简单,其实你这个policy 一旦它变好之后的话,相当于是它,对各种各样的场景,它有更好的决策能力,泛化能力,然后这也就意味着,它可以自动的去,新的这些场景里,去采集一些data了,之前比如说,我很难去采集更多的data 是因为就是说,我这个policy 比如说我把它放到,一个新的房间里,它就乱动,它就把东西都打坏了,甚至把自己的机械臂都打坏了,但是假如你这个policy 一旦到一定水平之后的话,它就可以在这个新的环境里,他去自己的去采一些data 这个data可能是很差的,但没有关系,就是他已经在一个,比较可接受的一个范围内去动了,这些data又可以去给world model 然后另外因为这些data 是policy自己产生的,所以说它是一个自动化的,自动化的data 去给世界模型之后的话,世界模型它有更多的data 去学习这个物理规律,以及它的这个action 的,这个控制能力,世界模型最关键的两点就是,它对这个物理的模拟,和它这个action控制能力,这两点直接决定了,它能不能预测出一个很好的未来,以及这个未来,是不是能够提供一个精准的反馈,就总之来说,就是policy自动的去采集,更多的data之后的话,世界模型有更多的data 去提升这两个点,这两个点又可以通过,强化学习的方式去提升policy 然后我前面也说了,就是policy更加提升之后的话 policy越强,它输出的这个action分布,其实就会越窄,之后的话,它输出的这个就越来越合理,拿杯子就是拿杯子,然后比如说干什么就是干什么,对。它不会输出一些完全很抖动,很不合理的这些动作,然后这个对world model来说,其实是个比较好的一个趋势,就是它一旦就是输出的,这个action distribution 越来越窄的话,你这个world model 它实际上需要去模拟的,这个distribution 其实也是越来越窄了,就本来你world model 所有各种各样不合理的action 它都要模拟,才能得到一个好的feedback 现在是它只要聚焦在,这些policy可能输出的,这个动作空间里,它就够了,所以说对world model来说,它的压力是会越来越小,它压力越来越小,然后它的这个,模拟能力也会更好学,然后更好学之后,它的提供的feedback 又会更准,然后对policy优化,又更有利,然后你的policy 又会更强,输出的这个action 又会更加合理,几乎不会做一些,错的action了,然后所以说,你world model这种,只是要纠正policy 或者说只需要模拟policy 很少的一些错误,它就能提供一个,比较好的一个feedback 总之来说就是,现在没法连起来,就是大家这个误差累积,泛化能力不够,导致误差累积,可能还存在一些问题,导致只能在一些简单的task上去做,但是一旦这个循环连接起来之后的话 [00:38:50]

程曼祺:整个循环其实会变得越来越简单,越来越自动,然后它会成一个飞速的上升,就你刚描述的是一个策略,世界模型,还有通用agent 就是反正三个要素,它们泛化到一定程度,循环跑通之后,就会进入一个更快的自进化的过程,然后你刚才还说,你觉得今年某个时间 26年某个时间就会发生,你们现在已经四月份了吗,你们是看到什么迹象了吗,就是我感觉很多paper 就很多文章也在说这个事情,那发生了之后会怎么样了,就我怎么感觉,这AI发展速度,就越来越无法控制了,现在我感觉,其实在一些简单的任务上,至少我觉得已经是有信心 [00:39:18]

高深远:把这个连起来了,首先简单任务上,它会直接解决,然后这个policy越来越强之后的话

泛化瓶颈与动作反馈

高深远:然后这个policy越来越强之后的话,它也可以去更多的任务上,去自动的去收集这个数据,这也是我可能,对构造一个新的表征空间,没有那么,觉得没有那么必要的一个问题吧,因为现在就是,智能agent呢,比如说你基于VRM 然后world model基于video 然后policy 比如说像DreamZero 它基于这种video backbone 有很好的泛化能力,你现在只要你这三个组件,你都基于一些data rich 最数据丰富的一些表征出发的话,它就很容易接起来,你会发现就是,首先智能agent 跟这个policy 它的这个交互是语言 policy跟世界模型的交互是action 然后世界模型,跟智能agent 的交互是video 然后这三个,其实都是一个比较,相对来说,比较富足的一个模态,然后所以就是,这三个

程曼祺:你去提升它的泛化能力的话,可以很好利用,现在基模的一些功能,然后我感觉是比较promising Google现在,就你刚刚说的那个循环,我能看到,比如它的世界模型是genie 然后它的agent是SIMA 在英伟达 [00:40:49]

高深远:如果去对应一下的话,这个loop里的三个要素,你可以讲一个公开发的成果,都是一些,因为然后我感觉就是,主要Cosmos那边在负责做基模吧,相当于是,他们那边会做VRM和,这种视频的foundation model 他们这些可能,没有那么角色,主要是说就是,他们可能不是直接,比如说有个action 的一个控制,我们还需要通过post-training 去得到这些action 的输入输出,那Cosmos是相当于Gemlight在做,对。就是Google的Dynabank 他们研究风格,其实你可以发现,就是说他们很喜欢从游戏出发,像Genie 3的话,它其实也是键盘控制,理论上来说,它这套Peplan 可以同样能用到机器人上,但是我感觉DeepMind 它风格就是,想从游戏开始验证,我感觉这也合理,就是游戏的data 你是无限造,就是机器人的data 你从造data 就产生这个data的阶段来说的话它就是受物理时间限制的,但游戏data 就是你从造data这个阶段,它就是不受这个物理时间限制的,包括它验证起来也更方便,其实我刚想问的是,就DreamDojo它是相当于是SIMA吗 Genie 3 它相当于Genie 3 然后SIMA的话相当于是,一个任何一个policy 那个机器人是SIMA 或者说机器人上的这个policy是SIMA 然后它控制的是游戏里的agent 我们的policy是物理世界的policy 比如说VLA 然后它或者说DreamZero 然后它控制的是机器人,然后你们的巨山这个语境里的,那个世界模型就是DreamDojo [00:41:55]

程曼祺:然后你们巨山里的那个策略是DreamZero 然后机器人你可以理解,你可以说他就是那个agent 这个agent相对来说起到一个,就是连接这个loop循环的一个作用,就是他是一个 [00:42:32]

高深远:我觉得就是他是一个Gemini那种VLM 他输出的是给文本,给文本对,或者说去给这个world state去打分,然后假如说我这world state是video的话

程曼祺:相当于是你可以直接用现有的基模去用,那我觉得它这样对应应该是更清楚,它相当于那个人老自己那个想法,对吧,就你要干一个什么事,对,你肯定是有一个比较高级的规划,对,你觉得现在整个就是世界模型的,这个探索中间,比较大的瓶颈是什么样,就大家都想去突破的一些问题,其实很多吧,就是首先就是,我感觉这个还是一个非常早期的一个阶段,对就是,其实我觉得可以这样总结

高深远:就是我感觉现在,我感觉最值得做的是三个方向,然后第一个是它的泛化能力,然后第二个是它的这个,长程的这个稳定性,就是你交互多轮之后,这是3D世界模型的优势,就是你怎么交互,它这个场景永远是,坐标永远是不变的,但是深层次世界模型,就会有这个问题,就是它交互多轮之后,就会误差累积,第三点是它这个效率,然后其实后面两点,我感觉还好,然后第一点泛化性,我感觉是最重要,然后是决定这个世界模型,能够应用的上限的,然后泛化性又包含两个,一个是就是刚刚也说了,就是物理理解的泛化性,另一个是动作控制精准性的泛化性,具体是什么意思呢,就是物理理解的泛化性,就比较好解释,相当于是你见到一个新的场景,然后一个新的任务,新的物体,然后你怎么去依旧能够模拟它这其实也是DreamDojo 主要在解决的问题,现在我们的robot的data 它基本上都是,比如说在我们实验室里采的,然后可能只见过一些,就是我们买的这些玩具,比如说给它一个新的这些抹布,或者说你要让它到个水平,假如说我们机器人数据里,没有这个data的话,这个世界模型就不知道这个水,或者说这个纸质的这个东西,它是怎样一个东西,它这个物理就很差,然后假如说这个物理很差的话,你把这个世界预测出来,其实也没有什么意思,它抓一个抹布像抓个实体一样,它模拟的越差的话,相对是你很难得到,很好的一个反馈,所以这是物理模拟,我们希望就是说,我们的试验环境,能够模拟更加,甚至他没见过,就是在机器人data里,没有覆盖住的这些场景,以及这些物体,假如说一旦他能模拟,这些场景和物体的话,相当于是,他也能在这些场景和物体下,去给Policy反馈了 Policy也能在这些场景和物体下,去得到进步,否则你这个Policy 只能你见过的这些物体和场景下,去接受WordModel反馈,相当于是,还是没有提升policy 的泛化能力,然后另一个就是action 的泛化能力,这个是什么意思呢,就是说你世界模型,它要尽可能去公平的模拟所有的action 导致这个的问题原因是,就是前两年大家都在研究这个policy 然后所以说大家积累的data 都是这种专家数据,给不要用的data 对。给不要用的data 所以说它就有个问题,就是说所有的data都是对的,就是你抓个东西就是抓那个东西,然后它都干成功了,然后这对世界模型来说是个什么问题呢,就是这对policy来说是合理的,就是你policy应该给他专家数据,然后让他去做对的事情,但世界模型,它是一个世界模拟器 [00:45:10]

程曼祺:然后世界模拟器,它对这个动作,不应该有一个这种偏好,对就你前面说的,它也得有失败的那些情况,它也得学对吧,它也得训练,就你给它一个抖的,它就是得抖

高深远:你给它一个丝滑的,它就是得丝滑,对假如说,因为现在说的都是专家数据,所以说现在世界模型,主要见过的training data 它也是这种专家数据,所以说它就会有个情况,就是说它没法泛化到,这些差的这种action 它给它一个差的action 比如说它本来抓这个东西,抓偏了,但是因为它没见过,抓偏的这种data 所以说它怎么控制它,它都是抓上去的,这样的话你就是,其实没有得到一个反馈,就相当于是,你无论是抓偏还是抓对,你把这个action给世界模型,它都给你生成一个抓对的,所以说这样就没有,得到一个区分度的反馈,不过这个也比较好解决,就是首先来说,这个不是最终的一个瓶颈,因为现在Policy 已经达到一定水平了,就我刚刚一直在说的,它一定具备了一些,自动采集的能力,就是你可以比如说,你用Policy 自动的让它去做一些东西,然后它采集这些数据,然后这个数据就是 Policy可能会输出的一些动作,世界模型要有用的话,它并不是需要,模拟整个动作空间,它只需要模拟Policy 可能输出的这个动作空间就好了,对然后Policy越好的话,这个空间就越窄,所以说比如说,这种你这个Policy 很强的话,其实世界模型,它可能接收到的输入,也都是这种,几乎是专家数据的,对所以说就是,模拟这个,其实也会越来越简单,对但是,现阶段要跟Policy 接上的话,因为Policy还比较差嘛,所以说你这个,世界模型应该,比较无偏的去,模拟一些,就是公正的去,模拟一些,不同的这种Action 对然后DreamDojo的话,相当于是用,用人类data 然后人类data 因为有很多这种,随便的动作嘛,所以说它就包含了一个更大的这种action 的分布,所以说你通过这个人类data 你也可以去让world model见过更多的这种action 然后让它去模拟一些失败的这种action 的时候也能够更加的控制力更加精准,对然后总之就是控制力的泛化和这个物理模拟的这个泛化,这两点的泛化都能仍让这个模型的这个预测,以及它预测跟你输入这个action 的这个对应性更加精准,更加精准之后的话,它给的反馈也更加精准,然后相对来说,也能够更好地去提升policy 那你说的这三个方向,就是要研究的方向,泛化我理解,其实就是你前面说的 [00:48:00]

程曼祺:靠那个循环,它如果接在一起之后,这里面的几个要素,就是policy和世界模型,都能提升,对。然后你后面还提了两个方向,一个是长程的,就比较复杂的那种任务,还有一个是效率,这两个事是,它在就比如优先级上,它是在泛化的后面,就比如它可能是后面,慢慢自然就能解决的,还是一个什么情况,以及大家业界有什么,对我感觉这两点就是好处,就是说,它跟现在这种视频生成的

高深远:需求可能是对齐的,视频生成,现在不是大家要去生成电影了吗,开始,所以说大家会解决这个误差累积,包括这个效率的这个问题,对这两个我感觉就是,不是限制policy提升的一个,主要的一个瓶颈,不过长程也是很重要的,就相当于是,现在可能大家关注的,都是一些短程任务,就比如说对应可能1.5秒,顺时的决策,然后让wordmodel去模拟一下,然后就给个反馈了,但最终机器人,通用机器人要做的,它都是那些很长程的任务,假如说你有个世界模型,它能够有长程的模拟,包括它有一个记忆功能的话,它对这种长程policy 的训练,也是有帮助的,但现在可能没有到那个阶段,你可以举个长程任务的,典型的例子吗,可以举个比较难的例子吗,就有很多需要长程的,一个是长程的稳定性,一个是长程的记忆,就比如说你把一个东西,放到一个柜子里,然后你关上了然后待会你又拿出来,就假如说你没有一个记忆的话,就是你关上之后,完全忘了这个东西,在这个房间里在哪里,或者说你在打开那个门的时候,那个东西就不在了,现在的这些世界模型,包括DreamDojo 它就是它没有这种长程的记忆 [00:49:45]

长程稳定性与行业评测

高深远:它就是它没有这种长程的记忆,就比方说你把一个东西,放到一个柜子里,让这个世界模型去生成,然后你把这个东西合上了,打开的时候,那个东西在不在,完全是一个随机猜的了,这对Policy决策来说,是个很灾难的东西,就是因为他得不到一个可靠的一个世界的预测,也就意味着他得不到一个可靠的一个反馈,然后相当于是他得到的这个反馈

程曼祺:都是一些random的一些信号,因为很多人认为未来家庭服务,肯定是具身最大的一个场景,那如果说机器人要真的像一个人类的管家,或者说一个真人那样,比如说我知道家里的某个碗,比如给小孩用的这个碗,它是放在柜子里的什么地方的,而且我一直都知道,就离这种能力会有多远,包括比如说,我拆快递,我要用某个剪刀,然后我剪那个吃的东西,我可能用另一个剪刀,然后它放在不同的地方,因为对我们自己来说,肯定我都知道放在哪,我偶尔会忘,但我大概也能找到,这种机器人,什么时候能掌握了,它可能是跨越,好长时间的这种记忆,还是说这不要靠,机器人自己的记忆来解决,而是我把家里的,很多信息直接告诉他,这个可能具身的research [00:50:22]

高深远:可能没有那么关注,是因为这个其实跟,这种大模型的,比如说像Gemini 或者说Cloud 它这种技术是共通的,首先这个东西,可能在文本空间做,会更合理,就是你不用视频去做,因为视频的话,它容易度特别高,所以说你要记这些东西,会很复杂,然后像这些抽象的这种位置,或者大概的位置,你用一个文本,或者说你构造这种大语言模型,它的context都很长,所以说我感觉,就不是很大的一个问题,然后具身它更关注什么呢,具身更关注就是,自己在做一个任务的时候,你已经确定,你现在这个任务是什么了,然后你怎么去把它变成一个,成功率很高的这个action [00:51:03]

程曼祺:这个是像做robotics的人,可能会现在会更加关注的,然后在你说这三个分号之外,我自己有个比较好奇的问题,就是世界模型现在怎么来做测评,以及这个领域,有不有一些比较公认的benchmark 因为你前面说到,就世界模型有一个价值,就是去测评具身智能的模型,那另一方面怎么来测世界模型,这个其实是世界模型,最大的一个痛点,就是你去读论文的话,你会发现就是说,所有的论文

高深远:他自己都搞一个benchmark去测,然后就是他可能比较的,也是只有个别几个模型,为什么会有这个问题呢,我感觉,其实最主要的问题就是,就世界模型没法zero shot 或者说世界模型,它输入不是有个action 然后受这个action控制,去预测未来的state吗,然后这个action 它肯定是跟你用的,这个机器人绑定的,就比如说你用语术的机器人,它是多少个自由度,然后你比如说,你用线海图的机器人,它是多少个自由度,它都是不一样的,对。所以说你一个视频模型,它就对应一个这个机器人本体,为什么像大语言模型,或者说视频生成模型,其他这种模型,它都能够有个公开的这种 Batchmark很好去比较,是因为就是,首先这些模型都是Zero Shot 然后另外就是它的这个,输出输出输出空间,天然就是统一的,就语言模型的话,它输出输出都是语言,然后就是这个没有任何的gap 然后相当于是,你把任何一个语言模型,你强行问它问题它输出的都是语言这个空间,然后像视频生成的话,你就是用文本给它,然后你让它输出这个视频,也是天然就是统一的,就是没有任何的gap 对但是放到机器人里头,问题就是说,大家都在用不同的机器人,不同的这个action space 然后所以说,什么时候能有个公平的benchmark呢,就要么就是说,我有个世界模型,它所有的机器人,或者说很多机器人,它都能zero shot 就是它各种机器人的action space 它接进来,它都能够就直接控制这个世界模型,大家都能直接去用来测,要么就是说,所有的research团队,或者说所有的,大家都收敛到一个机器人,这样的话也就不存在,每个人都在用,不同action space的一个问题了,所以要么就是,你有个很强的世界模型,他所有的action space 他都掌握了,要么就是所有的人,都开始用同一个机器人了,不过我感觉到那个阶段的话,已经是世界模型,很强的一个阶段所以现在大家还是,为了比较的话,自己会把不同的世界模型,训练成自己机器人本体的,那个action space 然后去做一个评测,所以就是跟大语言模型的问题,就是说大家要评测世界模型,必须把其他,比如说其他团队的世界模型,拿过来自己再去train一遍,这个代价就是比较高,所以说大家只能比有限的世界模型,在有限的这个benchmark上,然后大语言模型相对是,你直接拿过来就掉API 你就直接能测了,所以说你可以测一个超级大的表,那大家业界怎么评估,如果都在做就是这种,机器人世界决策模型的话,谁做的好,就没有一个直接的评估了,就指标上其实没法看,大家基本都拿过来自己试一下,一个是这个action space不同,然后另一个就是,它观测的这个也不同,就是比如说,你大家都用语速的机器人,然后action space是一样的,但你训出来的世界模型可能也是不一样,就是因为比如说,有的人把camera装在这,有的人比如说,把这个语速的头拔掉,然后装个脖子上装个这种相机,对就是它这个相机不一样,其实也是很影响,这个世界模型的,这个就是Zero Shot的能力,就你说到这个,我想到一个问题,就是我觉得世界模型领域的创业 [00:54:51]

程曼祺:那可能对投资人来说,就更难判断,哪怕你是搞这个研究的,你也比较难判断,别人做的怎么样,对吧,那何况你还不是专门搞这个,所以就是现在,我感觉还是一个比较早期吧,就是相当于是,你只能是有限的一些模型 [00:55:11]

高深远:你大概有个感觉,就是那些组,可能做出来的是比较好的,那你可以讲讲,就是业界认为,做的还比较好的吗,你自己的感觉吧,反正学界有很多组在做,因为就是,我感觉这个还是一个,比较早期的阶段,所以说有很多,这种research的问题,可以让学界的高校去做,然后其实大厂的话,比较旗帜鲜明的,做世界模型,首先就是NVIDIA 另外比如说 Yann LeCun的这个Meta Meta Meta AMI 叫Meta Meta Meta AMI 对,他们是做影空间的,这个世界模型,对。然后他其实也是为了决策,但他们其实现阶段,主要是为了,做一个新的标准,然后像李飞飞老师,他们做那个World Labs 他们可能更多是,为了去做游戏,就是他们用显示的3D表征,去做游戏是有优势的,包括做自驾,可能也是有优势的,但是对这种机器人来说的话,可能还是video会更好,然后另一个,我其实就之前也关注很多的,就是英国有个自动驾驶公司,叫Wayve做了一系列叫Gaia的世界模型然后有个大佬叫那个 Anthony Hu好像,对然后反正,他加入了一个大lab 叫General Intuition 他们也是做游戏的世界模型,就是他们的story是,就是疫情期间,大家都在家玩游戏,然后攒了很多游戏数据,就游戏它是可以突破,这个时间限制的,就物理时间限制,所以说游戏数据,它攒得很快,然后同时呢,我们人就是在创作,这些游戏的时候,其实也加入了很多,这种3D的这种知识,然后它对训练一个决策智能,起来说的话,其实也是有用的,我们团队之前,也做过一个工作,叫natural gen 就是相当于是,我们把我们这个机器人的VLA 我们去训练一个,游戏的一个VLA 游戏的一个policy 也非常的有用,对。然后所以说反过来也是一样,就是说你在游戏里学到的这些决策知识,其实跟你在现实生活中去做决策,可能也是很像的,对。所以说你在游戏里,首先它data 它是突破这个物理限制的就是它造data会比机器人攒这个data更容易,然后你在这个游戏里去做世界模型,然后去做policy 的这个验证的话,可能也是个比较不错的路线,对。不过他们目前没有什么公开的模型放出来,但是我感觉他们那个公司的这个脉络和布局,我感觉是我个人也是比较喜欢的,对然后最牛逼的,而且我自己最想,也很愿意follow的,就是Google DeepMind 对就是他们Genie 3 包括SIMA 就是他们就很典型,就是所有的东西,都往基模上去align 就是比如说你agent 就往他们的Gemini上去对齐,你VLA也可以往Gemini上去对齐,然后包括你世界模型,就从他们的Veo 就Veo相当于是DeepMind的Sora 就是他们最好的视频模型,你永远都是把action数据,然后决策数据,去往这些大的,就是data rich的这些两个模态上去对齐然后继承这些模态,它很好的泛化能力,然后去形成一个这种,自我进化的loop [00:58:08]

程曼祺:然后在游戏里先验证,我感觉这是他们的思路 OpenAI和AnswerPig 在去探索这个世界模型,和agent和policy 的自进化上,是做了些什么工作吗 Azure Peak可能比较少,我不知道OpenAI

高深远:Azure也比较少,然后OpenAI的话,他们Solar Team不是解散了吗,然后也不叫解散了,他们Solar Team重组到Robotics Lab下了,所以我感觉今年也是比较竞争激烈,你可以看到就是他们Solar团队

程曼祺:就是业务停了吗,但是合并到那个Robotics组了 OpenAI的Robotics现在有多少人,它算是一个大力投入的方向,还是只是试一试,比如说可能有人想做就去做,他们很早期有

高深远:就Robotics有很多demo出来,从我知道的一些信息来看的话 GBT成为他们主线之后,可能就没有那么推,但感觉最近好像又在seriously 搞这个事情了,对就是尤其是把Sora

程曼祺:重组过去之后的话,我觉得他们可能是要,在世界模型上去做出一些东西出来,你觉得Anthropic不做这个方向,会是一个miss吗,还是无所谓了,他反正把自己聚焦的那块,搞得足够强,就可以了 [00:59:08]

高深远:现在OpenAI压力也挺大,首先不会miss吧,就是我感觉,你能统治整个,比如说虚拟世界的这种agent 已经是很强了,首先做这种robotics 或者说往大的说叫physical 通用人工智能 就是你去做一个通用的智能体,我感觉有两种路线,一种就是你现在就开始去碰机器人,碰robot data 然后相当于是我做robot的世界模型,我做robot的policy 对然后这可能是现在大多数浮出来的startup 包括比如说像我们大家都在做的,然后另一种路线就是说,我觉得像国内的字节 ARMY 然后包括Anthropic 我不知道会不会,假如说他们投入Robotics的话,可能也是这种思路

主要团队路线与基座模型

高深远:可能也是这种思路,就是我首先得有个,很强的这种agent 他看各种图,然后就是他解决,各种虚拟的task 这个虚拟的task 其实也包含多模态了,已经包含了,就是像图,然后像文本,视频,就是刚刚说的,两个最data rich的模态,其实也已经包含了,所以说他们的路线,可能就是相当于是,我先搞一个很强的基模,他们其实也可以叫自己,一个世界模型,因为它有很多world knowledge 然后假如说你把这种文本作为action 的话,它其实也能做出,我刚刚说的像这种text action condition下这种world model这种效果,就是做具身解决physical 通用人工智能 有两种路线,一种就是现在就开始碰robot data 另一种就是我先把这个基模解决了,然后基模解决之后,我有很强的表征,然后解决robot 它就是最后一步的事情,我感觉这两条路线都make sense 就是我们为什么要用DreamZero 去做这种policy 去改变之前VLA的这个格局,其实我们发现就是说,这种视觉模态跟action 其实有很强的这个对齐功能的,所以说假如说你这些基模,像OpenAI或者说Meta AMI [01:00:52]

程曼祺:或者说像字节,他们去推进这种基模的进展,最终再去solve这个robotics的话,我感觉也是有可能的,在你最看好的这种,做physical AI里的世界模型的路线,就是video based的路线里面,你觉得谁是最有可能做成的,这个问题有一个背景,就之前就是具身季报那一期,跟Arfis的Peter陈哲聊,就是他觉得,如果在这个路线上,那谁能把这个,视频生成模型做好,就很关键,然后他说这个东西,可能会非常吃数据和算力,至少目前来看,真的把这个事,做得暂时领先的 Google然后字节,还有快手,其实都是有很多,视频数据的公司,虽然我不知道,他们是不是直接能用 [01:01:05]

高深远:可能有些合规的,对首先就是,做好视频模型,尤其是视频的这种视频模型,你的基座模型,肯定也足够强,另外就是现在其实,我感觉做视频生成的基模,其实也有点分叉了,就是现在开始做电影级别的生成了,然后电影级别相当于是,你可以把这些分镜也做进去,然后比如说可能像快手这些,我具体细节不知道,就是我大概的感觉就是,可能他们做的这个视频基模,可能就,当然他们也可以学到非常通用的物理规律,但是他们这个,接下来他们调整的这个distribution 是不是对这个robotics决策,非常具体的这个方向有用,我觉得其实也不一定,对就是假如说你去做,这个电影级别的生成的话,但总之来说就是,我感觉赢家还是就是最终,你得有个很强的一个基座模型,然后像NV的话,它可能就是推这个开源路线

程曼祺:所以说就是像startup 就可以用这些开源的模型,直接去做 OK前面是聊了就是,世界模型的一些大的脉络,中间有一些地方,我们也进入了细节,那接下来可以展开聊聊,就是你们最近的成果,就是前面其实也反复提到的 DreamDojo DreamZero等等,我也看了一下,就是你之前发的一些论文,从24年到26年,其实你一直都,陆续有一些世界模型的成果,在释放,更早的时候是在上海AI Lab 做那个GenAD 那时候自动驾驶领域有关的,然后到最近这一两年,都是和具身相关的,你可以自己讲讲,就是你自己的,大家研究的变化,然后到了DreamDojo DreamZero这块 [01:02:39]

高深远:是主要在关注和解决一些什么问题,我可能是大概二三年下半年,开始做这个世界模型,然后一开始在自动驾驶世界模型做,说来话长,就是一开始是做这个multi agent感知,也是当时比如说车链网,然后V2X比较热门,然后那会儿就是diffusion 就是这种图片生成发展很快,对然后multi agent 它最大的问题就是说,大部分data都是single agent 然后所以说你multi agent 的data很稀缺,然后我当时就开始用这种图片生成的技术,去做这种就multi-agent 的数据生成,然后后来特斯拉他出了一个世界模型,然后当时就是想,既然都是用生成的技术,去做这种自动驾驶的数据生成,那为什么我不去做这个世界模型呢,从通用性角度来说,一开始也说了,还是单个agent 的他决策模型,包括他的这个世界模型更加的通用所以说当时就是觉得,做这个通用的单agent 的这种,自驾的世界模型,它会更加的有意思,当时学界的问题就是说,大家都是在用一个,公开的一个数据集,然后它可能就是五个小时吧,然后只是在新加坡采集的那种,你基于这个数据集的话,它其实就没法去,很好的去模拟,比如说其他城市,其他场景的这个世界模型,但世界模型,尤其是video world model 它的精髓就在于,它可以吃下所有的这些视频,然后同时呢,它可以就是完全靠数据驱动的方式,提升它的这个泛化能力,所以说就是当时我们就比较大胆,就是从YouTube上去搞了一批数据,整个开源社区里,应该是第一个去做这个事情,就是用一个互联网的,自动驾驶的视频数据,去训练一个世界模型,然后做了一个GenAD 主要搞了这个视频数据,就述映出了一个,比较泛化的一个世界模型,后面第二个工作是那个Vista Vista就是基于那个视频数据集,然后想怎么把它物理的质量,以及它action control的模态,做得更加丰满,总之就是世界模型,我最关注的一点就是,一个是它生成的质量,另一个就是它control的精准度,以及它的各种各样的模态,然后这是Vista在推的,然后后来我发现在学界继续做,自动驾驶世界模型,没有特别大的意思,工业界的话,他们有很多这种高质量的视频,然后假如说我在学界继续做的话,就是我得从YouTube上去搞这些数据,它其实就是一个天然的劣势,我尤其是像GenAD Vista 有很多要解决,怎么处理YouTube视频的问题,比如说怎么这个视频下下来,我怎么去处理,怎么去给它,比如说标上一个action label 但对车企来说,这些都不是问题但首先我们还是比较大胆的,就是第一个,从YouTube上去搞这个数据,去train这个世界模型,然后当时可能业界都还没有开始做 [01:05:59]

程曼祺:假如说业界,他知道世界模型很有用,很promising的话,他做这个事情是更加简单的,我这里是指车企,但特斯拉那个世界模型,是在你们之前发的对吧,那还算是业界做的比较早 [01:06:09]

高深远:特斯拉是非常有前瞻性的,包括那个端到端什么的,就自动驾驶吧,我感觉整个学术界,其实都是走在特斯拉后面的,你加入GEAR Lab是25年,对,我其实24年跟他们聊过,然后25年决定去

程曼祺:你加入的一个背景,就是整个GEAR Lab 当时也比较看重世界模型,对。而且包括之前很多研究方向,比较契合,我之前有个工作叫AdaWorld

高深远:然后是用Latent Action 然后他们就将三样业,就是他们也搞了一个种 Latent Action去train一个,这种policy 然后我当时想的是,比如说一个Latent Action的,一个policy

程曼祺:是不是能跟一个Latent Action的,一个world model接起来,那你可以稍微解释一下 Latent Action就是潜在动作,或者叫影视动作,对。影视动作,总之就是金范还有Joe的 research这种taste 或者说style 我感觉跟我比较match 对然后当时也很想跟他们合作,那他们是看到论文,就是他们就来找你了,还是你们之前就,有过什么接触了,是这样的 [01:07:03]

高深远:就是我24年的时候开会,就找过金范,对然后,但当时我是博二,博尔的话还是想自己多发一些这种,一座的这种paper 然后不太想直接参加这种大的project 大的项目,然后就是所以说就没去,后来又是开会,然后又碰到了预科,因为我今年也毕业了,所以说就是对这种工业界的机会,也会更加的向往,然后就是从去年开始又去intern 第一次面试过了,所以说第二次申请就没有面试,你说的开会就是开学术会议的,对就第一次是在西雅图,然后第二次是在新加坡,我当时开会本来是去玩的,然后反正也没想就是要去找inter 然后在那边逛那种论文海报的时候,看到了玉可,就回去给他发email说,能不能第二天聊一下然后他对我的background好像也比较感兴趣,然后就聊了一下,然后我说我去年去已经过了面试,对然后那就比较好,然后就直接继续合作了 [01:08:22]

程曼祺:那注意到你们这次发的这些成果 DreamDojo DreamZero 比如说是谁发起的,然后我们这个GEAR Lab的人,一起来做做这个,然后后来就具体做的时候,你是想解决什么问题,以及提出了一些什么新的东西,可以整个描述一下 Gear的话是有一个

高深远:一个是做policy一条主线,就是Groot N1 N2这种,然后另一个就是Groot Dreams 其实是一开始,相当于是Joe发起的,然后之前做了一个 Dream Gen一个paper 就是相当于是,也是用video model去做backbone 然后去做一个policy 我感觉这个顺序是这样的,就是你先用video model 去做一个world action model 然后它会有比较好的泛化性,然后这个我觉得可能两到三年内,能达到一个比较成熟的一个架构和训练方式,然后这个好了之后的话,相当于是你有一个policy 有个很好的一个起点了,它泛化性也比较好了,然后这个后面的话,还有一种world model 就是这种DreamDojo,这种action condition的world model 就是它可以提供一个虚拟的环境,然后给policy提供一个,这种自我进化的一个,这种循环一个环境,对然后这个成熟,可能会更远,就可能需要可能五年的这种周期吧,对可能会真正的去,成为一个大的一个爆点,然后我自己,因为之前做自驾,和做游戏的这种 world model都属于第二类,然后其实我也比较想看到,就是第二类能够 [01:09:36]

程曼祺:这种赋能什么,就是对我,对这个会更加感兴趣,那结合你前面说的,就是你说的这个环境,就是世界模型

DreamDojo 的目标与数据

程曼祺:就是世界模型,作为环境,或者说作为那个世界模拟器的,这一部分,然后和agent和策略,这三个你觉得今年,他们就能碰到一起,开始加速自进化,为什么这个爆点是五年后啊,我感觉今年不就爆了吗,自进化不会带来很多变化吗,我感觉这个故事

高深远:已经大家可以感觉比较promising了,但是现在这个,我感觉这个action condition的world model 包括这个reward model吧,你怎么让它能够在任何的场景下,都能够去,很好的去模拟,然后去泛化,我感觉这个其实是需要,首先是等待这个数据,然后另外就是等待这个,视频基座模型的这个进步,所以你前面描述的那个循环,就是你觉得今年,它是能初步的跑通 [01:10:17]

程曼祺:你们作为业内人,能看到这迹象,但是可能要真的变得特别有用,然后更多的人感受到,你觉得是需要更长时间,这可能就是你单个任务上,然后可能能够比较好,对就单个任务上先跑通,然后相当于是,把这个理论上的这个路线走通,然后后面可以连起来,去让它更多任务的,更多场景,那你可以具体说,你就说你做的这个是,动作控制的这个世界模型,你说你是做这个方向的,那你是进去之前 Gear就在做这个,还是你去了之后,相当于就有一个新的方向,因为我觉得这个会很有用,就是现在就比如说,大家都在做一个policy 当然这个还有很多可以提升的,对但policy之后是什么呢,就是你得有一个世界模拟器,相当于就是他们想做这个方向,然后看到你也在做这个,他们也在想这个,就把你招进去了,然后你就和他们的同事,对对,我感觉这也是个比较好的时间点,开始做这个事情,也相当于是你policy 已经达到一定水平了,然后你可以用world model 去跟他接起来,去做一些事情,因为就经过前面的讨论,我大概已经理解,就是说DreamDojo 是一个世界模型,就更靠模拟器的,那个世界模型,然后DreamZero 是一个类似于,把VLA改进了的一个策略,但是它里面也有世界状态,对吧,然后你们把那个东西叫世界动作模型,对,是这么一个关系,对,那你可以就是再补充讲讲,就比如说DreamDojo是什么,比如说它输入的是什么,它输出的是什么,然后它现在能达到什么效果,对DreamDojo现在就是,我们想做一个比较通用的这种,世界模型的这种portrait [01:11:39]

高深远:对就是相当于说,我有一个预设内好的一个世界模型,然后我开源出去给大家,然后大家有一个新的一个机器人,然后都能够很快的去,接上我们这个世界模型,然后微调一下之后就能用起来,我们主要想突破的点就是,它能相比之前只在单个data set上,或者说有限物体,有限场景下,去训练出来的世界模型,我们能不能从人类的视频中,去迁移一些这种泛化能力,过来给我们的世界模型,对然后就是,所以说主要的这个工作内容,就是怎么去让人类这种 Ego-centric的这种video 它的这种广泛的场景和动作的,这个物体的交互,这些知识能够迁移到,我们这个世界模型上,然后同时当它变成一个,具体机器人的一个世界模型的时候,它这些泛化能力还能够得到保持,对然后反正我们实验分析,也证明了就是说我们这个模型,它在这些新的场景,和这种没有见过的物体下,因为人类是比同有这些数据,但是机器人数据中,很少有这种数据,所以说我们把人类视频中的这些,新场景和新物体,迁移过来之后的话,它有一个比较好的一个,泛化能力,相当于是给,后面世界模型的研发,提供了一个更好的一个出发点,然后另外就是,还有一个进步就是,我们把这个模型做到了实时,就之前的这个世界模型,要么就是它能实时,但是它泛化能力几乎一点都没有,要么就是它可能,有一点泛化能力,但是它的这个实时性很差,然后这个其实就是很有用,首先就是你可以玩它,就是你可以连上遥操设备,然后你可以几乎实时的去控制它,对然后另外就是,你有个实时的世界模型之后的话,你在policy部署的时候,你可以去更快的去得到这个,相当于是你通过预测,去得到每个action 的后果,然后你可以在,就是在部署的时候你去通过世界模型去做一个搜索,对然后可以去提升这个模型的这个性能,就你说的这两个进展,第一个你说就是可以把 [01:14:06]

程曼祺:Ego-centric我理解,就是第一视角的视频,可以把那些视频,可以把它迁移到机器人上,这个事它之前的难点在于,那就是Human Ego Centric data 可能之前就是量没有那么多吧,然后相当于是我们自己去

高深远:展了一个很大的数据集,然后因为这个泛化能力,其实你要到一定量,你才能展示出来,比如说我有10小时的,这个机器人数据,然后比如说我指望,它从10小时的人类数据中,去得到一些迁移,那可能这个迁移效果是很微弱的,对因为首先有个这个本体,这个构型的一个gap在,因为另外就是这个 10小时人类数据里,包含的这个物体的,这个多样性,可能也比较局限吧,但当你这个,比如说你这个人类数据,很多了之后,首先它物体,包括包含的这个物理规律,也很多,然后它可能会需要去模拟,这个很好地去预测,这个人类视频的话,你应该这个模型,需要去理解一些,更通用的一些knowledge 所以说它可能能够,更好地迁移到这个机器人上,所以这个事的难点,主要就是之前数据不够什么,并不是方法,对数据不够

程曼祺:然后也没有人做这个事情,那你们这一次,因为是用了,大概接近四点五万小时的数据,这个四点五万小时,定到这个量级,比如说是怎么知道,这样可能就能看到效果,还是说就试到这时候,就看到效果了,以及你们说,你们是攒了一些吗,那你们是怎么获得的,你们是找人带着摄像头,自己去拍自己的,这种第一人称的视频吗,四点四万个小时的这个数据,越多肯定是越好,我们为什么停在这个点 [01:15:21]

高深远:就是首先我们方法上发现,就是说从我们内部验证,发现这个方法是通的,然后知道这个方法通了之后的话,我们首先假设我们不知道用户,或者说开源设计会在怎样的场景下测试,所以说我们就尽可能,引入更多的数据进来,就是你引入数据越多的话,它覆盖的这个场景就越广,然后所以说这个数量级,就是我们当时我们训练,我们最后一把模型的时候,有的这个数据,所有的数据都用上了,就是这么多,然后但是其实,也没有很好的去调大的分布,所以说我感觉,假如调大的分布的话,可能这个迁移能力会更好,反正这都是一些局限,没有做的

程曼祺:在做就是这个量级的数据的过程中间,处理数据难吗 world model有个好处,就刚刚说policy 它叫用专家数据训练,然后但是world model 它可以吃下任何数据 [01:16:27]

高深远:你即使对数据,不做任何分布上的处理的话,你用它去训练世界模型,都是合理的,对就我们这个数据很diverse吧,就是他这个人去做一些,各种各样的任务,我们这个数据,其实也可以用来去trend policy 就是我们还有另外一个,很好的工作叫Ego scale 就是他其实也是,基于这批数据去做的,但是你会发现,他用的数据可能就是,没有那么多个小时,也做了一些filtering 而一方面是有质量上的问题,另一方面就是,你做一个policy 的话,你希望你这个model 可能还是尽可能是,不能把所有的数据,都喂给这个policy 因为policy 它需要学的是,最优的一个决策过程,然后在世界模型的话,它学的是一个,你各种各样动作下,你对这个世界的一个模拟,一个仿真,所以说你任何,在这个现实世界里,能够发生的这个数据,喂给它都是对的,对。所以说就world model

程曼祺:它对这个数据的质量,包括标注,其实没有什么高的要求,就是它只需要有action 就好了,那什么时候可以用,就是第三人称的视频数据,来训世界模型了,因为那个量就很大了,而且那会非常有多样性,它现在不能这么做的,对这是个很好的问题,首先就是我觉得,不是不能做,就是是可以做的,就是你第三人称视频,它其实也在学习,这个物理规律,然后只不过就是 [01:17:33]

高深远:它可能跟最终的,这个要用的那个视角,可能差的比较大,我们这个模型,其实是这样的,就是首先我们是从 NV的这个视频的,基座模型开始,就Cosmos出发,然后去做人类视频的预训练,再去做机器人的这个微调,但是因为我们是从Cosmos出发的,所以说其实在我们的人类视频预训练之前,你可以理解为还有一个预训练阶段,然后在这个预训练阶段,它其实是有这种第三人称视频的,就是Cosmos预训练好的之后,我们再拿Ego Centric video去预训练,然后再去Robot data上去微调,然后Cosmos那个预训练阶段,它其实是包含了这个第三人称视角,很多种数据的,我们发现就是说,假如说把Cosmos那个预训练阶段拿掉,就简单来说就是,我们不用他们的这个预训练权重,直接开始我们的预训练的话,效果会差,对所以说其实也说明,就是说第三人称的这个数据 [01:18:00]

程曼祺:放在第一个预训练阶段是有用的,那你觉得第三人称的数据视频,放在第二个阶段会有必要这么干吗,我感觉可以是啊,就是首先我们没有尝试过,我感觉就是看怎样能让他,迁移的这个物理知识最多,然后以及它不要遗忘一些,更通用的一些知识,因为在你们第二个,就你们说的那个预训列的阶段,就在COSMO上,又预训列的那个阶段,我理解它中间有一个,需要解决的核心的问题,就是那个视频里的动作,要迁移到机器人的那个结构上,对吧,其实就不太合理的,就你很难抽那个动作,对。那个第三人称的视频,它能不能做这个迁移,如果你找到一个方法能做的话,我觉得它有一个好处,是比较显然的,就是你的数据量,肯定就能扩得非常大,就至少你可以先把互联网上,已经有的数据,可以先训一遍,对,只不过它也不有必要,还是说我在前面那个阶段

高深远:就Cosmos那个阶段,我训了我就过了,首先从我直接上来说的话,把第三人称那个,并成一个阶段,甚至就是我说的Cosmos那个阶段,和我们这个预训练就并在一起,应该是会有一种办法,让它会变得更好的,像VLA训练其实也是这样 [01:19:44]

Latent Action 与跨本体

高深远:像VLA训练其实也是这样,就是之前比如说,大家只用机器人数据去预训练VLA 然后现在也有些很多工作,就是会不会有些视觉问答数据,去一起去运训练,也就是说,就是他不仅让这个VLA 去预测这种action 他同时也让他回答一些,这种视觉问题,就比如说这个图片的,这个标题是什么,然后他们是放在一个阶段里的,对当然可能需要一些条,但是他们是放在一些,一个阶段里的,说实话就是说,你把这些通用的这些任务,通用的这些,比如说视角,你放在一个阶段里,去做一起训练的话,它是对这个模型整体的,这个general knowledge的保持能力,是有帮助的,然后我们没把它放到一个阶段里,首先就是,主要是计算上的问题吧,假如说我们有足够的资源,我们完全可以这么去试,那我感觉应该也会有人试,然后另外就是,作为一个research的paper的话,其实主要就是我们定一个合理的一个研究问题,然后一个实验的设计,用一个令人有说服力的方式,把这个问题给解决 [01:20:51]

程曼祺:对所以说就是没有去继续去,用更多的资源去搞这个事情,我还有个想问的,就是因为你们用的是 Latent Action 就是在这个DreamDojo里面,所以他就不用打动作标签,这个事是,就是他在实践上有难度吗 [01:21:00]

高深远:就是在现在,他是一个很主流的方法,还是一个比较新的方法,这个我感觉,我应该是也是,推这个方向的一个人之一,对。我觉得是这样,就是DreamDojo之前,我之前还有个工作,叫AdaWorld 然后其实DreamDojo 其实直白上来说的话,就是把AdaWorld的,验证好的一些,比较简单的想法,到机器人和,这个人的data上,去scale up 就AdaWorld 其实做的也是,类似的一个事情,就是我怎么,比如说有很多,没有标签的这个数据,然后我用Latent Action 去表示他们的action 然后我去pre-train 一个world model 然后当时 AdaWorld的那个工作是,我是在很多的,游戏视频上,去做这个事情,当时没法去买数据,然后也没有,很多这种资源,然后我就,自己搞了,一千多个游戏,在那边乱跑,然后就不停地,给我源源不断的生成数据,然后去用Latent Action去抽说到这个Latent Action 它有什么性质呢,就是说相当于是,你可以用一种非常简单的方式,对所有这种没有标签的数据,打上一个Action标签,然后而且你不用考虑,它是什么本体什么视角,它非常简单粗暴,然后它也非常符合,就是你有多少video 你就能用Latent Action 去给多少video打上这个标签,所以说它不会损失任何 video data的这个scalability 对但以后,这个是不是值得继续研究,我感觉这,包括作为这个方向的,推动者之一吧,就是我感觉也打上个问号,就是因为现在有很多data 大家都在提供,很高精度的这种label 包括这个具身,最终是不是一个,跨本体的问题,其实其实也不一定,就是比如说大家,最终做的越来越像人的话,无论是外观,还是动力学上,做的越来越像人的话,那你其实最终只需要得到一个人的一个policy就好了,所以说你是不是需要用Latent Action 表示,还是说你需要用人的这个,比如说手的这个表示,去表示他的这个action 其实我感觉都是值得探索的 Latent Action就是他用这,不用动脑子的方式,他可以用上所有没有标注的video 自然的不用考虑这个跨本体的一个问题,但假如说你有所有的数据,他都有label 然后同时呢,可能你这个跨本体,不是一个非常大的,一个痛点的话,我感觉类似性,可能就没有必要,对。就是这么一个东西,就是不说这个跨本体,是不是一个痛点,我想到跨本体 [01:22:59]

程曼祺:它是一个,对动物和人来说,我感觉是一个,比较自然的,比较符合,反正我们的这种,行动直觉的感觉,就是你看过,冰与火之歌吗,就里面那个布兰,它不是就是异性者吗,就是它可以,进到狼的身体里,然后它也可以,进到那个乌鸦的身体里,其实我觉得,乔治马丁写的,这个skin changer 它就很符合人想象中,人能做到的事,其实它就是跨本体的,而且就真实世界中,虽然我觉得,没有人真的,比如说进到狼的身体,或者熊的身体,但有一个现象,是可以观察到的,就有些人,他因为某种原因,比如失去双臂之后,其实他用脚,也可以做很精细的操作,就正常人做不到,但是有些人,他因为用不了手,他就能做到,就我感觉人是本身,就有这种,去适应一个新的,构型的能力的,或者说动物吧,动物可能也有,对,就Latent Action 它是这样的,它是一个有噪声的Action表示 [01:23:39]

高深远:就它不能很好的去描述,每个具体的本体,但是它相比,所有的本体来说的话,它都是一个比较好的一个媒介,就是你从它开始映射,跟一个新的本体来说,一般来说是最近的,所以说就刚刚你说的那个例子,就比如说人失去上手,或者说人,我不知道每天,哪天起来突然变成一个狼,对就是我们可能也需要适应一下,但是假如说我们有一个Latent Action 作为一个这种鲜艳的话,从Latent Action出发,它可能是到各种各样,不同Action 这个Space 一个比较自然的一个出发点,或者说比较居中的一个出发点,但假如说你最终训练data 它都有high-quality的这种data标注,以及这个high-quality的data标注,跟你最终要用的这个机器人本体,它本身就没有特别大的Gap的话,你就没有必要到Latent Action去绕一圈,对就是差不多是这样一种感觉 [01:24:31]

程曼祺:但我感觉肯定是没有好呀,没有它更有效率,更省事,以及你能用的数据,你说没有LatestX吗,没有那个标签好,就不需要那个标签,我不是能用的数据就更多,是这样 [01:25:23]

高深远:但是现在有标签的数据的增长规模,也达到了一个令人惊叹的一个速度,我觉得,是因为打标签很便宜吗,对。就是你现在其实,之前大家采机器人数据,比如说都是刻意去采,就是比如说,我是一个实验室,然后我这个房间,我搞个桌子,然后我去摆一些东西,然后我采完,然后重置采完重置,一天采个100条这样,这些素材的模式是这样的,但以后这个素材的形式肯定会变,就是之前我不知道哪里也看到,就是比如说家居,就是你做了这些事情的时候,你就可以采data 包括我们这些人类视频,就是相当于是,他自己就在干活,然后他同时就把这个data给采了,而且只要他带一些外设的话,你就能记录一些比较高精度的label 对就是之前素材的过程,就是相当于是,他本身不是在工作,他采集数据就是工作,然后但后面的采集就是在工作中采数据,在工作中采数据的话,只要你带一些便携的,这种外设的话,首先它不影响本来的工作,然后它也是自带标签,对另外就是,这个数据积累会非常快 [01:26:30]

程曼祺:而且合成数据,也可以自带标签,为什么那个,就是DreamDojo 对应的这个数据集 DreamDojo HV 还没有开放到开源社区,你们接下来会有这个计划吗,这个会开的吧,就是但是因为就是,我们可能还想继续这个,做一些其他的research 就你们先做了,其他的research之后再开,应该会随着,后面的project再开,对。还有一个我自己,比较好奇的问题,就你们这次DreamDojo 这个本体用的是,复利液的G2Y 就本体选择上,大家现在是怎么考虑的,因为我之前了解,可能G1 就是语术的G1 还是最主流,被用的最多的,你们这次是怎么想的

高深远:这个其实没有什么,特别的考量吧,就是因为就是首先我们自己,之前内部有一些,不列加万的data 对然后在这个技术上去,构造这个测试技术,更加方便的 [01:27:21]

程曼祺:因为我问这个问题,好奇的一点是说,就是其实,就你刚才也说到了嘛,有一种可能,就以后本体可能会,变得比较统一啊,我觉得这也是一个,很好的技术,或者说商业上的机会啊,那可能第一步就是你,比如说在研究机构里面,很多人会去用某一个本体,我就想知道,研究机构去选的时候,都是因为一些什么因素,首先就是考虑,比如说各种本体的故障率,然后另外就是它易用性

高深远:以及大家的这个,就是有多少人在用,就是是不是它是一个,就是很受欢迎的一个本体,然后第三点就是,比如说跟我们一些 cross-embolism的data 它的这个接近程度 [01:28:00]

程曼祺:可能也是一个比较关注的点,就比如说我们人类数据,那可能最好它就是一个,零巧手的一个本体,所以你们这次选G20 是因为G20有零敲手吗,还是因为你刚刚说的那几个因素

高深远:你觉得都还可以都比较好,选G20主要原因就是,我们本身就有一些内部的dataset 然后在G20上构建评测集会比较容易

程曼祺:并不是因为它多好,关于就JIM DOJO评估的方式,你们这个就如前面所说,也没有什么公开的benchmark 所以你们是自己做了六个benchmark 对,就你可以想想,就是你们在评,你们自己的这个进展的时候,就这个,全部都是这个世界模型,你们主要是考察它的哪些能力,所以构建了这几个benchmark 首先是世界模型目的是为了,得到一个更加精准的反馈,然后得到更加精准的反馈的话

高深远:主要是体现在两方面,一个是这个预测未来的,这个真实度,物理的合理性,然后第二个就是它,被各种action 的这个控制能力,对。然后我们评测主要也是,从这两个维度开始的,对。强等于是,把数据加上去之前,我们先内部用GR1 去搞了一些这种内部的数据集,初步看到一些迁移能力之后的话,我们又用了一个,开源的这种Ego Centric data set 叫Ego Dex 对,然后就是它主要是有很多种这种物体,对。然后我们也对应这个映射,去做了一个这种对应的测试集,然后也看到了一些这种迁移能力,然后有了这两个信息之后的话,我们就加这个人类数据了,在更多的环境里,更多的不同的物体,让人类去采这些数据,就简单来说,就是我们自己先内部数据验证然后用开源数据集去验证,它这个更多物体下 [01:29:57]

分布外泛化与策略反馈

高深远:它这个更多物体下,它这个迁移能力依旧是成立的,然后在这之后就是直接加数据,虽然我们是用这个GR1 去作为主要的这个测试本体,但是我们这种目的是为了,做一个通用的一个预训练权重,给整个社区,所以它是跨本体的,对吧,就别的本体上,它应该也有效果,我们也提供了,其他本体的这个实验结果,就是其他本体也能用,这就是Latent Action的好处吧,就是,就是比如说,你是人类视频中学习,但是你比如说,你这种迁移到一个甲爪上,可能也是有迁移能力的

程曼祺:我看就你们这个测试,你们有很多都是,关于泛化的测试,就是这个out-of-distribution 就分布外的数据,它能否去完成一些任务,我想问一下,这个分布外是,它的范围指的是什么,因为你最开始有一个,比如Cosmos的视频模型的基模,那个里面按理说,他应该是见过很多东西的,就他如果遇到一个情境,连Cosmos都,数据分布里都没有的话,他能做到,问题是这样的,就是假如你把一个基模,你变成一个action 控制的世界模型之后的话 [01:30:32]

高深远:它可能会损失很多这种能力,损失很多泛化能力,所以说就是,我们有那个human pre-train 然后加上Latent Action的话,它相当于是,它更适合一个action control的,一个世界模型

程曼祺:在新环境下去做泛化,这个新环境对它是新到什么程度啊,就比如它是在哪个阶段没见过的,对它就叫新环境,新环境其实指的就是,我机器人data里没有见过的环境,叫新环境,假如说把Cosmos也算上了 [01:31:12]

高深远:那个三阶段,就是Cosmos训练,然后我们人类data训练,然后机器人data训练,我们机器人data里,没见过新物体和新环境,我们就叫它是分布外,那你们测过它人类数据,你没见过的新环境,它能做吗,比如它成功率或者它表现是怎样,首先我们这个人类的数据非常多,就是我们那个44000小时的,这个人类数据,它覆盖了很多的物体,基本上我觉得就是我们测试集里的物体,应该至少在这个数据集里都会出现过,或者说类似的物体,就其实事情是这样的,你像大语言模型,包括这种视频生成模型,发展到最后,其实已经不存在什么分布内分布外了,就是一开始机器学习或者人工智能,可能大家比如说去解决什么分布内分布外的问题,但是当你发现就是你把整个互联网视频都训练进来之后的话其实所有的问题它都是比如说在分布内做插值,它不是一个做分布外的一个事情,就是一开始比如说大家会设计很多人工的一些方式,比如说去解决一些分布外的一些问题,对。但是通过scaling law之后,可能就是所有的问题都变成分布内的问题,就是这种通用人工智能可能也就是这样,所有的问题都变成见过的问题,对就是这样就解决了,对所以对机器人来说,它是分布外,但是对人类互联网视频来说的话,可能最终所有的物体和所有的场景,它都是分布内,然后总体来说就是我们发现,就是通过人类视频数据训练,对于机器人数据分布外的,这些场景来说的话 [01:32:19]

程曼祺:它是有很好的这个泛化性的提升的,那你们最后这个东西是用成功率,它来做一个,比如考察的什么成功率稳定性,这种之类的,我们也会在下游上,就是你有个世界模型之后,你可以给policy提供反馈 [01:33:02]

高深远:然后给policy能够提供反馈的话,相当于是,你可以用policy 的成功率,去表示你这个世界模型的可靠性,对然后反正我们也是有实验的,相当于是你有policy 然后你可以用世界模型,去选出更好的一个action 然后让policy去执行,如果直接看世界模型的反馈,好不好用什么,还是得跟一个policy一起来看,就是单独有个世界模型,你其实做不了什么东西,就是世界模型,它就是对世界的一个模拟,然后你真正要做机器人的决策的话,它还是得有一个东西,去出这个action 对现在大家做法一般就是,你有一个比较好的一个policy 然后你用这个policy 它出一些action 然后你让世界模型,给它去选一个最好的action 这是一个最简单的用法,假如说这个世界模型,它足够好的话,它应该每次都能选到最好的action 对假如说

程曼祺:这个视觉模型很差的话,那相当于是,他每次都在做一个随机选择,那你这个policy 其实加上一个视觉模型,和不加一个视觉模型,都差不多的成功率,就相当于是控制变量,就是你加了这个,他的视觉模型的反馈之后,他的那个策略的成功率啊 [01:34:07]

高深远:各方面的指标应该提升,对,就视觉模型最终的目的,还是去为了提升policy 对所以说,看视觉模型,他的这个反馈,是不是好的话,最终还是得跟一个policy 结合在一起看,但你也可以有些中间的指标,就比如说,你看他这个,是不是跟随了你这个,输入的这个action 包括你看到这个输出的这个未来,是不是足够的真实,这些其实跟他这个反馈准不准,是直接相关的,对所以说我们平时迭代世界模型

程曼祺:也可以直接看这两个指标,你们接下来,准备继续怎么去,发展DreamDojo 可以先讲讲就现在有什么问题,然后接下来怎么去优化,特别细节的我就不讲了,然后从前面来看的话

高深远:就是我刚刚说的,把那个虚幻建起来,就我感觉这是很promising的,就我感觉有两拨人吧,一拨人就觉得,世界模型完全没有必要,就是我只要做policy 就一直做policy做到底,然后我有个很好的policy就够了,但是我自己觉得就是说,有个世界模型的话,你可以做很多事情,从长远来看,我感觉最激动人性的就是,你把一个自我进化的,一个循环给做起来,就是你有个policy 然后你有个agent 去提出一些任务,和给这个world state进行打分,然后有个世界模型,把这个policy 到打分的这个循环给接上,就是policy把action给世界模型,然后世界模型预测出未来,然后给这个agent去打分,对然后这个自计划,接上的话相当于是,你就突破了这个,物理时间的这个限制吧,对现在大家这个physical AI 解决起来很麻烦,因为就是不像这种 language agent一样,或者说像alpha go一样,它是有个虚拟世界就是现在的具身智能,还没有一个可以供,这种巨神的policy 像LM Agent那样,去迭代的一个虚拟世界,但是后面假如说,能有这样一个虚拟世界的话,就突破了这个 [01:35:56]

程曼祺:7天24小时的这个限制,就是你可以,其他的Agent一样,虚拟的Agent一样,也去迭代,也去进化,那你们这个优化大思路的话,就是会需要,你们这个方向和 GEAR Lab里面,做策略的那个团队,非常紧密的合作,对吧,就和DreamZero那边,对。你们实际上人,是不是也是交叉的,本来也就比较小的一个team 对,然后不过最终,什么policy放到,我这个loop里来,都是可以的,理论上来说的话,就理论上来说 CMI也可以放进来,就比如Google 自己搞的一些什么,或者甚至什么VLA 其实也可以放进来,对。就他们的接口,是足够通用的模态,就action 文本和video 对,只要这三个对齐的话,就是其实都是能接的,你刚说比较相信,就是我纯做策略,就可以做得很好,这一派的代表的公司,或者说人事,他们的思想可能也在改变吧 [01:36:08]

高深远:之前我看那个,那个,反正在采访里是这么说的,我感觉他们想的主要原因是,就是他们觉得就是,你做一个policy 做一个世界模型,比做一个policy要难得多,你policy刚刚说了,就是他需要的data 是这个专家数据嘛,然后像世界模型的话,你不仅要模拟专家数据的这个未来,你还要去模拟其他这种action 的未来,对。但我觉得就是,有个问题就是说,你世界模型要真正能够,开始帮助policy 的话,它并不需要完美,有它是一个循环上升的一个过程,所以说就是我觉得,这不是一个很大的concern 就是世界模型它即使很noise 然后它范围性还不够好,在某些case下,它已经能够足够去提升这个policy了,然后随着两个模型都在提升的话,最终这个误差累积 [01:37:02]

程曼祺:包括它的这个反馈的准确性,都会越来越好,如果你相信这条路变得更主流的话,你觉得巨生智能的创业公司,或者也有些公司是专门做世界模型的这种创业公司,它有多大的几率能参与推动和贡献这个事情了,因为听起来我觉得世界模型挺耗资源的,首先你处理视频类的数据,本身就比较吃算力,那是不是只有大公司才更有机会去做这个事,首先我感觉也没有那么让人绝望,首先世界数据的供应商很多,然后价格也都会通过竞争打下来,然后所以可以想象

高深远:就是未来大家所有人都会有很多data 然后另外就是GPU和模型的这个效率,也都会持续发展,所以说这种这个也会变成一个,大家都能做的事情,当然这种肯定还是会有几家单独胜出,然后像现在这种LM的这种局面一样,就是可能就几家了,对。但是我觉得就是大家都是可以参与的,对。然后包括这个loop里,就是其实有很多个component 很多个组件,然后怎么去设计一个,很好的一个提供reward的agent 或者说怎么去设计一个这种,就比较泛化的这种policy和事业模型,就是这个你都可以在一个合理的,一个实验setup下去验证,就是你可以有自己的专长的domain 就比如说家居或者说其他什么的,对然后在这个里面,把这个loop构建起来,因为其实都是有skilling law的嘛,就是无论是data和modal size 就是比如说先用基于这个 steadier skilling law 你去在一些小规模上去验证通假如说你验证这个通是最快的话,我感觉你后面,假如说有足够的信心,把这个推到底的话,也是可以有很大的胜算,因为就是Cosmos [01:39:21]

程曼祺:因为大家自己有一个视频生成模型,然后你们用基于那个来做训练,如果说这个环节是分开的,就是你基于一个别人做的视频生成模型,就先做人类数据,然后再做机器人数据,这个流程的话,就你自己不掌握那个视频生成模型

高深远:你觉得对你们的效果影响会大吗,对我感觉这个会有影响,对就是相当于是,你假如说你这个模型,你是自己掌握的话,你对它的这个训练的,比如说它预训练的分布,像NV的Cosmos 它可能对机器人和自驾

竞争成本与未来计划

高深远:它可能对机器人和自驾,它是天生是有一个倾向的,就是它会推这个physical AI 所以说它对机器人和自驾视频,模拟的都会更好一点,对然后另外的话就是,假如说你有些内部的支持的话

程曼祺:可能你继续去训练它,就infra上可能会有更多的支持吧,对我刚刚这个问题,其实是想到说,就按照你们这个流程,理论上来说,创业公司也可以不做,就Cosmos内部,他就做你们后面做的那些事,那个成本,就肯定比你整个链条都做,我觉得可能会大幅降低,因为前面Cosmos 那个部分是成本会非常高的,但这样可能会影响他的竞争力,如果说OpenAI Google 都往这个方向投的,比较多资源的话,对就是他们会有一个延迟,就假如说,不能直接去access到一些,最强的一些预训练模型的话,你觉得现在 DreamDojo的这个速度,会是个问题吗,我不确定 [01:40:12]

高深远:应该是DreamZero才会是个问题,我感觉都不是问题,对就是,首先就是你还有很多工程优化可以做,对然后另外就是 video model的速度优化,跟video model的主线是一样的,就是不仅是robotics的这些人,在推动这个事情,还有就是像做视频生成的这些,这个领域本身,大家都在推动这个事情,有点像这种,比如说你之前做LLM 大语言模型,然后就相当于整个领域,都是在提升它的,比如说这个context长度,和它的这个速度,对所以说就是,这是整个领域的痛点,所以说就是,你这个跟整个领域的,前进方向是一致的,对所以说就是

程曼祺:不是特别令人担心的一点吧,我觉得,接下来你自己就是,下半周年去探索和研究的方向,会是什么呀,你博士毕业之后,你的计划是去英伟达什么,对。你可以讲一下,你觉得不涉及到,你们比较机密的信息的,但是对业界比较有价值的这种,我可以讲一下,我为什么想这么选,就是我感觉工业界,他喜欢做一些,就是比较已经看到了这种 [01:41:33]

高深远:成功迹象的一些路线,然后去把它,用更大的规模去做出来,对。然后学校的话,可能是做一些,这种原创性的探索,但现在给我的感觉,就是已经进入了这种,有很多很成熟的技术路线,可以选择,然后已经进入了这种规模化的阶段,然后其实我感觉就是,包括整个人工智能,包括深度学习,它其实就是通往通用人工智能 其实是有很多路线的,就是最关键的可能就是数据,然后算力,你有一个正确的这种训练的目标,然后以及你有一个目标一致的团队,对。但是具体怎么去做这个事情,需不需要world model 甚至这个问题,它反正都可能达到这个physical 通用人工智能 所以就是可能不需要,很多原创性的探索了,在现在这个阶段,所以说我感觉就是,现在去工业节,是个比较好的timing 然后这是我做,这个选择的一个原因,你接下来自己想去探索的,具体方向是什么呀,你可以说比如说未来一年吧,比如从现在到 27年年中,今年世界模型很火嘛,然后对,然后世界模型机器人的话,分两个,一个是这个word action model 一个是这种,DreamDojo这种 action condition的world model 然后我自己一直在做,这种action condition的world model 然后我其实更希望,就是能看到,就是这个东西,最终能够去 Enable什么东西,就是它能够去,做出怎样的应用,对。然后从最终目标来看的话,我感觉就是,要实现一个,自我进化的一个循环,对。这个是我最后想做到的,其实主要的bottleneck 就是各个组件的,这个泛化性,就是只有他们的泛化性,足够达到某个临界点了,它能够才能在新的任务下,去提升,就是大家现在,都还做单个任务,就是因为单个任务,不用考虑泛化性的问题,但这个其实是不是,大家用这些基模的初衷,就大家用基模的初衷肯定是想借鉴这个语言模型,以及视频模型,它的泛化能力,在单个任务上,其实你自己去从头去训练一个模型,也可以把这个pipeline做通,但是你既然用了这个语言模型,视频模型,从这些模态出发的话,你最终,他们最强的点,应该就是他们的泛化能力,对。所以说这种世界模型,包括我的action model 它其实应该推向这个,更多的这个task 对就是泛化能力,要持续解决,对然后我感觉,这也是一个,现在所有的,主要就是推,这些upper bound吧,就是所有的efficiency 这些计算效率,我感觉现在都不是concern 因为这种都会被解决,就是整个领域的,这个大家都在关心的问题,包括video generation 领域都在关心的问题,对然后像我们的话,可能就是更关注,这个世界模型,和这个Wall-Eye X-model 它的这个泛化能力的推进 [01:43:47]

程曼祺:OK那今天非常,谢谢深远做客,晚点聊,分享了他在世界模型,尤其是动作控制的世界模型,就DreamDojo 这种成果的路线上,的一路的研究的经历,然后GEAR的过程,包括他们在这做的一些进展,我觉得今天,就给我自己比较大的一个收获,就其实因为我之前也看 Genie还有SIMA的这些成果,然后包括哈萨比斯觉得,这个东西未来怎么去,加速科学发现什么的,但可能会比较模糊,我觉得你今天说的这个,就这三个要素策略,然后加世界模型,加一个中间做连接和评判的agent 这三者这个loop形成之后,会带来一个比较大的变化,是描述的非常清楚,又很令人期待的一个未来的进展,虽然我现在比较难想象,这个东西真的实现之后 AI到底要发展成什么程度了,就感觉要左脚踩右脚,原地飞升了,我觉得今年可以好好期待一下,也许今年是一个苗头然后之后我们可以看到它更多的变化,那今天非常谢谢深远,各位拜拜,谢谢曼琪拜拜,本期连点呈现推荐第157期,我和Peter陈哲聊的26年Q1的具身季报,在这期记报里陈哲列出了一季度的top5重要进展,其中一项就是英伟达的一系列成果,包括DreamDojo DreamZero还有Ego Scale等,同时也推荐157我自己录制的2025年年末AI回顾,在具身的那一部分讨论模型进展时,我当时简单的介绍了 DeepMind的Genie 和 SIMA的进展,这些成果和想法,我们在这期节目里都有涉及,这次录制也解决了,我自己之前的一些疑惑,让我对英伟达GEAR Lab 以及Google DeepMind的思路,都有了更清楚的了解,简单来总结的话 DreamZero Ego Scale 还有Google的SIMA 都是策略是Policy模型,它是直接让一个主体,去产生动作Action的那个模型,这个主体可以是,虚拟世界的一个角色,也可以是物理世界的一个机器人,以前更主流的策略模型的架构是VLA模型 DreamZero这个工作之所以很受关注,就是因为它引入和初步验证了,以视频为backbone的思路,就是以视频生成作为基础,来做机器人的策略,而DreamDojo和Genie这类模型,则是一个更靠近世界模拟器的世界模型,它提供的是一个环境,它的主要目标是,预测这个世界下一刻的状态,来为更好的policy服务,深远描绘了一个很有意思的洞察,就是在现在,就是现在有一个由世界模型和policy 以及连接二者的agent组成的循环,如果以人类来类比的话大脑的任务规划和思考就是agent 大脑去,人脑去控制身体的部分是policy 而我们生活的环境就是世界模型,这三者的关系,如果更直接来表达 policy策略模型,它输出的动作是世界模型的一部分的输入,而世界模型的输出又是Policy模型下一刻的输入 Agent 一方面给虚拟角色或机器人规划任务,它是以文本的方式把这些任务输入给了策略模型,同时它也会评估世界模型对未来状态的策略是否准确,这个评估可能是一个分数值,也可以是一个文本的信息,它会进一步用来优化策略模型,具体的关系大家可以去看Show Notes里的那张图示,由于目前这三种模型的泛化性都不是很好,这个循环并没有转起来,但深远认为这是接下来一些团队,包括他自己会去努力推动的方向我们可以一起看一看,这个循环是否会跑起来,以及多久能跑起来,如果这种自进化真的实现,那我们可以突破物理时空的限制,做很多实验和训练,它可能会是一个非常大的变化,今天我们先mark一下,未来再见,本期节目就到这里,感谢收听,如果你对今天聊的话题有观察,好奇或疑问,欢迎在评论区分享想法,这也会成为我们节目的一部分,让整个讨论更完整,你也可以把我们的节目分享给,对这个话题感兴趣的朋友,推荐更多你想听的主题和嘉宾,你可以从小宇宙,苹果Podcast等渠道,关注晚点聊Late Talk 也欢迎关注我们的公众号,晚点Late Post 下期再见 [01:48:14]

返回该播客 打开原文