#569. 深入 xAI:三个月打造 Grok Imagine、视频生成与世界模型之争,以及视频智能体

完整转录稿

Podcast 跨国串门儿计划 2026-06-03 05:54
摘要

整体概括

这一期围绕 xAI 的 Grok Imagine 展开,核心不是“模型又涨了几个点”,而是一个更直接的判断:视频生成的下一步,不只是更大的 diffusion model(扩散模型),而是更像 agent(智能体)的系统。Ethan He 反复强调,真正决定进展速度的往往不是新算法本身,而是迭代速度、数据与基础设施,以及把模型、工具、编辑器和提示重写器(prompt rewriter)组织起来的整体流程。对他来说,视频模型的很多提升,最终都来自语言模型变聪明了,而不是单纯把视频模型继续堆大。

整期最鲜明的事实是,xAI 在没有现成 infra(基础设施)、数据和模型的情况下,用三个月做出了 Grok Imagine 0.9。这个故事把“做视频模型”从一个纯研究问题,变成了一个工程问题:你需要先 bootstrap(引导启动)合成图文/图文视频配对数据,再训练 tokenizer(分词器)和 VAE(变分自编码器),把图像和视频压进 latent space(潜空间),然后再在更小、更可控的表示上训练 diffusion transformer(扩散 Transformer)。在这个过程中,真正昂贵的不只是 GPU,还有存储、下载、egress(出流量)、缓存和 I/O(输入输出)这些经常被忽视的成本。

主要内容

1. 从 NVIDIA Cosmos 到 xAI:速度比会议更重要

Ethan He 先回顾了自己在 NVIDIA Cosmos world model(世界模型)项目中的经历。他说,Cosmos 让他意识到视频模型也存在类似语言模型的 scaling law(规模定律),所以如果想继续推进视频生成,关键是去一个算力更强、基础设施更成熟的地方。到了 xAI 之后,团队几乎从零起步:没有 infra,没有数据,没有模型,只有少数工程师,但他们用三个月就做出了 Grok Imagine 0.9。

他对“快”的理解也很具体,不是靠更多会议,而是靠每天能完成多少轮端到端迭代。很多提升并不是来自新算法,而是来自数据 pipeline(数据流水线)里那些不起眼的小 bug:一点点数据清洗、标注、缓存、调度上的修正,往往比换一个更复杂的训练方法更有效。xAI 的强项则在于数据 infra、模型 infra 和工程节奏,能让团队把大量想法迅速变成可训练、可验证的版本。

2. 从图像模型到视频模型:先压缩,再生成

节目花了很大篇幅解释为什么视频模型几乎一定要先从图像模型起步。原因很简单:互联网视频天然没有高质量、成体系的文字配对,必须靠 VLM(视觉语言模型)先给视频写 caption(图注),而最早的 caption 又只能靠人类尽可能细致地描述视频内容,才能 bootstrap(引导)出后续的合成配对数据。等这个环节建立起来后,模型才进入 tokenizer / VAE / diffusion transformer 这套标准管线。

Ethan 还解释了为什么 latent space(潜空间)如此重要。原始像素的 token 数太大,1000x1000 的图像就接近一百万 token,Transformer 根本扛不住;先把图像压到一个连续、低维的 latent space,再在这个空间里做生成和推理,才是现实可行的路线。视频进一步面临时间维度的压缩问题:压得越狠,context length(上下文长度)越小、训练越省,但实时性和交互性就越差;压得越松,又会变得太贵,难以服务。

3. 生成式 UI、Flipbook 和 Neural OS:视频模型的前端化

这一期最有想象力的一段,是把视频模型想成“前端”。Ethan 用 Flipbook 和 Neural OS 解释,未来的模型不只是生成一段视频,而是直接从用户意图生成界面:你点一下,模型给你下一屏;你输入一个需求,模型给你一个定制化的页面、操作系统甚至工作流。这样一来,视频模型不再只是内容生产工具,而是用户交互的直接界面,甚至可能取代传统 HTML/CSS 或部分应用层。

他特别强调,生成式 UI(生成式界面)会把“讲故事的带宽”推得比代码更高。人类本来就擅长通过视觉输入和语言输出和世界交互,而 video model 可能成为两者之间最自然的接口。在他的设想里,未来的 AI 会先把用户意图翻译成更详细的 prompt,再用 diffusion model 生成视觉内容,最后借助其他工具完成编辑和交互。

4. 训练成本不是只有 GPU:存储、流量和 I/O 也很贵

当讨论转向“训练一个大视频模型到底多贵”时,Ethan 的回答打破了很多人只看 GPU 小时的粗算方式。视频训练数据本身就非常大,VAE 压缩后的连续特征也要存储,下载原始视频又会带来高昂的 ingress / egress 成本。对于一个大规模视频模型来说,真正的账单可能由存储、网络和缓存一起决定,GPU 只是其中一部分。

他把视频模型的规模类比成“中等规模的语言模型”:参数量、token 数和训练成本都不再是小打小闹。再加上视频模型和语言模型在基础设施上并不完全一样,训练效率可能更低,所以团队必须把 I/O、缓存和存储当成核心问题来做,而不是训练之后再补。

5. 音视频对齐、世界模型和 reference video

到了 audio-video generation(音视频生成),问题变得更难。Ethan 认为,难点不是“会不会生成声音”,而是 audio(音频)本身同时包含离散和连续两部分:语音更接近带特征的文本 token,而音乐则高度连续,不能简单套用语言模型的离散 token 逻辑。更麻烦的是,视频、音频和文本必须在时间轴上严格对齐,模型需要知道每个时间步的对应关系。

在 world model(世界模型)的定义上,他给出一个非常清晰的答案:真正的 world model 应该是“实时、可交互、长时程的视频”。交互意味着能接键盘、鼠标甚至语音;实时意味着响应要足够快;长时程意味着不能只会生成几秒钟,而要能生成几分钟、几小时,并且保持一致性。Grok Imagine 中的 reference video(参考视频)和视频延展,就是为了解这个问题的中间方案:先把过去的历史压缩成可调用的上下文,再根据角色、场景或物体生成下一段视频。

6. xAI 的文化、first principles 和 prompt rewriting

在文化层面,Ethan 说 xAI 的关键词就是 move fast、build、first principles(第一性原理)。这不是一句口号,而是工程方法:先估算数据、算力、人工标注和迭代周期的最小时间,再倒推可行的研发节奏。对他来说,很多问题都可以从“如果我只有这些数据、这些 GPU、这些人力,我最少需要多久”开始算起。

他还提出了一个非常重要的判断:很多视频模型的改进,真正来自语言模型变聪明了。Prompt rewriting(提示重写)就是最直接的例子。用户给的视频 prompt 往往很短、很粗,模型本身对指令又特别“字面化”,所以必须先用一个更强的 language model(语言模型)把 prompt 扩展成细致、可执行的描述,甚至进一步调用工具、搜索信息、组织版式,再把结果交给视频模型生成。换句话说,未来的视频模型很可能是“语言模型负责思考,生成模型负责出图/出视频,工具负责编辑和收尾”。

7. Video agent:下一代生成式媒体的形态

在 video agent(视频智能体)这一部分,Ethan 的观点尤其直接:未来的视频生成不会只是“更像真”的模型,而是会变成会计划、会编辑、会迭代的系统。Grok Imagine Agent Beta 已经开始尝试让模型调用编辑工具、拆分任务、根据长链路目标生成内容,而不是单轮输出就结束。对专业创作者来说,这很像从 tab completion(补全)走向全自动 agent 的过程。

他甚至认为,video agent 的真正价值不只是让模型多想几步,而是把生成、剪辑、替换、风格迁移、字幕、局部编辑等流程串起来,让模型成为一个生成式媒体的协调器。届时,视频模型的性能提升不再只看“单轮生成质量”,而要看它能不能完成一个完整创作任务。这个判断也解释了为什么他后来会把更多精力转向语言模型和 context management(上下文管理)——因为视频、文本和工具调用在更深层其实已经连在了一起。

8. 离开 xAI:转向语言模型、上下文和可自我管理的 harness

谈到为什么离开 xAI,Ethan 说得很坦率:并不是视频方向没有价值,而是他想做一些在公司里优先级不高、但对下一阶段研究更关键的语言模型工作。尤其是 context management(上下文管理)、memory(记忆)、continual learning(持续学习)和 self-modifying harness(自修改 harness)这些方向,他认为会是下一波值得认真研究的问题。

他的最后一个判断是,语言模型未来也会像视频模型一样,越来越需要“知道自己的上下文到底发生了什么”。比如上下文快满了要不要压缩、哪些 tool call(工具调用)结果要丢弃、哪些历史要保留,这些现在看起来像工程 heuristic(启发式),但将来会越来越多地被模型自己学会。这个思路与他在视频模型中看到的 long context(长上下文)和 reference selection(参考选择)问题是一致的:无论是视频、文本还是 agent harness,最终都要走向一种更聪明的自我管理。

关键 takeaway

  • Grok Imagine 0.9 的意义不只是“快”,而是证明了一个小团队可以在三个月内,从零搭起视频模型全栈。
  • 视频模型的核心难点不是单纯的生成,而是数据配对、压缩表示、实时性、长时程一致性和工具调用。
  • 很多视频质量提升并不来自新架构,而是来自语言模型、prompt rewriting 和数据 pipeline 的细节修正。
  • 训练大视频模型的成本不能只看 GPU,存储、流量、I/O 和缓存经常同样关键。
  • world model 的合理定义应该是“实时、可交互、长时程的视频”,而不是泛泛地说“能生成世界”。
  • video agent 可能是生成式媒体的下一阶段,未来的视频模型会更像会规划、会编辑、会迭代的创作系统。
  • Ethan 认为,下一波真正重要的问题会回到语言模型本身,尤其是上下文管理、记忆和自我改写能力。

目录

从 Cosmos 到 xAI

一凯:欢迎收听跨国串门计划。这是一档专注于让中文听众无障碍欣赏全球优质外语播客的节目。通过先进的AI声纹克隆技术,我们不仅将内容翻译成中文,还完美保留了语言主持人和嘉宾的独特声音,为您呈现全球顶尖的AI财经健康与科技领域精品内容。我是主播一凯,一位热衷于AI领域的产品经理,很荣幸能为您搭建这座跨越语言障碍的桥梁,接下来让我为您简单介绍本期我们克隆的这档节目,并分享几句非常精彩的原话,本期我们克隆的是Latent Space 在2026年6月1日更新的一期AI技术深度访谈节目,长期关注大模型工程和前沿研究,主持人Sean Wong和Alessio Fanelli 这次请到Ethan He 他曾在NVIDIA参与Cosmos World Model 后来加入SAI 参与Grok Imagine视频生成和World Model相关工作,节目里有几句原话很有代表性,我有一个挺大的判断,视觉智能很大程度上其实来自语言,尤其是这些视频模型,我看训练模型这件事时,最重要的其实是你每天能做多少轮迭代,在我看来 World Model就是实时可交互常识程的视频 AI模型更懂AI模型,这些判断背后是一次关于视频生成世界模型,和AI Agent的高密度对话,那我们就一起来听听这期完整节目,我有一个挺大的判断,视觉智能其实大多来自语言 [00:00:52]

Ethan He:像这些视频模型,尤其是现在Diffusion Model 技术更成熟,之后你每次看到这些模型有提升,我会说,主要还是来自language model 不是来自视频模型本身,也不是来自视频diffusion model本身,在进入今天这一期之前,我想给听众说一小段话,谢谢大家,如果不是你们愿意点进来收听我们的内容 [00:01:37]

一凯:我们就没法持续带来你们显然很想看的 AI工程科学和娱乐内容,几乎每天都有赞助商来找我们,但幸运的是,有足够多的人订阅了我们,让这件事在没有广告的情况下,也能持续下去,我们也希望一直这样,不过,我只想请大家帮一个忙,你们能做的最有用,而且完全免费的事,就是点一下订阅按钮,这是我唯一会向你们提出的请求,对我和我的团队来说,这意义非常大,我们每周都很努力,把Latent Space带给大家,如果你们这么做,我保证我们会一直努力,把节目做得更好,现在进入正题,我们现在在录音室,请到了Ethan He 他最近在xAI 欢迎你,谢谢,很高兴来到这里,我们今天也和Vibhu在一起,你最早来找我们,或者说加入Latent Space的世界,是因为你当时在NVIDIA做Cosmos

Ethan He:而且写了一篇很棒的论文,我们很喜欢那篇论文,你后来也来做了分享,所以谢谢你,我还分享过MOEs 对在Latent Space分享过两次,你当时到底是怎么知道我们的,是我们先联系你的吗,事情是这样开始的吗,不是其实是因为这个社区,我发现有这样一个线上社区,大家会聊AI 也会每周通过paper club 一起读论文 [00:02:54]

一凯:互相学习,这个社区挺好的,我学到了很多,我觉得我们已经连续三年没停过了,就连圣诞节和新年也没停,很多周我都想停下来,但它还在继续推进,不不这挺好的,我记得你当时发过说,你参与了一篇论文,我就想,哦很酷,我们有一个paper club可以来分享,所以后来可能是我联系了你,对后来是这样,因为这其实是一个业余俱乐部对吧,所以挺不寻常的,但有时候论文作者会来亲自解释论文,今天我们刚讲了Poolside那篇论文,看起来很不错,那篇昨天刚出来,挺有意思的对吧,完全开放,他们把整个系统都讲了,所以这篇不错,我们会推荐大家去读,跟我们讲讲你转去xAI的过程吧,因为我其实都不知道你是什么时候加入的 [00:03:21]

Ethan He:就讲讲这段转换的故事,在去SAI之前,我在NVIDIA做Cosmos World Model Cosmos是一个大型视频Foundation Model 目标是模拟世界,并作为基础,让所有做机器人方向的人在它上面继续构建,做完Cosmos E之后,我意识到这个东西,也有类似Language Model的Scaling Law 所以我们需要把视频模型继续扩大,这就是我意识到,我需要去一个,有更多算力资源的地方,比NVIDIA还多,那个GPU复国本身 GPU旺国本身,对

一凯:从时间线看 Cosmos是什么时候,挺早的对吧,是Open World Model论文这些,对所有东西都有,那是在2024年底 2024年底,然后到2025年5月 [00:04:52]

Ethan He:我去了SAI 当时我加入的时候 SAI正准备做视频模型,和Multimodal Model 那时候没有Infra 没有数据也没有模型,就是几个工程师,我们用了三个月把它做出来,并发布了第一个模型 Grok Imagine 0.9 从那以后我就一直在做视频模型,并且逐渐从视频模型的Pre-Training 转向Post-Training 比如Reference to Video 有点像cameo 功能,还有视频扩展之类的东西,在我离开之前,我做的是World Model 带着一个小团队

一凯:专注于时时长时长的视频生成,你能不能大致讲一下路线图,比如说你加入的是一个全新的团队,之前Grok只有文本,或者他们和BFL合作做图像之类的东西,那你们需要哪些基本模块,你有算力,数据可以从某些地方采购,大家在搭建一个新团队时,应该按什么顺序思考,这些事其实还可以更深入一点,不只是说数据可以采购,你们也得自己搞定数据,对吧?所以你们确实上线很快,但数据这块也要做。三个月真的快得有点惊人。有一点我要说得感谢我在NVIDIA的经验, [00:05:44]

Ethan He:第一次我们一起做Cosmos的时候大概做了一年, 所以这算是我第二次做这件事,大概知道该做什么。我觉得最重要的是人才,每个人都很强,也很聪明, 大家彼此配合很紧,朝着同一个目标走,这会让速度快很多,人与人之间需要沟通的成本会降低,每个人都能往同一个目标推进,当时基本每天都是这样,日历上没有太多会议,可能一天就一次同步会之后,就是一直在build 那段时间其实挺有意思的,还有一点是xAI在数据infra 模型infra这些方面基础都非常强,这些支持对模型开发帮助很大,我看训练模型这件事时,最重要的其实是,你每天能做多少轮迭代,你能做的迭代越多 模型训练就能推进得越快,如果你有很强的infra 又有大量compute 就能在很短时间内训练这些模型,这样你对错误的容忍空间会大很多,也有机会发现更多bug 这里说的一轮迭代是什么,是几百个step 还是别的什么,比如说训练一个模型,从获取新数据开始,也可能是设计新算法,然后试着训练一个新模型,也许是小规模的训练,所以就是你搜索,任何hyperparameter式的cycle time 对是端到端的cycle time 用来推进这个模型,看这个模型,是不是比上一轮迭代更好,所以在你加入之前,已经有人把这套东西打好了,让你们可以非常快地迭代,对,我觉得那里的基础,对于开发和研究模型来说非常好,我经常发现一个 有点无聊的事实,很多改进并不是来自新算法,它们来自在数据Pipeline

一凯:模型训练Pipeline里,这里那里找到一些小bug 这些东西反而会给模型质量,带来最大的提升,这很有意思,你说团队小,沟通成本低,但很多质量提升又来,自找小bug 这听起来有点反直觉,人多的话理论上能修掉更多这类问题,但看到另一面也挺有意思,我也好奇你们有没有试过用LM来找bug 我不知道 [00:08:19]

Ethan He:我记得当时是2025年5月,所以coding model还没有那么成熟,我记得2025年12月的时候,它已经非常强了,那时候我一直在用,确实有帮助,但有时候它写出来的代码,有点难维护,虽然第一次能非常快地搭出东西,但给你的可能是一堆几千行的Spaghetti Code 我维护不了,而且模型自己也搞不清楚哪里有问题,也不知道怎么在上面继续改进,但现在我觉得它好了非常非常多,我想在这里提另一个点,现在Coding Model效率高很多,能帮我们更快实现东西 Computer可能又会变成瓶颈,因为以前如果你想训练一个新模型,比如想生成新的synthetic data 或者写一个新算法,可能要花几周 在那段时间里你可能没有实验可以跑,但现在你几个小时就能把那个东西做出来,然后立刻训练模型,这时你就必须有足够的pew 才能把所有想法都试一遍,所以compute可能会再次成为迭代速度的瓶颈,老实说我其实觉得这工作压力挺大 [00:09:40]

图像模型、VAE 与视频压缩

Ethan He:老实说我其实觉得这工作压力挺大,因为你会想我应该把所有东西都试一遍

一凯:如果我没试,那就是我工作没做好,还有一种压力是,你每小时都在消耗成千上万张GPU 这非常贵,而且computer本来也可以给其他研究员用 Daddy?你有Daddy?有Daddy 当时确实是这样,但computer终究还是有限的,你想用它,想把它用满,还想要更多,那确实压力很大,我觉得一方面是

Ethan He:现在有了coding model 很多这类工作可以自动化,这好很多,另一方面这是一场马拉松,所以你得保持身体健康,也要有规律的作息 [00:10:33]

一凯:你们从零到上线只花了两个月,在听到这句话,确实有点难相信,两个月就从零做出来并发布,这种时候确实很难听进去,我觉得很明显xAI的文化也很有名,大家工作都非常拼,我确实想深入聊一点,你之前发来的笔记里,专门提到过 VideoGen训练的成本,这个大概是在 Colossus以上跑的,对吧,就是那个 300兆瓦的机群,你愿意分享多少都可以,我觉得这里其实有,三件事要聊,对吧,有VideoGen 还有你们发布的 ImageGen 模型,你要不要先把,从0到1 这段讲完整,你们只有几个月时间,做ImageGen的阶段,大概是什么样,我看了刚才跑题了,不好意思,从那里再往后还有VideoGen 还有AudioGen 后面我也很想聊这些,但最开始那几个月是什么样,小团队很多bug 很多迭代,但具体是什么状态,我们是拿现成的东西来用吗,还是直接准备数据和compute 那几个月,到底怎么过,你们是怎么做出ImageGen模型的,一开始怎么启动,我不能具体评论xAI是怎么做的,但流程其实相当标准,我可以从Cosmos里举一些例子, [00:11:38]

Ethan He:主要是做video model之前, 实际上需要先做一个image model, 而做这两类模型所需要的数据, 百分之百都是合成的语言加图像, 或者语言到视频的配对数据。因为在互联网上, 视频本身并不会天然带着对应的文字, 你可以说YouTube上有标题,描述和评论, 但它们和视频本身未必相关。比如视频里可能是山的自然风景,但标题是我今天太开心了,它们之间可能完全没有关联,所以第一步是,你必须生成语言和视频的合成配对,你从互联网上收集视频,然后用VLM给视频写caption 这里就有一个问题,一开始你怎么让VLM做这件事,如果根本没有现成的VLM 怎么在最开始生成文本,对吧 这其实是不可能的,你是用模型来引导,对吧,一开始的做法,是让人来尽可能详细地描述视频,比如,要求他们描述所有东西,所有物体,所有角色,以及视频里的所有互动和对话,在Cosmos的标注规范里,我们给标注员的目标就是,必须把视频描述得尽可能详细,详细到一个盲人,听到这一大段文字以后,可以在脑子里重建出这个视频,大概是什么样,你说的是视频还是图像,视频或者图像都可以,两者都一样 [00:12:55]

一凯:这其实很常见,我们当年从CLI 到Dell的时候,也是这样,对吧,都是用非常详细的图像 caption来训练,所以同样的方法,也可以用到视频上,对,但除了用multimodal model 输入视频图像,再写出很丰富的描述之外,你也可以用别的方法,我觉得那是比较传统的supervised视角,或者说是高度人工整理的数据,我感觉unsupervised这里有一个突破口,只要你有足够的东西把它bootstrap起来,就可以把common corpus之类的语料丢进去,或者用某种无监督的视觉和语言配对,也就是说你有交错在一起的图像和文本,它自己就能学出来,对我来说这才是VLM的突破点,它不同于CLIP 也不同于pre-LM时代,很有意思的是 [00:13:32]

Ethan He:你其实两种数据都需要,需要先把它bootstrap起来,对,比如在generative model 训练里,也会有一小部分无标签数据,模型会被要求,在没有任何文本指令的情况下,生成视频,这也能帮助模型泛化,在生成合成配对数据之后,一个很重要也很常见的步骤,是训练一个图像,或视频的compressor 或者taster 因为理论上,你当然可以直接在纯像素上训练图像或视频模型,但问题是token太多了,比如一张1000x1000的图像,就是100万个token 也就是100万个像素,用transformer训练这个是不可能的,所以你需要训练一个tokenizer 它可以把图像映射到latent space 再从latent space映射回图像 [00:14:22]

一凯:这就是我们把播客命名为latent space的原因,没错,不过你基本上是在讲 Vocabulary Size 那100万为什么不可能,在Generative Model里 Vocab是连续的,是一个连续空间

Ethan He:你可以把它理解成,把一张图像映射成一个向量,如果是16或者48之类的,固定长度向量,然后再把这个向量,映射回图像空间,这个映射是基于Patch的,比如你有一个16x16的Patch 然后把这一块像素,映射到这个latent space里,我们之前讲过,这就像Vision Transformer VAE里,你基本上是在压缩,输入生成推理,这些过程都在更小的维度里完成,然后再投影回原来的空间 VAE是一种压缩形式,但对我来说,这种patch的做法是从YAT来的 [00:15:29]

一凯:对吧,对你确实可以这么做,那篇论文标题大概叫 16x16 is all you need 差不多是这样,然后我觉得大家也经常,把这种patching和卷积做比较 [00:16:08]

Ethan He:也就是说你有点像是在用新的方式,重建旧的方式,其实在VAE里,卷积网络和transformer 两种都可以做,经过VAE之后你得到的是 latent space tokens 同时你也有language tokens 所以现在训练 diffusion transformer 也就是生成模型里用的 diffusion transformer 其实已经很标准了,它和训练语言transformer模型非常像,差别没有那么大,只是token不一样,输入的是visual tokens 输出的也是visual tokens 唯一的区别是它有一个去造过程,你训练模型去恢复被噪声遮住的部分,也就是说你给visual tokens加随机噪声,然后训练模型把这些噪声去掉,生成干净的tokens 到了inference的时候 模型可以从百分之百的噪声开始,反复一步步去造,然后在Diffusion这条技术路线里,为了加速,也有CFG这类东西

一凯:另外我猜还有Latent Diffusion 应该是在这条路线上的,某个阶段出现的,很明显Stability 还有其他这些团队,在这类架构上开创了很多东西,但我不知道你是想继续讲这个,还是接着讲视频那一边 [00:17:23]

Ethan He:当你训练好这样的模型,也就是这样的图像模型之后,它之所以能成为视频模型的基础,是因为图像模型训练成本更低,而且语言和图像之间的连接密度更高,比如你在11张图像上训练,就会有从文本到图像的映射,但如果要用同样规模训练,比如11段文本到11个视频,成本就高得多,因为视频天然比图像有更多token Diffusion模型对语言的理解,完全来自这种映射,所以如果映射不够,比如你只训练了 1000万个视频之类的规模,你在训练里,可能看不到足够多的language tokens 这样模型,就不能充分理解人的意图,所以你通常会先训练图像 diffusion模型,然后再从那里 booststrap出视频模型,我确实想问一个问题,因为我觉得你可能是,我聊过的第一个,真正做视频模型的人

一凯:我们之前也和Luma 以及那些团队聊过,视频压缩里有各种技巧,基本上逐针来看相邻针之间差别并不大,所以你其实不需要重新生成或者重新保存整针,对吧,比如MP4压缩或者类似的东西,这种方法会不会很有吸引力,还是说据我了解,大家基本上都还是把它当成,不我们就是生成每一针,这大概就是现在的前沿状态吗 [00:18:39]

Ethan He:这里有几种不同的做法,先说一种,比如你想直接用MP4压缩,然后把它当成transformer训练用的tokens 对吧,其实有人试过这么做,但主要挑战是MP4 tokens的latent space 对模型来说并不好理解,在这个空间上训练非常困难,所以我们才会做VAE 它会创造一个更连续的latent space 这样模型更容易理解这个latent space 也更容易从里面学习,就算都在VAE里,不同latent space的难度也不一样,你可以想象最简单最朴素的VAE 就是你有一张图像,然后把整张图像的像素全部打散,塞进一个vector里,这样你甚至不需要训练一个VAE 对吧,但这种latent space对模型来说极难在上面训练 所以大家会争论到底应该怎么压缩这些tokens [00:19:58]

生成式 UI、Flipbook 与 Neural OS

Ethan He:所以大家会争论到底应该怎么压缩这些tokens 你刚才提到可以逐帧压缩,也可以压缩时间维度,区别是如果压缩时间维度,你会得到高很多的压缩率,因为帧和帧之间有时间冗余,这一帧和上一帧很可能大部分都相似,只有一些小差别,比如我记得在WAN 2.1 VAE里,它的压缩率大概是8x8x4 也就是把四个时间token压缩成一个token 这能节省很多context length 如果你逐帧做就可能是8x8x1 你的context length会变成4倍,话虽如此逐帧压缩的好处,我们后面可能还会讲,就是实时性和交互性,因为如果你按帧来训练这个模型,模型就能立刻响应任何用户请求 但如果你在时间维度上做四倍压缩,那它可能会有延迟

一凯:这种延迟是天然存在的,你对这个方向很看好,我们直接把它拿出来讲吧,反正我们也准备了画面,这是试试VideoGen的一些前沿应用 Flipbook 是最近火起来的例子之一对吧 [00:20:58]

Ethan He:Flipbook是什么 Flipbook有点像一个网页浏览器,你可以看到上面有网页浏览器的UI 区别在于所有UI 都是由生成式图像模型实时生成的,这里的一切都是假的,但你可以在这个想象出来的世界里探索,比如这里是 Engineering the Great Pyramid 模型生成了这个页面,帮助我们理解它是怎么运作的,如果我们想继续浏览,想了解更多,就可以点击这里的一些描述,模型会生成一个新页面,或者新的子页面

一凯:来描述我们想知道的细节,所以它基本上像是在播放一段视频,但会停下来等我们下一次交互,然后根据我们的交互继续播放下一段,这个确实挺酷,你有点像是在自己决定故事怎么走,比如这里的问题是,金字塔是怎么建造的 Levering techniques 看起来挺有意思对吧,它会展示你怎么做 [00:21:47]

Ethan He:比如我想知道这个是什么,演示推文里,针和针之间的动画更多,我觉得,这里只是在跳过,刚才跳过了很多针,这也是实时视频模式

一凯:不过我猜很多人都在用,有一个实时视频,刘我们可以试一下,这是你看到的那种,未来的一个例子,是走到极致之后的形态,我们今天显然还没到那一步 [00:22:24]

Ethan He:但如果在一个influence完全免费的世界里,这会比用文本生成代码更好,这就是世界模型最终会到达的状态,你可以想象一下,如果互联网不存在,然后你输入google.com 模型应该给你展示什么,模型可以想象出一些东西,而这就是模型想象出来的内容,这些网页本身完全不存在,所以我觉得随着Inference成本下降,我们会在所有地方看到Generative UI 如果你想想Coding Model是怎么工作的,他们会为网页写代码,然后渲染代码,代码可能会被转换成二进制,二进制,再把像素渲染到屏幕上,在机器学习里每次有突破,显然都会变得更端到端,所以为什么不能直接从用户指令到像素呢 Generative UI 就是从用户意图,直接到像素,比如说就算我想要的是email 可能大家默认见面都一样,但我想让它稍微不一样,我想让email像TikTok一样展示给我,这样我可以滑动来处理邮件,或者你可能想要别的形式,我们可以有完全不同的东西,又比如我在看Instagram Stories 我不喜欢点赞按钮,我总是不小心点到它,那就生成一个没有点赞按钮的 UI 所以它会是对界面的一次革命性替代,未来我们背后,可能会有更强大的LM和Coding Model在运行,而在前端 Diffusion Model 实际上会成为展示内容的前端,这就是我想象的样子 [00:23:31]

一凯:Diffusion前端确定性,后端差不多是这个意思,我觉得这会非常贵,不过我,我觉得有意思的是,你把后端写代码的 LM叫做确定性的,但行吧,你写一次

Ethan He:然后执行相比之下,就是这样,如果你考虑成本,比如说H100 每小时要1美元,如果你一天用8小时,一个月用30天,那每个月就是240美元,你大概率不想付这个钱,这甚至比Claude Code Max还贵,但如果你考虑到 compute成本,每年下降两倍,我觉得这个未来,很可能会到来 Compute成本会下降 [00:24:34]

一凯:Compute会变快,模型会变聪明,模型也会变小,我不知道你为什么说两倍,因为我觉得在语言模型里,大概是100倍,对于同等水平的LM 大概每12到18个月,会提升100到1000倍,那是把所有因素合在一起之后的净效果,对吧,包括模型性能和Compute 所以这和单纯Compute成本下降不一样,不过这确实是一个很有意思的未来,网页设计师会立刻指出,可访问性是个问题,对吧,比如你要怎么处理屏幕,阅读器之类的东西,但没错,这种讲故事的带宽,比你用代码能生成的任何东西都更高,我觉得大概思路就是这样,我还想补充一点,人类在看东西,看视频的时候,天然拥有最大的输入带宽,而我们说话的时候,也拥有最大的输出带宽,所以未来可能会是这样,我们和AI模型说话 然后AI模型用generative UI回应我们,在Neuralink出现之前,这可能就是我们和AI模型交互时,输入和输出带宽最大的方式 [00:25:53]

Ethan He:我想再补充一点,人类看东西看视频的时候,天然就有最高的输入带宽,而我们说话的时候,也有最高的输出带宽,所以未来可能会是这样,我们对AI模型说话 AI模型用Generative UI回应,我们在Neuralink出现之前,这可能就是和AI模型交互时,输入和输出带宽最高的方式 [00:26:03]

一凯:而且这也很因人而异,对吧,有些人非常偏视觉,有些人没那么偏视觉,他们更喜欢文字,但Generative UI最好的地方在于,它也可以是文字,还有一个项目我想提一下,叫Neural OS 想法有点类似,但这里你真的是在用视频模型操作,或者说模拟你的操作系统,你可以玩Doom 也可以用Firefox 我觉得这稍微没那么让人震撼,因为它毕竟是一个我本来就能运行的OS 但在这里所有东西都是模型想象出来的,我当时习惯性按Command W想关掉Firefox标签页,结果它没有崩,太沉浸了,对我来说太沉浸了,真的太沉浸了,我只是想关掉标签页,不过是的,我可以玩生成出来的Doom 这个速度快得惊人,因为我记得大概一两年前,有人做过一个demo 想用图像模型做第一人称,射击游戏,当时完全没有一致性,而且非常慢,但这里看起来,现实一点说,它就是Doom 我觉得这里有两面,对吧,一方面是运行,一个游戏到底意味着什么,真正重的部分,其实是游戏引擎,所有光照图形之类的东西,这个更像是视频,对吧,我们已经解决了一致性问题,当然它看起来,还是像几年前的中世代画面,它有一些时间上的一致性,但本质上还是把图像一帧一帧接起来,形成视频,不过它是一个很好的视觉表达,能让你想象你未来想看到的东西,我更多是从这个角度看这些东西,这让我想到,视频模型是怎么变得越来越好的,如果你只看Neural OS [00:27:22]

Ethan He:会觉得它只是一个很粗糙的版本,像是我们本来可以拥有的Windows 但区别在于,这个模型是过你和在现有操作系统上的,它生成不出和这些系统不同的东西,但这其实也和视频模型类似,我们训练这些视频模型,图像模型的时候,是用互联网上的数据来训练,互联网上并没有那些,想象中的超自然的东西,但模型训练好之后,你可以用prompt 让它生成数据集里,从来没有出现过的超自然内容,所以如果你用整个互联网上的标准屏幕录制,去训练一个面向神经计算机的Neural OS 模型就可以想象出全新的界面,用来和电脑交互,这类东西对我来说很神奇 [00:28:12]

一凯:通常来说做分布外泛化是不好的,但不知怎么的,我们好像学到了某种内部的World Model 你跟他说把这个东西加上去,但让它看起来像彩虹和蝴蝶,它就会做出来,而且看起来还挺合理,所以这挺酷的,我不知道你们在这方面,还有没有更多想评论的,我确实想再多聊一点,模型架构的东西,我觉得你刚才也快讲到这里了,这真的很有意思,我们没有太多机会,深入聊这个,我们之前讲过一篇论文,每年Segment Anything 有任何发布,我们基本都会覆盖,我不知道你有没有关注,但你是做计算机视觉的,所以你肯定知道,他们做了Memory Attention 这点很有意思,我一直觉得,只要你能跨时间维度,保持某种一致性,这就非常有意思,我不知道CV这边的东西,是否正在渗透到 Video Generation这边,我觉得这个方向还探索的不够 我们会在标注场景里聊到它,但其实你也可以直接借用架构本身 [00:29:57]

训练成本、蒸馏与音视频生成

一凯:但其实你也可以直接借用架构本身,而且还有完全不同的路线,对吧,你刚才提到了World Model这个词,所以我们从Video Model 讲到了World Model 有Diffusion路线,但也有人在做其他方法,也许我们后面也可以聊聊这些,对,它对word model 还有一整套定义之类的东西,我感觉我们一下子,抛给你太多了,你想评论哪一点都可以,我觉得有一点,我们其实应该回过头来评论,我们刚才在聊,从image generation训练到 video model的步骤,有一件事我们没那么常看到,就是你刚才提到,训练数据的差距,所以视频模型的数据,不会那么多,模型也可能没法很好泛化,但训练一个大型视频模型,到底要花多少钱,对LM来说,我们大致知道成本 比如今天刚出来的Poolside那个东西,对吧,它是一个Gemma级别的模型,大概用40万一个token训练,用了多少A300 训练了多长时间,你可以看到它的确切成本是多少,也就是用了多少GPU小时,以及A300的成本是多少,那对视频模型图像模型来说,我们怎么做同样的后台估算,你会怎么把这些成本拆开来看,我可以分享一个粗略估算,挺意外的是,视频模型的成本,其实和语言模型差不多 [00:30:52]

Ethan He:当然最大规模的还是语言模型,视频模型,大概相当于中等规模的语言模型,光是存视频本身成本就很高,你可以去AWS之类的平台查一下,比如说你有10亿个视频,假设每个视频5兆,那光存这些视频就需要5PB 另外还要记得我们前面说过,会用VAE压缩视频,通常你还需要把那些连续特征也存下来,而且也存在存储系统里,它的大小也和视频本身差不多,所以光是存这些视频和特征,就已经是10PB级别了,我刚查了一下SC Center上5PB的存储,大概是每月10万美元,那就再翻一倍 10PB级别就是20万美元,而且更贵的是Ingress和Egress 比如你从互联网拿数据 就得把这些视频下载下来,我印象里在AWS上,这比单纯存储还贵,每次训练大概都要把这些数据拉一遍,如果训练多次成本还会更高,所以光是网络和存储这些成本,我估计每个月就要几百万美元,还没算GPU成本

一凯:我插一句,题外话,GPU租赁这块已经很高效了,另一边你可以像SAI一样自己建数据中心,那我们是不是也应该自己建存储和计算,毕竟和云成本相比能省很多,尤其是Egress这些费用,这是个好主意,但它也有自己的挑战,当然是这样,比如建GPU数据中心的人 [00:32:41]

Ethan He:可能没预期到会需要这么大的存储,而做存储的人通常就是把存储建在某个地方,我刚查了一下AWS只对ingress收费,不对ingress收费5PB的第五档,大概是23万美元

一凯:那就更贵了,存储是按月收费的,你可以把数据放进去,但拿出来就要付钱,所以这很有意思,也就是说这个成本比你想的还大,我原来那种GPU小时乘以GPU价格的粗略算法,确实漏掉了一些存储成本,你基本上也会比普通训练更受IO限制,对,因为数据加载

Ethan He:缓存这些事情会变得特别重要,对,所以在Cosmos里,我们做了很多优化,尽量让它不要受IO限制,说到真正训练模型,也就是GPU成本,如果你去看一些,开源视频模型的规模,比如LTX有190亿参数,而且是Dense模型,现在也有人在探索Moe 可能是200亿Active参数,总参数量1000亿左右,所以它的规模和中等大小的LM差不多,如果看token数,我们在Cosmos里披露过,视觉token也是数十万亿级别,这些放在一起看,训练视频模型的成本,其实和LM差不多,更不用说它的infra和LM还有点不一样,所以训练这些模型的效率可能更低 [00:33:43]

一凯:那你们能不能吃到传统diffusion加速的好处,比如图像这边有LCM LRA 可以用来finituning 还有很多东西,比如flow matching flow matching 这方面已经做了很多工作,比如flow matching的加速,也有很多相关方法,有些方法确实也能用到 diffusion的inference端,或者类似的地方 [00:34:32]

Ethan He:不过inference端是完全另一回事,我觉得在训练端,想把成本降下来,可能会比较难,但在Inference端,最大的收益来自这些模型的Distillation 这个通常叫Step Distillation 和ILM里的Knowledge Distillation稍微不一样,对Flow Matching模型来说,通常需要100步左右 Diffusion模型甚至需要更多,可能要1000步,才能生成一张好的图片,或者一段好的视频 Step Distillation要做的,就是让模型学会用更少的步数生成结果,有点像这样,你先用完整模型跑100步生成结果,然后拿一个只生成10步的模型,让他去学习那个更强的模型,这个方法为什么能行呢,就是强模型较弱模型,有点像强模型较弱模型,从建模角度看 强模型也就是teacher model 要建模的是整个互联网里的图片和视频,那个分布极其复杂,但step distillation模型只是在学习teacher Teacher本身是一个模型,大小是固定的,所以它的分布比整个互联网简单得多,这就是step distillation 为什么能起作用的直觉,所以真正在线上服务的这些模型,只会跑很少几步,在Cosmos里,我记得我们有四步和八步的版本,如果是更简单的任务,比如image to image translation 甚至可以一步完成,像Cosmos Transfer里就可以,一步跑完,我觉得这和很多consistency model 工作背后的直觉是一样的 [00:35:51]

一凯:我给你发过一个SCM的链接,不知道你有没有看过,对我来说,那其实是OpenAI发过的,最让我印象深刻的论文之一,它像是在讲consistency models的,一个统一的大概念 [00:36:38]

Ethan He:不知道你对此有没有什么看法,这里其实有几种不同的方法,对对,在这里两步对比2100步之类的,反正已经做出来了,这里有几种不同的方法,比如consistency model 另外其实我们也不该忘了 GAN GAN才是最早的step distillation 因为它从一开始训练的就是一步生成,比如有一种叫distribution matching distillation的方法,会把GN当作distillation的一种loss来用 GN做的事情就是,你生成一张图,然后用一个discriminator判断这张图是不是真的,所以模型只需要学习分布里的某一部分,而不是完整分布,因为在训练时,模型被要求从互联网上的ground truth 图片重建出原图,这件事非常难 但训练GAN的时候它是一步过程,也就是你生成一张图,然后看这张图,是不是像互联网上的图片一样真实,这是一个简单得多的任务,把这些方法结合起来,比如consistency model和distribution matching 人们就能得到这种只需要少数几步的模型,接下来我想补充一步就是audio 还有video Grok Imagine 0.9 我认为是第一个大规模部署的音视频联合生成模型,那是你们的第一个模型吗,对那是Imagine的第一个模型,它做的是audio和video的联合生成,我觉得难点在于modality alignment 因为在这个联合模型之前,我们有Text-to-Video Alignment 也就是Text和Video之间的对应关系 通常大多数Video Models都能理解图片和视频,能理解视频本身的已经比较少,而他们大多并不理解Audio 如果你看LM这一侧的Audio Generation 你可以很顺畅地和他们对话,但如果你让他们唱首歌之类的,通常效果就不是很好,而且他们也没有真正的music能力,难点在于audio其实有两个部分,一个是discrete component 一个是continuous component discrete component 就像语言,我们说话的时候,某种程度上就是一个ASR问题,我会说它是带有一些特征的text token 但music不一样,做speech的人可能会不同意,对吧,他们会说这里面还有韵律之类的东西,我会说大体上Music是完全不同的,它非常continuous 不能像language model里的discrete tokens那样去建模,这就是模型的难点,更不用说我们还得把text video和audio三者对齐在一起,所以问题就在于怎么把这些都对齐起来,一个很大的挑战是,首先我们前面说到很多视频模型其实不理解音频,所以你得想办法为音频生成合成数据,也得给音频做caption 这里面会牵涉大量合成数据 [00:39:30]

World Model 与长上下文

Ethan He:这里面会牵涉大量合成数据,也需要大量人工数据工作,而且不太意外的是,大多数模型在识别音乐的截拍音色和细节时都很差,对一首歌是什么,他们也许能给出一个大致判断,但要描述音乐里的细节就非常难,就像我们前面讲图像生成时说的,你要把图像描述的尽可能详细,让一个看不见的人也能重建出来,在这里就是要让一个听不见的人,在没有真正听到音乐的情况下,也能重建出这段音乐,听起来是什么样

一凯:你可以把它理解成,需要有所谓的脚本字幕,音乐和对白里的所有细节都得有,所以这里的挑战,通常是音乐和音频这类东西吗,还是说已经有一个基准了,比如数据足够多,我们能理解旁白和对话,但音频里有很多细微差别,问题就出在那些地方,还是说从零开始,整个都得做 [00:40:36]

Ethan He:一个很重要的点是,对齐模型必须知道,视频和音频之间,有基于时间的对齐关系,也就是在每一个时间步,视频token和音频token 是怎么对应的,对大多数其他模态,我们其实没有这种对齐,如果你想想文本图像,或者文本和视频,它们的对齐是比较松散的,你可以描述视频里发生了什么,但通常不需要精确到某个时间点,你通常不会有精确描述,说在第一秒发生了什么,第二秒发生了什么,那理想的时间不长应该是多少

一凯:你们会做ablation吗,最后发现是四秒之类的吗,这就取决于你怎么设计模型,你要让模型意识到时间,意识到时间也是一种模态

Ethan He:也就是说模型是time aware的,如果你想想LLM这一点,其实挺独特的,你让LLM完成一个任务,它可能会说这个任务,大概要12个小时才能完成,结果它一个小时后回来说,我已经在这件事上花了两天,把所有办法都试完了,所以LLM本身其实没有时间感,我倒不觉得 [00:41:53]

一凯:这只是他们没有时间感,我觉得这在某种程度上,是有依据的,比如你跟一个人说,去做这个功能,去实现这个东西,在没有LLM 没有LLM这种速度的情况下,你通常会大概知道,这件事要花多久,往回想两年前,如果我让你给Latent Space 做一个新的前端,加一个搜索框,还有这些功能,你会估计要花几天,所以你让LLM去做它,说这要花我几天,我觉得这多少是有现实依据的,而不是完全因为他们没有很好的理解,我不是说他们对时间理解的很好,但这个例子里,你能看出他是从哪里来的,因为他是在大量文本上训练出来的,他是在估计人类会这么说,对,因为数据大概就是这么体现的,他来自互联网上的语料 人们对这些事情有一个估计,而且不只是直接的训练样本,还有他对Token世界的理解,知道事情通常要花多长时间,比如去读一本书,这会花一段时间,就算你什么都不做,只读一本书也要几天,所以我读一篇东西,可能花了几个小时,我看完这项研究,也可能要几个小时,不过这就扯远了,有点这是我到现在,还没有真正表达过的一条思路,基本意思是,一个完整的World Model 也必须是地规的,也就是说 world model里的参与者,自己也必须意识到,自己有一个world model 这就是一层一层,地规下去的东西,而且这个world model 可能是错的,所以他们需要更新它等等,我们也在newsletter里,讨论过这个观点,也就是需要某种地规式的,或者对抗式的world model 那我就顺着问一下 你怎么定义world model 对我们就聊这个,给大家一点背景,我们刚才聊了视频生成,然后如果你说,视频生成和world model之间有区别,那你的定义是什么,你怎么看这两者,先声明一下,我不打算争论,什么才算world model [00:44:08]

Ethan He:这个词有很多定义,我只说我自己的定义,因为我来自multimodal这个领域,所以主要从视频角度讲,在我看来 world model就是,时时可交互长时长的视频,这里面有三个部分,我们可以一个一个说,先说交互,可以参考那种 playable neural computer的方向,交互这部分就是world model 能让你通过键盘鼠标,也许还有语音来和它互动,这些都是modality 你可以和模型互动,模型也应该给出合理响应,第二部分是实时,比如你移动鼠标,如果一个world model 生成的是游戏,那这个游戏能多快响应,如果是专业 CS,GO玩家可能会说,响应必须低于10毫秒,甚至更低 60fps,300fps,500fps 这种级别我刚才没算清楚 300fps 大概就是1%秒级别,总之你必须很快响应,而大多数视频模型做不到,但如果你的视频模型是数字人,响应时间可能可以宽松一点,通常实时语音互动,大概是200毫秒,这个宽松很多,但200毫秒其实也挺难,因为我们前面提到过 VAE会做时间维度上的压缩,如果你不压缩时间维度 Sequence Length会爆炸,所以如果你想让模型具备这种实时性,就必须处理Long Context问题,第三部分是长时程,我们不可能只玩几秒钟的视频游戏,大多数视频模型只能生成几秒钟,但我们想要玩几分钟,甚至几小时模型必须能够生成长内容,把这三点放在一起,就是时时长 时长可交互的视频,我觉得最终状态,可能像一个视频版的playbook 你可以和一个neural computer互动,你移动鼠标在生成式界面上点击,它就通过像素回应你,而且基本是时时的,但要走到那一步还有很长的路,我在Grok Imagine带过一个小的world model团队,当时第一步之一就是做视频延展,视频延展其实是交互性的,第一步,对这是第一步,你这里有视频编辑,没错,第一步之所以重要是因为它解锁了常时程视频,通常大多数视频生成模型,你给它一个prompt 或者给一张图作为初始帧,它生成一段视频,然后就结束了,这就是一次性完成,有些创作者会尝试把上一段视频的最后一帧 当作第二段视频的第一帧,有时候能用,但如果你连续做几次质量就会下降,模型也没有整段视频的上下文,因为你只给了它最后一帧,当然会这样,是的,不过这其实是一个挺有意思的hack 比如你看过一些例子,会觉得哦不,它有更好的办法,例如VO3 我记得他会用上一段视频大概一秒钟的context 这比只用最后一帧稍微好一点,但他还是有类似的问题,比如你延展几次,做到一分钟左右,视频质量会比第一段差很多,第二个问题是模型没有长距离的知识,不知道前面发生过什么,如果他生成对话,比如两个人在说话过一段时间,他们的声音可能会变 尤其是只有一秒钟conditioning的时候,它覆盖不到更早的上下文,这些就是核心挑战 BrockImagine的视频延展,会保留所有之前生成视频的历史context 它知道谁在说话出现过哪些物体,以及其他相关信息,然后用这些信息去生成下一段视频,如果我们很朴素地做这件事,你可以想象,就是把之前所有历史视频token都塞进context 那context length会很容易爆炸,对视频模型来说尤其如此,视频模型的context可能动不动就是几百万,我说的是context length 例如Cosmos里我记得5秒视频大概就是5万到6万 token 所以如果5秒是5万token 50秒就是50万token 再长一点就很容易爆炸 这就是常识程问题,也是我们尝试解决world model的第一步,结果发现大家真的很喜欢视频延展,很多创作者都喜欢用视频延展,来做更长的视频,这也是我喜欢的地方,你在通往最终目标的路上,有一个中间步骤,不是直接一步冲到最终版本,很大程度上是这样 [00:48:58]

一凯:不过我也能看出来,你对我们最终要走到哪里,有一个很清晰的愿景,对最终要到哪里,这听起来像是效率问题吗,比如说我们现在已经有几百万Token的Context 类比到语言模型,以前Context很短 28000Token 后来扩到100万1000万 Token 当然这里面还有有效Context的问题,但说到底就是值不值得,视频这边当然还有训练数据的问题,不过可能稍微容易一点,因为我们可以有一亿Token的视频,对吧,直接拿一部电影,完整Context就在那里 [00:49:21]

xAI 文化与第一性原理

一凯:完整Context就在那里,所以这是推理测的效率问题吗?也就是说它很贵, 但我们知道怎么解决, 还是说为什么这不是正确路线?我更大的问题是针对你刚才讲 world model的第二点, 你说它需要能交互, 能实时, 对吧, 你应该能玩一个游戏, 并且实时看到交互结果。我在研究里看到的一件事是, 你真正线上提供的东西,和你一开始构建的东西,往往不一样, 对吧,我们刚才聊了 distillation 你训练一个大模型,再把它distill出来,再做quantization speculative decoding 我们做这些,都是为了高效地,把它服务出去,那我们,是不是可以先有一个方案,比如一个能,很好交互的world model 然后再做推理优化,上线服务 二次distill 也就是先把问题解决,再把它变成实时的,另一个类比是 continue learning 对吧,我们需要有人先把它解决掉,证明它能工作,哪怕一开始效率很低,给它几年时间,大家会把它做得更高效,普通attention也是一样,对吧,它先跑起来了,过了几年,大家做出不同形式的attention 然后我们把它扩展到,长context下,也能高效运行,所以这里其实有两个问题,一个是它看起来能工作,你们也已经把它扩起来了,那我们能不能随着时间推移,把它继续扩得,高效很多,如果这条路能行,我们还需要另一套方法吗,交互也是同样的问题,如果我们能先用某种方式让它跑通,那之后再从推理角度解决效率问题,这是个很好的点 视频里其实有大量冗余 [00:51:47]

Ethan He:我们已经从VAE那边解决了很多像素冗余,因为在长时间跨度的视频里,远距离的信息冗余更多,比如一个角色在第一个片段里出现,然后消失了,直到视频最后才再次出现,那在中间生成的时候,你可能并不需要一直带着那个context 你只需要在真正用到这个角色的时候,把它拿出来,所以我后来也参与做了另一个功能,叫reference video 这个在这里吗,它是同一个模型发布里的功能,还是另一个,是另一个,你可能要搜一下 X Reference to Video Reference Video 允许你上传最多七张图片作为条件,然后生成一个视频,比如我想让它用某些条件,可以是角色物体,甚至是场景 比如我想用Shawn的自拍作为条件,让它拿着一把刀或者别的东西,对我们有一只狗,你把那只狗放进这个东西里,对你可以把它们放进去,然后视频模型会根据这些生成视频,并把context复制过去,这能解决很多问题,长context可能并不一定需要非常长,但我感觉这只是一个中间方案,这是走弊,对模型应该能够自己选择性地知道,我应该从哪里取reference 比如说我想生成一部电影,我用auto-aggressive的方式,可能一次生成10秒,现在这个角色出现了,我就可以回头看他第一次出现的位置,然后把那个信息带回来,对这个例子里我放了reference 有Optimus Einstein [00:52:42]

一凯:我自己 Annie 有意思的是,我用Grok Search去找他,他拉出了你的LinkedIn帖子,反正我们找到了还挺有意思的,但是,这是个问题,这不是你的错,但xAI没有很好的对外讲清楚你们做的这些工作,因为他们就是发布一个模型,然后就结束了,但就我理解你刚才讲的这些细节,其实非常非常好,你刚才描述的所有东西都是state of the art 没有其他人做出来过,很多,对我很长一段时间,然后你们就发了一篇带cookies的blog post 我就觉得这不够啊,当然我知道这些是大家想看的高层数字,但是,我在想这里面有一部分原因,可能也是有些实验室,不会分享研究,不会分享背后到底发生了什么,不是,但这其实就是在展示他们有多强,对吧 那为什么不说清楚,你们有能力用完整context做扩展呢,这又不是什么secret sauce 这就是我们把工作做出来了,我不知道,我猜不同实验室的沟通风格,会有一点不一样,不管怎样,如果X的人有在听,我们一直很愿意帮你们把故事讲出来,好,所以你们做了references 我觉得你这里想表达的点是,它有点像一个线索,对吧,现在你可以放7个reference 那如果是100个呢,对吧,那你就需要完全不同的东西了,我觉得它像是一种机制 [00:54:26]

Ethan He:用来从历史里选择context 你不一定要把整段历史都放进context 比如有一篇论文叫frame pack 它用了一个heuristic 最新的历史,比如上一秒我会放完整历史,再往前的历史,我会压缩让视频变小,所以我沿着这个很漂亮的模式来做,最大序列长度是固定的,离当前帧越远,图像就越小,这只是一个heuristic 我觉得它可以变得更自动,模型可以自己判断,历史里的哪一部分应该被选进来,这部分研究,其实现在有很多人在积极做,也挺有意思,我感觉long context的这部分,其实比LM那边稍微领先一点,比如在LM里,如果context一直增长,假设你调用to 而to call的历史非常长 它还是会留在context里,然后它就一直增长一直增长,哪怕你已经切换到别的话题,整个context还在那里,有些agent harness会帮你做一些事,比如prune tool results 还有prune 比如你查询一个文件时,只显示前200行之类的,这些都非常依赖heuristic [00:55:53]

一凯:给听众补充一下,我们之前写过一篇,关于Claude Code 泄露内容的文章,里面有八种不同的pruning 包括prune tool results 之类的做法,如果你感兴趣,可以去读一下那类内容

Ethan He:我觉得continue learning的一个突破,可能就是找到一种方式,让它能自动管理自己的这些东西,这些全都是 Jurassic以后都会被machine learning取代

一凯:对会被learning取代,有意思的是 LLM和视频模型里都在研究同一件事,有意思的是你刚才展示的那篇论文里,这件事其实是在模型层面发生的,对吧,相比之下在语言模型里,我们有base attention 但我们会自己做completion 自己做pruning 而这些是和model A分开的,希望最终这些东西都会融合进去 [00:56:41]

Ethan He:我觉得这是一种attention的形式,但也像是一种reasoning attention 我感觉它和普通attention不一样,这样说讲得通吗,讲得通它不一样的地方在于,先不说sparse attention 普通attention是这样的,你必须attend到所有token 所以你没有一个高层机制,去丢掉那些你不想attend的token 但人类不是这样,人类的attention span其实非常小,你只能记住11位的电话号码,但我有feature detection对吧,我能识别出来,电话号码里有一段1234这样的序列,而这个号码是11位,对,pattern很重要,但人类的context或者tension能工作,是因为我们可以动态地从不同地方,把context拉进来,我觉得同样的机制会出现在 所有LLM和视频模型里 RLM是最近的一些工作,它其实没那么疯狂,只是recursive 我觉得这在模型里,也某种程度上是内在的 [00:58:01]

一凯:对吧,这里有个很好的例子,你把这些拉出来的人,还是能读懂,但语言模型也很擅长,解析乱糟糟的文本,你看这里面还有我的拼写错误,没关系,你有一份transcript 或者别的什么东西,直接丢进去,他很擅长从噪声里解析出内容,这可能算是一种暴力方法,他可以通读一遍,再推理一遍,但这里面其实和前面说的两种做法都有相似之处。我觉得很有意思的是你把world models和video generation联系在一起, 讲我觉得很多人不会直接从像你这样的人这里听到这种说法, 所以这很有帮助。还有别的工作吗?我们已经聊了video,audio,world models, 那个OmniTeam里还有别的东西吗?或者你想聊聊xAI的其他工作吗?感觉我们公开看到的发布内容都已经很酷了, 但背后还有更多东西。里面有很多深度,你觉得在那段时间里,有什么被低估的东西吗,我觉得xAI的文化挺有意思

Ethan He:也有点被低估了,这个文化,可以概括成几句话 Move Fast Build 没有目标会太过宏大,还有First Principles 你刚才也听到了

一凯:我们定的目标非常有野心,一开始我想到这些目标的时候,会觉得它们不太可能实现,比如说要在三个月里,做出一个东西,当时是这样吗,比如说我们要组一个team 我们要image 要video 然后要求在这个deadline前做出来,还是说你们是怎么倒推的,是先大概定一个日期,说到这个时间,我们要发布点东西,还是说不是这样

Ethan He:这是个很好的问题,这其实来自first principle thinking [00:59:56]

安全、水印与提示重写

Ethan He:这其实来自first principle thinking 有人可能会说 first principle thinking 更适合用在物理世界,而不是模型上,但我会说,比如你考虑某些限制,像获取数据,我们能多快拿到视频,再比如训练模型端到端,训练一个模型,迭代速度是多少,增加更多GPU 会怎样加快这个时间线,如果你还需要人工数据,那人工数据到位的周转时间,是多少,把这些放在一起,这就是First Principle Thinking 也就是说

一凯:要实现某件事,理论上最少需要多少天,我觉得这很像Elon的思考方式,对吧,他有句很有名的话,大概是说,唯一不能打破的定律是物理定律,类似这样的意思,总体来说

Ethan He:你和Elon合作过很多,在SAI工作的一个好处是,你有更多机会和Elon互动,所以我很幸运,得到过他几次反馈,那挺有意思的 [01:00:48]

一凯:他也会和大家非常紧密地一起工作,就像网上大家想象的那样,他非常handsome 有两件事,第一,我其实刚刚在查Elon 转发你的内容,我把它找出来,他提到你发推说,你们的voice mode很好,我说的不是,你是他,我其实也发过,我当时还会私信你,给voice mode提反馈,因为我一开始觉得,哇真的很好,然后又觉得,哦这个不行,不过我也不知道,关于你们做voice mode 有什么想聊的吗,这是你也参与的一个项目吗,这个其实不是我所在 team负责的部分,好吧,你可能更多做的是video 不过Grok Voice确实很好,这是那种让我印象很深的东西,首先你可以用二倍速说话,这很好玩,我平时听东西就是二倍速,所以我也喜欢用二倍速说话,另外 我觉得他的打断体验比Gemini更好,我不知道他现在和 ChatGPT Real-Time比起来怎么样,但就开车这个场景来说,在我的Tesla里用Grok 一边开车一边聊,我觉得体验真的很好,他确实很喜欢Voice Mode 另外那条内容的传播也很夸张,有5000万views 天哪,不过他出来的这么快,确实挺酷的,我想另一个问题是视频模式的安全性 [01:01:53]

Ethan He:这方面有什么有意思的,可以聊吗,这个问题有点辣,是个辣问题,很多国家不允许生成式AI 视频没有水印,所以在那些国家 Grooke Imagine都会加水印,而且很多视频下架也发生得非常快,这本来就是运营社交平台的一部分,但它也很自然地延伸到了生成式AI这边,你怎么看SynthID和其他水印方式,以后检测这些东西会越来越难 SynthID这件事以前主要是Google在用,现在很多不同的实验室也开始采用它,它的一个限制是,相关技术论文已经公开了,人们可以反向工程研究,怎么把它去掉,而且我觉得,即使它继续进步,反向工程依然是可能的 [01:02:20]

一凯:如果你感兴趣,可以去Reddit上看,有人已经把Google家的那个具体mask 或者说图案提取出来了,然后你可以把它套到,任何Google生成的照片上,再反推出SynthID 而且现在只靠肉眼判断,也越来越难了,还记得几年前那些图里,会有六根手指之类的问题,非常明显,我现在主要看音频,我判断一个东西,是不是AI生成的,除了视觉上看多了之后,有点感觉音频匹配也很关键,尤其是Sora的音频并不好,风格都很像,我明白,那些都是小瑕疵,但我觉得重点是我最接近的参照,其实也是Ian Goodfellow 因为他做过Adversarial那类东西,比如这是一张斑马的图片,你改一个像素,它就变成熊猫了,对吧,这是经典的计算机视觉问题 [01:03:10]

Ethan He:如果你想想这些模型是怎么训练的,就像我前面提到的Gay-N 在训练过程中,目标是模型生成一张图,然后有一个judge 判断这张图是不是真的,模型会被训练得让图片越来越真实,所以随着模型越来越先进,对我个人来说判断会越来越难,现在我得看这些视频

一凯:在逻辑上是不是说得通,有world model 对,对,我也会觉得音频太好了,太像录音棚级别了,灯光太好了,皮肤太干净了,基本上就是缺少瑕疵,我们有没有比较好的办法,在diffusion里做reasoning 这是不是区分,视频生成器和world model的关键,或者说我们其实知道,怎么把它用到,其他autogressive language model上,那在Diffusion视频生成World Model 这里有没有对应的做法,就是围绕这个点,它不是有个Video 智能体的观点吗,这是个好问题 [01:04:27]

Ethan He:其实我有一个挺大的判断,视觉智能很大程度上,其实来自语言,尤其是这些视频模型,现在Diffusion Model技术已经更成熟了,所以每次你看到这些模型有提升,我会说大部分提升还是来自Language Model 而不是来自视频模型本身,比如Cosmos里的视频 Diffusion Model通常有两个部分,一个是Prompt Rewriter 或者Prompt Upsampler 我记得在Cosmos里,我们用的是Lama 或者用的是Mix Cosmos的视频模型,本身只有7B 而那个作为Prompt Rewriter的 Language Model比它还大,所以Prompt Rewriter的任务,就是接受用户指令,把它转换成对视频,极其详细的描述,因为这些视频Diffusion Model 或者说视觉视频Diffusion Model 我会说他们有点笨,他们会非常字面的理解输入指令,你要记得在训练过程中,我们生成合成文本对的时候,必须尽可能详细的描述视频,所以这些模型就是按照那种指令来生成视频的,但用户真正输入的指令通常很简单,可能就说一只猫之类的,如果你把一只猫直接丢进视频模型,它就会字面理解这个指令,它可能真的只给你一只猫,背景也许是白色的,因为你没有描述背景猫也不会动,因为你没有描述,它在动,它对指令的理解非常字面,所以它有点笨,而Prompt Rewriter 实际上是一个大得多的模型,它是一个语言模型,负责接受用户指令,然后把它扩展开 你刚才提到的思考过程,其实就是从这里来的,如果你看GPT image这一类,比如它用几分钟生成一张图,那几分钟并不全是在生成像素,很多时间其实花在思考和写prompt上,所以现在prompt rewriting已经演化了,不只是思考,它还可以变成一个agentic模型,举个例子,你想生成一张关于今天新闻的图片,那它很可能会先上网抓取今天的新闻,再处理这些数据,组织版式 [01:06:51]

一凯:然后生成出来,还有一个很有意思的点是,如果我没理解错,这些现在已经不再是Diffusion Model了,对吧,而是Auto Aggressive 还是说,还是有不同做法的

Ethan He:比如Gemini Omni 既然他们说是Omni 我相信它应该是一个单一模型,也许类似一个带Diffusion Head的语言模型,语言模型负责思考,负责Genetic Tool Calling 然后最后用Diffusion Head生成图像,也有像Cosmos这样的做法,你有一个独立的语言模型,再加上独立的Diffusion Model 还有一种是纯语言模型的做法 [01:07:39]

一凯:比如把图像离散化,然后把图像当成离散Token来生成,所以这里有不同路线,我看到过一种说法,解释为什么这些路线会比较吃力,因为我们现在用语言模型学习推理,很多好处来自于,你可以迭代失地生成推理,你先有自己的thought 然后再基于那个答案继续处理,对吧,所以如果你有一个omnimodel 再接一个diffusion head 你就没法把结果喂回去,继续推理,对吧,也就是说你不能这样来回做文本图像,文本图像,你不能对输出再推理,然后再回到Diffusion 但我猜在新的Gemini Omni里,只要它有Diffusion 我不确定它们有没有这个流程,但我觉得在Omni范式里,这肯定是可能的

Ethan He:如果你想想传统的Multimodal Language Model 它们会有一个VIT Encoder 可以对图像做编码,所以如果它们有Diffusion Head 就可以生成图像,再把图像送回VIT Encoder编码,然后做迭代式优化,如果结果需要的话,我觉得你必须把VIT和Diffusion 放在一起 Join Training 才会让这件事稍微可行一点 [01:08:57]

一凯:不然你其实有点像是在做,不匹配的输入,或者把一堆垃圾喂进去,我觉得这取决于训练阶段,你也许可以把它Freeze住,不过先不说这个,回到你前面说的,我也想把这一点讲清楚,我们确实知道 Nano Banana和GPT Image 是Auto Aggressive的语言模型,加Diffusion Head 但就我从你对GrokImagine的描述来看,它不是这样,它是端到端的,这个我不能评论,按你刚才描述的方式来看是这样,但我觉得这里确实有不同路线,对吧,你一开始说 Prompt Rewriter 是智能里的很大一部分,而且就这一点来说 [01:09:23]

Video Agent 与生成式创作

一凯:而且就这一点来说,我觉得大家都应该试试,早期的Diffusion Model 如果你用过Stable Diffusion 1 或者类似的模型,你应该见过那种 Prompt Ultra Hi-Res 4K 某某风格,我的天,我第一次试的时候,就发现,你跟他们说话的方式,不像跟语言模型说话,对吧,你的prompting 非常像用,逗号风格的一串标签,就是在用数据集里的标签,跟他说话,对吧,但我基本上想说的是 prompt rewriter 加图像模型,和带diffusion head的 auto-aggressive语言模型,是两回事,对吧,它们不是同一个东西,对,它们不一样,我只是想先把这个

Ethan He:界定清楚,我想说的是,它们共同的部分,在图像这一侧,所以很让人惊讶的是,很多改进,其实来自语言这一侧,来自思考,来自to calling 我还记得在Cosmos里,我生成过一只快乐的绵羊,如果不做任何rewriting 它看起来非常CGI 但rewriting之后,它看起来就非常漂亮,而且没有任何join training 其实不用任何join training 光是重写prompt 效果就已经好很多了,我觉得这件事很有意思,我猜接下来会是这样 Video Agent 主要也就是Language Model 会把这些Generative Model 当成工具来调用,不管它是一个单独的模型,还是一个Decision Head 或者别的什么形式,这样模型就能主动去Refine 结果甚至可以通过 很长的Chain of Thought 生成更长的内容,这其实很像人类创作艺术的方式,我们不是直接生成像素,而是真的先画出一些东西,再在这个过程中思考,所以这些模型,不只是把Diffusion当成一个工具,它也可以用传统工具,可以用Photoshop里的图片编辑工具,也可以用视频编辑器 FFMPEG之类的东西,它会把这些工具和Generative AI技术,组合成一整套工具,然后做出更好,质量更接近production grade的视频,如果你看现在的专业创作者,他们不会在模型生成一个视频之后,就结束,他们会把这个视频拿到编辑器里 [01:11:36]

一凯:这里改一点,那里改一点,后期制作太多了,有时候视频之所以好,其实不是真的,因为视频模型好,而是因为剪辑做得好,我们自己也在做同样的流程 [01:12:22]

Ethan He:所以你当然会想用一个视频编辑模型 Grok Imagine Agent Beta 其实就是朝这个方向做的第一次尝试,我觉得整个流程会很像 Agent Mode 你可以让它去做一些事情,现在还没有Block Post 比如让它生成一个一分钟的视频,如果你把同样的Prompt 直接丢给视频模型,这是做不到的,但这个模型真的会调用不同的工具来完成,这其实挺有意思,我们第一次发布视频编辑模型的时候,我在X上看到有人试视频编辑功能,要求把这个视频改成一分钟,因为他们不理解视频编辑通常是怎么工作的,视频编辑一般就是删除、添加、替换、style transfer这类事情,但如果站在video agent的假设下 这其实是一个合理请求,这些agent应该能理解这种long horizon task 也应该能很容易地创作 long form video 我觉得这真的很有意思,因为它走的方向,有点像AI辅助写代码,一开始是tab completion这种,像GitHub Copilot 然后慢慢演进到 Codex和Claude Code 变成可以全自动做事情,在Grok Imagine Agent Mode里,你现在仍然可以进去自己操作,随着模型能力逐渐提升,它以后就能全自动,把所有事情做完,我喜欢这个,看起来它现在还在生成,我也注意到Grok ImageGen [01:13:28]

一凯:一直都非常快,不知道你们有没有Benchmark这个,但这只是一个插曲,相比我以前用的那些,比如最新的OpenAI ImageChat 还有Gemini Nano Banana 我很多时候会因为这个去用Grok 对这个在Benchmark里,应该有Imagine API的blog post里,写了所有速度相关的数据,主要是distillation加inference的组合,这里面有很多东西

Ethan He:我们刚才讲了 Distillation 也讲了Thinking 如果你不给Thinking Budget 模型可能会想三分钟,然后再回来给你结果,另外Inference这块 Inference Infra团队非常厉害,他们能把很多,这类模型加速很多,我对Video Agent这件事的看法是,我一直在想,当人们说Video Agent的时候,到底指的是什么,你一开始跟我说,你压住Video Agent [01:14:33]

一凯:或者说你对video agent的愿景时,我其实有点失望,我当时想,你的意思是,模型已经到头了,所以我们现在必须做agent 但我觉得你确实得这么做,现在的问题是,继续训练模型,到底能带来多少差异,还是说做一个更好的harness就够了,就像你说的,模型不一定要join training 你可以直接拿一个现成的 frontier reasoning model 套到harness上,把grok当成工具给它用,就这样,这就是你的video agent 这听起来不是特别令人满足,显然你可以靠train 然后在性能上再多拿一些百分点,但如果你的核心观点是 video或者generative media里的,大部分alpha 其实来自language intelligence 而不是image diffusion 或video diffusion 那这就是未来,这其实挺酷的,主要是,等一下如果你回到这个例子,看抱歉,打断一下 它是在生成frames 它一直在说,好,我要开始把这些frames拼接起来,他在用FFmpeg用工具 GPT Image Pro也是这么做的,对吧,他也是在后台写代码,然后把东西拼起来,最后对输出做一次Image Path 对那些只想训练模型的人来说,这会让人觉得不太满足,但他很有意思,也有点让人兴奋,就像你前面提到的,很多提升其实并不主要,来自视频模型本身,我觉得在语言模型领域,也能看到类似情况,对吧 Anthropic很擅长写代码,它们也是多模态的,但不是最强的多模态,对吧,它们有基础输入能力,比如PDF 但很明显在图像处理,视频处理,音频处理的质量上,和它们的智能水平之间,有断层,可是它们的智能又是顶级的,其他实验室 比如Gemini OpenAI xAI 也可以加各种模态,但这并不等于,突然解锁了,特别夸张的能力,对吧,所以这件事挺有意思,很有意思的一点是,视频模型能力的提升 [01:16:45]

Ethan He:其实来自语言模型变得更聪明,我觉得Video Agent可能解锁,比你想象中更多的东西,这里有几件事,第一,我们在Prompt这些模型的时候,大多数人其实并不太擅长写Prompt 但语言模型更懂,怎么Prompt AI模型 AI模型更懂AI模型,所以如果你想调这些模型,也许会有一个模型更懂,怎么Prompt 每一个模型,不同模型可能需要不同方式,另一点是,这件事可能不只是生成几个片段,然后用FFMPEG把它们拼在一起,这么简单,这个过程中可能还会出现更多图像和视频编辑工具,比如,你想在某个时间点准确加上一段文字,视频模型未必能非常精准地理解你的意图 但这些事可以用确定性的工具来做 Video Agent可以使用各种工具,所以你不必把所有能力都塞进视频模型本身,我觉得这很对 [01:17:52]

一凯:就目前来看我认为你说的对,这会成为一个很大的类别,我猜你可能是在预测视频领域的下一波,就是这些东西,你对这件事什么时候开始起量,有时间上的预测吗,我是说他们已经开始了,现在还不是特别好对吧,不也已经很好了,我觉得刚才最后一个只是更长一些,我没有给一分钟,只给了36秒,但我们现在已经能感受到这个变化了吗,接下来会有拐点吗,你有什么时间线上的预测想说吗,我猜到今年年底,这会成为一个大热点

Ethan He:拐点会在那里出现 Video Agent生成的视频,可以达到Production Grade的质量,它可以拿出来展示,也可以投放到广告里,一旦发生这件事,我觉得企业会给视频模型更多预算,因为agent天然比视频模型本身更贵,他们会做这种迭代过程生成非常多的变体,但一旦这些模型跨过可用性的门槛,我觉得之后会进入指数级增长,我现在不会因为这个去投一家公司,我觉得你说的对,我有一点挺意外的 [01:18:40]

一凯:也是回想过去大概一个小时的对话之后的感受,我觉得你是为了视频生成本身,去关注world model和视频生成,但我们采访过很多,其他做world model的人,比如general intuition那些人,还有moon lake 我应该跟你说过这个,我一直说成moon dream 真是的是moon lake 他们很多人其实会说,最终目标是机器人,尤其是巨声机器人,他们想要实时性,想要交互性,目的是和物理世界互动

Ethan He:你对这一点好像没有那么在意,我觉得机器人肯定会是,其中很大一部分,我只是觉得这个过程可能会自然发生,所以我对机器人的预测是 physical AI的问题,也许不需要真的在现实世界里就能解决 [01:19:45]

上下文管理与职业转向

Ethan He:也许不需要真的在现实世界里就能解决,不需要在真实世界里,对不需要在真实世界里,它可能会被视频解决,被一个视频能力非常强的LLM解决,还记得我们刚才说的,实时交互长程视频吗,现在这些模型还只是在屏幕录制,和电脑屏幕上训练,一旦这些模型能使用电脑,并且极好地理解电脑未来的状态,机器人也许就会变成,强大AI可以使用的工具之一,所以,一个强大的AI 可能自然就能控制物理形态,这点我完全能理解,好我知道我们时间差不多了,你还留下了一个更刺激的话题,就是你为什么离开xAI 对我来说,有很多我想做的研究,是你在公司里做不了的,还有优先级和目标,公司通常变化会非常快 xAI也是一样,所以现在算是到了一个时间点,有一些研究我想做,尤其是更偏语言模型方向的研究 [01:20:54]

一凯:我在xAI做不了,明白,也就是说你基本上是在离开,你经历了从计算机视觉,到world model视频生成的整个转变,现在又开始专注于LLM 但听起来你说专注于LLM 其实你刚才已经描述了,它们过去是怎么,全都联系在一起的,对吧,但我不太明白,你说专注于LLM 具体是什么意思,这里面是不是还有别的方向,我意识到

Ethan He:视频模型一开始的收益,可能来自Diffusion 技术的改进,但到了某个阶段,大部分收益,其实来自语言模型本身,对,任何把职业生涯,都投入到

一凯:深层式媒体里的人来说,这都是一个巨大的黑色要玩,这是一个很极端的观点,对吧,你肯定还是两边都需要一点,只是现在看起来,语言模型这边,有更紧迫,更有影响力的工作要做,你还有类似的预测吗,你预测了视频agent 我觉得你会说,对,那在语言这边,接下来一年你在关注什么,我觉得一个很有意思 [01:21:44]

Ethan He:而且可能很快会发生的事情是,语言模型会变得,能感知自己的context 并且管理自己的context 从视频模型这边看,我们一直被一个,很难的问题折磨,就是想生成越来越长的视频,我们一直在用各种方式,解决context lengths的问题,一个办法就是硬上,训练更长的context lengths 另一个办法是,把context管理得更好,我觉得同样的事情,很快也会发生在语言模型里,比如语言模型,现在并不知道自己的context length有多长,一旦达到大概80%之类的比例,自动context compression就会被触发,而模型在工作的时候并不知道这件事,也许让模型知道,我快接近80%了之类的信息会是有用的 还有一些很有意思的例子,比如在OpenClaw里,你每次输入内容时,当前本地时间都会自动附加到你的消息里,所以模型其实知道现在是什么时间,这就让模型有了时间感,还有在Tool Calling里很多中间的Tool Call 结果会被自动踩掉,所以这里面有Context Removal 有Context Addition 也有Context Compaction 这些现在都来自Harness本身,但根据我们的经验,启发式工程里的很多东西,最后也会被模型自己吸收进去,我觉得这是很值得探索的方向,所以是无限context 也许吧

一凯:不过这很有意思对吧,这属于memory和continual learning的方向,我觉得这也属于agent harness使用方式的方向,对吧,你会看到,不是他的意思是,他不想把这件事放在harness里做,对吧,不是不是,但模型也会用harness来训练,对吧,所以其中一部分你可以说会隐世的渗进去,语言模型post-training的一部分,就是让它在coding harness里使用,在这种情况下 agent什么时候spawn 什么时候发生compaction 这些并不是显示告诉它的,比如不是直接说,你有这么多token window 我也不确定你是否希望它变成这样,也许以后会变,但这些东西多少会渗进去,可以想象一下,如果模型能访问整个Agent Harness自己的代码 [01:23:49]

Ethan He:而且想怎么改就怎么改会怎样,假设这个Agent Harness足够短,你就可以直接把它放进System Prompt的Context Length里,然后模型可以说,当我想spawn一个未来版本的自己时,我可以修改这个Agent Harness 比如在读一篇很长的文档时 Agent Harness可以让我选择把全文分块读完,然后回来把摘要合在一起,或者我也可以只读前200行,然后把剩下的都丢掉,各种选择,如果都能由模型自己来做,那会很有意思,你可以把它看成,模型像一个程序一样,在test time在限定给自己编程 self modifying harness 也是open claw和py的一部分,但我觉得这里还有很多工作要做,非常酷 [01:24:41]

一凯:我有一部分好奇的是,你是在大实验室里工作的人,对吧,大实验室研究员,有一条职业路径,就是训练模型,拿到更多compute 训练更好的模型,然后一直往前走,某种程度上,我感觉你正在选择,退出这条路,如果我是你,我会觉得这有点职业风险,你懂我的意思吗,除了说你非常坚定之外,我也没有别的评价,我觉得很多,处在你位置上的人,不会做你做的事,说到我的职业生涯 [01:25:34]

Ethan He:如果我回头看,其实中间有很多次,很大的转变,十年前我在和ResNet的作者,一起做研究 Shawn Zhang和Jensen 那时候的研究完全不一样,主要是perception 比如图像识别、目标检测、目标跟踪,我那时候也在做 neural net compression 这和现在的东西差别很大,当时我想当教授,所以我申请PhD的时候,已经有几篇顶会一作论文,我很有信心地申请了,我想去的顶尖学校,结果所有项目都拒了我,所以我只能去工业界,那时候我在Facebook AI Research 也就是FAIR 我想聊BGP 但那是另一回事,这个可以留到下次再聊,后来我转向了Self-Supervised Learning 那和我之前做的Computer Vision 很不一样 再往后就是NVIDIA Cosmos 那时我意识到,扩大规模极其重要,所以在NVIDIA 我主要关注scaling 一方面是把视频Diffusion Models 扩到几十亿参数,另一方面我也在做MOE Megatron LIM MOE 是第一个开源框架能高效训练,这种超大规模MOE 从1000亿参数到甚至万亿参数 MFU大概能到40% 后来转到xAI 是想在更大的compute scale上,继续往前做,回头看这条路径,我其实做过很多不同的东西,所以我觉得在ML里面切换方向,其实比很多人想象的更容易,很多人可能会觉得,我做Computer Vision 就必须一直做Computer Vision 不能切到Language 但至少从我的经验看,在NVIDIA 我既做过Language Model MOE 也做过Video Models 实际上并不是那样,训练大模型的核心原则,在很大程度上是相通的,对我来说,现在Video Models的瓶颈,其实在language这部分,也就是agent 这也是为什么我想更多去做这一块,它确实有挑战,但我不觉得这是一个,特别大的跳跃 [01:27:48]

一凯:你很厉害,我觉得你在这里有很强的vision 我们想聊的内容基本都聊到了,你愿意花这么多时间,真的很感谢你能分享这些东西也很好,现在我们不用每件事都拿去xAI那边确认

Ethan He:而且我觉得我们应该也没有让你惹上麻烦,跟你在发布内容里看到的相比 xAI其实还有很多很好的东西,你不会意识到里面还有多少层东西

一凯:xAI里面还有多少层,请你多上播客,总之谢谢你,谢谢你愿意分享,真的很感谢,我也想听你讲更多,我觉得你马上要进入下一个阶段了,你还没有宣布接下来要做什么

Ethan He:但很明显你在这条路上还有更多vision 也有更大的ambition 我觉得你基本上是在沿着T度下降,走向你最后的形态,谢谢,我很快会分享,我下一章的更多内容,谢谢你邀请我,谢谢 [01:28:50]

返回该播客 打开原文