目录
- [00:00:00] 开场
- [00:02:41] 两个Shunyu Yao
- [00:06:50] 竞争与逃逸
- [00:26:37] Pre-train没有到头
- [00:36:23] Coding的爆发
- [00:51:25] 字节和豆包
- [00:54:45] “硬蒸”和“聪明的蒸”
- [01:05:22] 机器人
- [01:10:00] 在Underdog之地赌一把
- [01:20:59] 非厄米系统与量子物理
- [01:37:42] 高能物理
- [01:44:24] 物理与AI
- [01:53:47] 在Anthropic训练Claude 3.7、4.5
- [02:36:18] AI本质是简单的
- [02:42:25] 在Google DeepMind训练Gemini 3
- [03:02:43] Pre-train也是一种RL
- [03:08:04] 技术预测
- [03:14:06] 组织搭建
- [03:24:48] 集体主义胜利
开场 [00:00:00]
张小珺:Hello,大家好,我是小珺。转战 AI,2024 年加入 Anthropic,2025 年跳槽到了 Google DeepMind,出任研究科学家,参与了 Claude 3.7、4.5、Gemini 3 等模型的开发过程。除了这些重点模型的开发之外,他有一些很有趣的观点,比如说:AI 的本质是简单的,预训练也是一种强化学习,不要迷信老登,AI 个人英雄主义的时代已经过去了,AI 从业者最重要的特质是靠谱等等。我们的节目录制于 2026 年 3 月,距离我们这次节目录制完,世界又发生了许多意想不到的变化,比如说 Meta 对于 Manus 的收购被撤销,Cursor 可能被 SpaceX 收购,xAI 将终止独立运营并入 SpaceX,并且更名为 SpaceXAI 等等。如果我们的谈话内容有一定的滞后性,还请大家能够多多包涵,因为 AI 的世界实在是变化太快,也太出乎意料了。可能还要特别说明的一点是,技术细节会涉及到一些企业机密,有一些是嘉宾不方便分享的,所以也请大家能够多多包容。我们在最大的可能的范围内,和大家一起来学习 AI。接下来就是我对顺宇的访谈,期待 2026 年我们和 AI 共同进步。 [00:00:00]
张小珺:Anthropic 作为一个公司来说,它能够实现这种比较 top-down 的机制,是一个很独特的事。这对其他模型公司很难吗? [00:01:51]
姚顺宇:很难,比如说 OpenAI 就干不了,Gemini 也比较难。 [00:02:00]
姚顺宇:大公司和 startup,它打法本来就不一样。因为 startup 重要的是 make bet,就是我得赌一件事。 [00:02:04]
姚顺宇:我觉得大家现在每个人都是冲浪的人,本质上是那个浪,而不是你那个冲浪的人。 [00:02:15]
姚顺宇:AI 这个事本来也不太需要脑子。 [00:02:19]
张小珺:不需要脑子? [00:02:24]
姚顺宇:真的不太需要脑子。 [00:02:25]
张小珺:需要什么? [00:02:26]
姚顺宇:我觉得这个行业最重要的特质就是靠谱,就是做事细,然后对自己做的事负责任,这是最重要的特质。 [00:02:28]
张小珺:硅谷不是有两个姚顺宇吗? [00:02:37]
两个Shunyu Yao [00:02:41]
张小珺:硅谷不是有两个 Yao Shunyu 吗?你要不要先给大家介绍一下你自己,然后给大家科普一下两个 Yao Shunyu 的区别? [00:02:36]
姚顺宇:可以。我叫姚顺宇,然后显然也有一个跟我几乎同名的朋友。我们俩主要履历也有一些 overlap,所以可能看起来非常难以区分。我以前是学物理的,本科时候在清华,那时候做凝聚态理论;后来去斯坦福做理论高能物理,和量子信息、黑洞相关的一些方面。离开斯坦福之后,去伯克利短暂待了两个星期的 postdoc,然后就离职去了 Anthropic。在 Anthropic 待了一年,去年 9 月底、10 月初的时候加入了 Gemini。如果大家非要区分的话,我觉得最大的区分就是,那个顺雨他一开始就一直是做 CS,就是计算机相关的;我其实从某种意义上来说是个半道出家,之前是做理论物理为主的。 [00:02:50]
张小珺:你们是不是好朋友?你们好像大学就认识了,而且是一届的,对吧?他是一个什么样的人?你是一个什么样的人?评价一下他,你也评价一下自己。 [00:03:52]
姚顺宇:对,我们本科就认识,因为我们本科是一届的,在清华。但他一开始就是学计算机的,所以他在姚班,就是计算机科学实验班;我是学物理,所以我在基科班。后来他去了普林斯顿,我去斯坦福。这可能也是另一个有点令人费解的点:普遍印象里会觉得斯坦福应该是学计算机的人该去的地方,普林斯顿是学物理的人该去的地方,但我俩反过来,所以也可能产生了一些费解的事情。我俩其实也还真的挺不一样。我觉得他是一个比我有趣得多的人,我过去也能从他身上学到一些和我很不一样的点。比如在 AI 方面,他花了很多时间去思考人和 AI 的交互,包括一些产品上的事情。我觉得对我来说,他是一个很不一样的朋友,我也从他那儿学到了很多东西。 [00:04:00]
张小珺:你们之前在硅谷的时候,多久见一次面?你们现在是不是还频繁打电话? [00:04:57]
姚顺宇:我们在硅谷的时候,见面确实挺频繁的,可能每几个星期吧。但是好像见面主要是为了凑一块玩。 [00:05:03]
张小珺:玩啥? [00:05:12]
姚顺宇:真的就是纯玩。可能出去散散步,扯扯有的没的,然后有时候吃个饭、打个牌之类的。他回去之后,其实我们也还是经常会打电话。 [00:05:13]
张小珺:最近一次电话聊啥了?好像就是前一两个星期。 [00:05:28]
姚顺宇:你怎么知道的?可能就是会过几个月,然后大家过一下最近的近况。 [00:05:32]
张小珺:他是不是多次想把你拉过去? [00:05:42]
姚顺宇:可能有这个意思,但是我觉得不关键。 [00:05:46]
张小珺:你为什么不去? [00:05:51]
姚顺宇:我觉得对我自己来说,我没想清楚,多半是我自己的原因。我也没有去任何中国的地方。主要原因是,在去年的 9 月或者 8、9 月这个时候,我离开 Anthropic,离开之后决定要去哪的时候,最大的动机是我想学一些不一样的东西。对我来说,我可能没有更着重地去考虑说,能够去领导一个项目,或者领导一个 project 之类的。我更多的是,那个时候优先去学习一些东西,所以我选择去了 Gemini。 [00:05:53]
张小珺:我发现你们两个老被放在一起比较和讨论,对你来说是困扰更多,还是享受更多? [00:06:35]
姚顺宇:我没什么感觉。因为我这个人也不太关注社交媒体,所以我其实真的没什么感觉。因为那个顺雨…… [00:06:40]
竞争与逃逸 [00:06:50]
张小珺:因为那个顺雨之前在去年的时候说,AI 进入了 the second half,进入下半场,这成为了一个非常有名的观点。你觉得今天的 AI 在一个什么样的时期?你能给它一个定义吗? [00:06:48]
姚顺宇:对我来说,我可能看得没有那么清楚,什么叫做上半场,什么叫做下半场,或者说这个定义一直以来对我并不是特别清楚。对我来说,确实现在 AI 进入到了一个阶段:大家都已经开始不那么担心一件事,AI 是不是能够做得到;而是担心这件事是不是被良好定义。我觉得这是一个很大的区别。比如一年之前,可能去年年初的时候,那时候我在 Anthropic,大家可能担心的事情还是说,OpenAI 这个 reasoning 做得这么强,我们有没有机会追上?有多大的机会能够超越它?大家还很担心这个事。我觉得现在,至少在 Gemini、OpenAI 和 Anthropic 这三家当中,没有哪一家会真的担心自己追不上。可能现在对大家更难的事情,是想明白要去做什么。这个是一个 bet,是一个赌,但也是一个很需要人的 insight 的事情。 [00:07:02]
张小珺:那这也意味着模型的能力被拉平了,对不对?它变得同质化,变得商品化,所以模型没有很大的区别,就是在好坏上没有很大的区别,但是它需要分化。 [00:08:08]
姚顺宇:我觉得从用户实际体验上来说,这三家的模型是能够感受到区别的。但是难的一点是,过去这个区别在纸面上也能看出来。在纸面上是指,比如公开的有很多这种 benchmark、测量的规范。以前大家能够去看 SWE-bench,可能数学大家那时候会比,像简单一点的 AIME,难一点的像 IMO。那个时候我感觉你从纸面上就能看出来:这个模型好像 reasoning 强一点,那个模型好像 coding 强一点,那个模型这个强一点。现在纸面上大家其实都比较相近。你去看纸面上的消息,比如看 SWE-bench,会发现好像好的会比不好的高一个百分点或者两个百分点,但其实大家都在 80% 附近。那个附近数字高一点、低一点,主要是 noise,主要是噪声,而不是信号。但是从另一方面来说,大家使用上确实还是能体现出区别的。就我个人了解到的信息而言,Claude 目前仍然是比较通用的工具使用类 agent 表现最好的;在纯粹 coding 的方面,可能最近 Codex 稍微追上了一点,把中间的 gap 变小了一点;Gemini 可能在纯的 reasoning 和一些比较日常的使用环境下,目前还是比较好的,在 coding 和 agent 上还处于一个比较接近的状态。 [00:08:21]
张小珺:这些能力是他们有意选择“我优先发展哪个方向”,还是说它就是好和坏的区别?它是能力问题,还是意愿问题? [00:10:03]
姚顺宇:我觉得其实是有意愿的成分在的。尤其在过去的情况下,主要是意愿。当大家能从纸面上看出区别的时候,那时候意愿肯定占大多数。比如 Claude 一直更看重使用工具的能力,包括 coding。OpenAI 有一段时间非常看重 reasoning,当然现在也开始看重 coding 了。那个时候肯定是意愿占大多数,因为你更有意愿的话,就意味着你能花更多精力去构建合适的基础设施、合适的 infra,构建合适的数据。尤其数据,从某种意义上来说是很花时间、很花精力的事情。所以那个时候肯定是意愿、专注度。但是到现在这个时候,我觉得两方面其实都有。因为纸面上都看起来差不多,甚至你做一些更内部的测试,这个数字差别也都没有那么大了。这时候更难的事情是,你该怎么去定义你的问题,定义你想要的行为。在这个事情没有定义得那么清楚的时候,模型的很多差异其实来自于一些你想象不到的事。 [00:10:09]
张小珺:想象不到的事指的是? [00:11:30]
姚顺宇:当然,想象不到的事,你现在问,其实我很难给你一个特别清楚的答案。可能过一段时间之后回过头来看,我才能给一个清楚答案。但我可以举一个想象不到的例子。比如往回退一年、两年,甚至三年的时候,那时候如果你去网上取这些 pre-training 的数据,可能训练一个模型,就会发现模型在写代码,那时候当然没有这种 agentic 的写代码,它都是写一段代码,会写得很好。可能那时候大家不知道为什么,但这里面意外的原因可能就是,你从网上随便取,如果不做任何数据筛选,自然的 code data 质量就会比别的高一点。因为你去看网页,会发现 GitHub 的质量是显著比别的正常网页要高的。 [00:11:33]
张小珺:在进入我们今天主题之前,我想先聊聊最近模型的一系列新闻。你看最近大家都在讨论 OpenClaw,你作为一线的研究员,对这个新的产品形态是怎么看的?你周围有哪些讨论? [00:12:29]
姚顺宇:我觉得有趣的是,我感觉这个事情在业外的讨论好像比业内的讨论更激烈。 [00:12:41]
张小珺:业内没有人讨论? [00:12:52]
姚顺宇:业内有人讨论,但是我觉得对于业内人来说,它并不是一个特别令人惊讶的事。怎么说?可能在公司内部也有人已经做了类似的实验或者 demo,只是可能并没有作为一个产品去很认真地宣发,然后把它打磨、发出去。当然实际情况就是,你去看 OpenClaw 最早版本的 GitHub code,那个 code 从某种意义上说写得也不是特别干净。但我觉得它很重要的事,是给大家展示了这种可能性。展示这种可能性之后,未来像 OpenClaw 作者自己也加入了 OpenAI,那可能这些模型实验室,或者一些大一点的创业公司,会很快跟上,然后把这个东西打磨成一个真的可用的产品。 [00:12:54]
张小珺:所以我理解,其实在 OpenClaw 发布之前,Google 就已经有人在做这个事情了,只是还没有发布,因为大公司的流程比较长。 [00:13:47]
姚顺宇:对,至少我个人所得到的印象是这样的,所看到的是这样。 [00:13:52]
张小珺:所以这种类 OpenClaw 的产品形态,它本身说明了什么?在今年初这个时间点上。 [00:14:00]
姚顺宇:我觉得技术上来说,其实并不能说明什么。OpenClaw 这个产品当然依赖于模型能做的很多事情,但是那些事情的能力并不是到今年年初才比较成熟。我觉得可能在去年,像 Opus 4.5 发布的时候,当然那时候 Opus 其实比 OpenAI 和 Gemini 3 在 tool use 的能力上都要强一些。所以我觉得在那个时间点,其实你做这个事,这个事就已经是可以展示出来的。而且它一开始发布也没有立即火起来,它发布之后过了一段时间才火起来。所以对我来说,技术上它并不是那么令人惊讶的事。 [00:14:08]
张小珺:它是模型能力的自然溢出。 [00:14:58]
姚顺宇:对,我会这样觉得。但是我觉得它可能对于大家的一个惊喜是,以前大家都没有意识到,它让大家意识到这件事可以做。意识到什么?就是意识到你可以控制很多不一样的模型,做很多不一样的事情,然后把这个事情汇总,汇总之后做一个很长很长、long horizon 的工作。我觉得可能以前大家并没有广泛地对这个事产生共识,这个事情给大家展示了这样一种可能性。 [00:14:59]
张小珺:你看从去年最火的是 Manus,今年最火的是 OpenClaw。从 Manus 到 OpenClaw,变化是什么?是模型能力的变化,还是产品的变化? [00:15:26]
姚顺宇:这也是一个我其实一直没理解的事。Manus 和 OpenClaw 之间的质的区别是什么,是一个我自己没太看明白的事情,说实话。换句话说,可能 OpenClaw 这个事火了,但是如果你回头问我,为什么 Manus 做不了这个事,我不明白 Manus 为什么做不了。可能只是它没做。 [00:15:38]
张小珺:但是你看不管是 Manus 还是 OpenClaw,他们都选择了,Manus 卖给了 Meta,OpenClaw 卖给了 OpenAI。这个现象说明什么呢?为什么他们都卖了? [00:16:10]
姚顺宇:我自己的感受是,一个东西如果要长久地生存,还是需要考虑一些壁垒的。 [00:16:17]
张小珺:壁垒是模型? [00:16:29]
姚顺宇:我觉得至少目前来说,很多壁垒都是在模型侧。但是未来会不会产生产品侧的壁垒,我觉得是说不定的。因为市场上这都是老生常谈的话题,很多人会谈论什么数据飞轮之类的事情。目前来说,我觉得没有哪一个场景…… [00:16:30]
姚顺宇:我觉得没有哪一个场景真正形成了数据飞轮,甚至 AI 纯粹原生的应用场景,目前除了 agentic coding,就是写代码之外,没有哪个 AI 真正原生的场景变得非常成功。因为从某种意义上来说,Chatbot 其实是搜索的一个延伸。 [00:16:49]
张小珺:Chatbot 是搜索延伸? [00:17:11]
姚顺宇:对。它为什么不是独立于搜索的?因为你想,大家其实和 Chatbot 最多的交互,是我有一个问题,就问这个 Chatbot。这个其实是搜索本来干的事。但它带来的、比搜索要远强的一个事情,是它变得非常 interactive,就是它有交互性,你可以追问。然后它甚至可以帮你总结出一些通过它获取的信息,帮你把它压缩、浓缩成回答你的问题的信息。这个是以前搜索给不了你的。当然,它不是完全一样的需求,但是从大的需求上来说,是比较类似于搜索之前的需求。 [00:17:13]
张小珺:Manus 和 OpenClaw,我觉得都是现在最有名的壳,但是壳最后都卖给了模型公司。那是不是说明,壳还是难以逃脱模型的掌心,这个逃逸速度不够快,是不是? [00:17:56]
姚顺宇:我觉得壳在目前这个情况下,活下来有两种我大概能想象的方式。一种想象的方式,就是像你刚才说的,逃得足够快:我增长速度足够快,以至于在模型公司反应过来的时候,我其实已经占领了大量用户心智;然后在模型公司追你产品形态的时候,我又自己研发出了自己的模型。我觉得 Cursor 就是试图在走这条路。Cursor 其实在这种 AI 原生场景下,几乎是我能想到的创业公司里增长最快的。就算这样的公司,它现在也很有危机感。它有多有危机感?反正我的感觉是,对 Cursor 来说,现在和 Anthropic 已经进入了一个非常微妙的关系。曾经他们是亲密无间的合作伙伴,Anthropic 提供模型,Cursor 提供产品;后来 Anthropic 自己有了 Claude Code,Claude Code 现在变得非常成功;然后 Cursor 现在又自己试图做自己的模型,所以 Cursor 在努力训它的 Composer。 [00:18:09]
姚顺宇:所以我觉得,现在他们已经处于一种比较竞争的关系了。如果在竞争中输掉的话,我觉得是比较麻烦的。因为 coding 这个事情,本质上是一种服务于专业用户的专业需求,是一种效率工具。效率工具很容易出现的一个场景就是赢家通吃。我觉得这个不管对 Cursor,还是对 Aider,还是对任何一家做 coding 的公司来说,可能都是它们比较担心的事。 [00:19:21]
姚顺宇:这是刚才说的一条路:要快。你长得够快,在别人还没想吃你的时候就疯狂长,等它想吃你的时候,你已经足够大。另一种方式就是,这市场足够小,小到模型公司根本懒得去管。我觉得 Midjourney 就是一个例子。这个市场小到,虽然你说咱们来努力吧,能不能做 Midjourney 那个事?可能花一些精力、花一些钱、花一些 data 是能做到的,但是足够小,以至于可能咱们就不是很会在那上面花时间了。 [00:19:56]
张小珺:看不上。 [00:20:32]
姚顺宇:对,我觉得那可能也是一种活下去的方式。 [00:20:33]
张小珺:所以哪怕是 Cursor,今天也没有逃逸出模型的手掌心。有谁成功逃逸了吗? [00:20:37]
姚顺宇:大的我目前还没看到。小的可能没证明,当然肯定有别的例子,只是我还没看到。小的我觉得会有例子。 [00:20:46]
张小珺:Lovart 算吗? [00:20:56]
姚顺宇:我觉得他们有机会。他们有机会。反正不能做那种通用的场景。我觉得这是 founder 自己要决定的一件事:你要不要抱着万分之一的生存几率去赌一票大的,还是抱着百分之一的生存几率,去先吃另一个小的事情。 [00:21:00]
张小珺:如果是你,你会怎么选? [00:21:25]
姚顺宇:如果是我,我内心肯定是想吃一票大的。但是我真诚地想,我觉得第一步是不能一步登天。所以如果是我,我会选择先吃一个小的,但是我会选择一个有想象空间的小的。 [00:21:27]
张小珺:你说 OpenAI 为什么要收 OpenClaw、Meta 为什么要收 Manus,Google 为什么谁也不收? [00:21:49]
姚顺宇:Google 也收了,Google 买了 Windsurf 的人。 [00:21:55]
张小珺:OK,Windsurf。 [00:21:58]
姚顺宇:我不理解。 [00:22:01]
张小珺:什么叫你不理解? [00:22:04]
姚顺宇:说实话,就是我不理解。我觉得 Meta 买 Manus 这个事,对他们来说,如果抛掉花了多少钱之外,最大的用处是获得了一批很好的在亚洲的产品团队。 [00:22:06]
张小珺:在亚洲说明什么? [00:22:27]
姚顺宇:因为我觉得,一方面显然大家都知道,中国的 AI 人才储备还是很丰富的。虽然可能目前从纯技术上来说,中国的 AI 还没有真的追上美国,但是显然中国是有很多好的人的,不管是从纯技术上,还是从产品上。我觉得可能中国本质上人才是比美国要更好的。所以对它来说,我觉得 Manus 成为了它在新加坡的一个锚点,它可以从那里吸引一些比如说从中国,或者新加坡,或者东亚的人才。然后我其实没有特别看明白,这个产品本身对 Meta 来说有多重要;或者换句话说,就是为什么 Meta 不能自己干这个产品。 [00:22:30]
张小珺:但是不管是 Manus 还是 OpenClaw,它事实上就是诞生于外面的团队。为什么不是硅谷的这一帮研究员做出来的呢?你有没有反思过这个问题? [00:23:21]
姚顺宇:对,我觉得对我来说,这个问题其实是:一个公司一旦变大了之后,它的负担也变大。就是说,我可能作为一个研究员,可以做一些看起来很有趣、很有特点的产品,但是我一旦把这个产品公开给公众,要负责的事情是非常多的。第一,你这个产品不可能一上线,然后告诉所有用户,你得再去买一台电脑干这个事,否则它就有可能会获得你电脑上所有的权限,然后把你系统搞崩了。作为一个大公司来说,Google 是不可能提供这样的产品出去的,对吧?所以你产品要花很多时间打磨,你要确认法律上没有一些风险,用户上又不会损坏自己的品牌。然后你如果把它送出去了,可能还要给它比较固定的一些资源,去 serve 这个模型,或者 serve 这条产品线。所以对大公司来说,我觉得还是有挺多负担的。 [00:23:29]
姚顺宇:但是对于个人来说无所谓。我反正是一个开源的项目,我代码垃圾又如何?你帮我来一起写吧,对吧。 [00:24:37]
张小珺:但是我觉得不管是 Manus 还是 OpenClaw,它其实指了一个方向:可能这也是 2026 年某种叙事的可能性。你对 2026 年是怎么样思考和预期的? [00:24:46]
姚顺宇:我觉得其实有太多的可能性。对我来说,从模型能力上来说,我有时候特别爱说这个口号:我觉得模型做到 train with finite context, use as infinite context,换句话说,就是你用有限的 context length 去训练它,但是可以在使用的时候用非常非常长,甚至接近于无限的 context length。我觉得这件事今年是有机会能够实现的。 [00:25:00]
姚顺宇:这件事情实现之后,我觉得会解锁很多新的应用。举一个最简单的例子:你有可能可以让这个模型跟你持续地交互,然后持续地获得你的信息。它在运行的过程中,会持续地根据当前的场景和你的对话,可能把那些它觉得不重要的信息扔掉,然后就成了大家梦想中的个人助手。我觉得这个从技术上来说,今年无论如何是会实现。 [00:25:39]
姚顺宇:但是当然,我觉得现在大家没有达成共识的是,技术上怎么去实现这个事。显然是有很多技术路线,但是现在我觉得更多属于在尝试哪条路线能够跑通的同时,可能有好几条路线都能跑通。那我们到时候就要去实验上测,在用户常用的使用场景下,哪条路线的效率是最高的。我觉得现在更多处于这个阶段,而不是说大家没有想法的阶段。大家有想法,但是要确定哪个想法是最后的想法。 [00:26:08]
Pre-train没有到头 [00:26:37]
张小珺:站在 2026 年 Q1,作为一个一线的研究员,你觉得模型的进步速度在放缓吗? [00:26:37]
姚顺宇:我觉得完全没有,完全没有。我觉得完全没有。 [00:26:43]
张小珺:它的速度曲线,对比 2025 年、2024 年的变化是什么? [00:26:47]
姚顺宇:这个很难量化,因为你得给一个标准,我才能量化地告诉你。比如你给的标准是,我就看在某一个 benchmark 上,每一个月涨多少个点,那这个事肯定会变慢。因为根据定义,这个 benchmark 最高就到 100%,所以越接近肯定是跑得越慢。但是这可能并不代表用户体验到的模型能力增长变慢。可能从 50% 到 60%,他感觉好了一点,但很有可能从 70% 到 75%,他发现好得比 50% 到 60% 那个还多,这是完全有可能的。 [00:26:51]
张小珺:如果是 80% 到 90%,90% 到 100%,这个感受会更显著? [00:27:29]
姚顺宇:那也不一定。可能到 80% 到 90%,用户就发现没有任何区别,甚至还变差了。 [00:27:33]
张小珺:你说完全没有变慢,是基于什么标准? [00:27:40]
姚顺宇:我觉得是基于我个人作为一个研究员的感觉。我个人的感受是,模型学东西的能力越来越强。以前可能让模型学会干一件事情,需要动很多脑筋,但现在可能不需要动那么多脑筋了。最重要的是,你要把这个问题定义清楚,然后想清楚怎么去构建合适的数据。当然现在“数据”是更宽泛的,像环境之类的都包括在内了。然后剩下的事情,好像很多时候是顺其自然的了。 [00:27:42]
张小珺:学习能力变强是为什么呀?模型的学习能力变强。 [00:28:18]
姚顺宇:我觉得原因可能有很多方面,但一方面,也是因为预训练在过去几个月里还是越来越强了。模型的预训练,其实在过去几个月里还是变强了。我觉得这个从某种意义上来说,是比较有争议的事。因为几个月以前,很多人已经在讨论预训练的 scaling law 是不是已经到头了。我的体验是没有。而且我的感觉是,在未来四个月也没有看到到头的迹象。 [00:28:21]
张小珺:觉得到头是为什么呢? [00:29:01]
姚顺宇:我显然不知道大家觉得到头的原因是什么,因为我自己没觉得到头。但是我的猜测是,一个人觉得一个规律到头了,无非是以下两种情况。一个情况是,他觉得这个规律的适用范围到头了,可能从根本上讲,scaling law 就是没有办法无穷延展下去的,这也是有可能的,但这是一种猜测。另一种可能是,这个人觉得这个规律其中有一个条件不能满足了,比如他觉得数据已经撞上墙了,那就完全没有办法延展下去了。但是其实还有第三种可能性,就是其实他这个工作哪里有一个 bug,他自己没发现,所以他觉得到头了。从我的观感上来说,我觉得可能绝大多数撞到墙的人,是因为第三种。 [00:29:04]
张小珺:是哪种 bug? [00:31:13]
姚顺宇:bug 有很多种可能性。比如一种可能性是,你做 scaling law 的时候,一些科学假设没有做对。比如每一个大小的模型选什么样的 token horizon,选什么样的预期训练数据量,这些数据从哪里选。可能这些比较科学的选择没有选清楚,是一种可能性。但我觉得还有一种可能性,就是纯粹有个 bug。这个在业界我觉得也不惊奇,很多时候修好一个 bug 带来的进展,是远大于一些很神奇的技巧的。当然还有另外的情况,我刚才给的这两种例子,是我见到过比较多的情况。 [00:31:16]
张小珺:那你们的 bug 怎么办?你们怎么解决 bug 问题的?我感觉这更像是一个信念的问题,因为当你遇到一个 bug,你觉得它不能解决,你就会说这个到头了;当你遇到一个 bug,你觉得这个肯定可以解决,那你就觉得这还没有到头。因为肯定每个人都要遇到 bug。 [00:31:13]
姚顺宇:对。我觉得这可能就像你说的,其中有一些比较信念性的东西。但对我来说,更重要的一件事是做事的系统性。当一个事情和你预测的不一样的时候,你能不能系统性地排除各种可能性,这个我觉得是一个很重要的事。这个是我觉得 DeepMind 和 Anthropic 会做得比较好的事,尤其在预训练上。就是说,当某一个尺度上的行为可能和你想象中不一样的时候,大家能够去设计合理的、我们所谓的 ablation 实验,能够测试你想象中的那些可能因素是不是真的因素。我觉得这个系统性才是关键。 [00:31:30]
张小珺:你觉得模型能力还能提高,那它的驱动力,数据、算力、算法,你觉得主要来源于哪个? [00:32:21]
姚顺宇:我觉得其实都有。但是从某种意义上来说,数据和算力两个事,其实是很强关联的一件事。 [00:32:30]
张小珺:数据和算力? [00:32:43]
姚顺宇:对。因为你算力上去了,自然就会吃到更多的数据;数据上去了,你就自然吃到更多的算力。算法上来说,我觉得算法的作用往往是有一个相变。算法有一个阶段,是你完全没有搞清楚该怎么做,那个阶段算法会非常非常关键。因为你完全没有搞清楚怎么做的时候,可能就完全没有办法 scale up,然后就卡在那儿。但是在某一个点,你可能发现了算法当中最重要的这件事,它可能一下就从完全不能做变成了能做。之后算法的提升,更多是一种比较平滑的提升,它可能从某个角度提高了计算效率,或者使用数据、使用算力的效率。举例吧,比如说从语言模型的预训练来说,算法上的这个跳的过程,可能就是发展出 Transformer 这个事情。但 Transformer 发现之后,更多都是慢慢、平滑地让它的效率,或者使用数据、算力的效率变得越来越高。 [00:32:44]
张小珺:所以现在的驱动力是算力和数据?你说的清晰框架是指,比如预训练和后训练? [00:33:52]
姚顺宇:不管是基于强化学习的后训练,还是基于 supervised learning,也就是监督学习的后训练,在这些比较清晰的 paradigm 下,确实算力和数据是主要的驱动力。但是不可否认,可能有别的方向,驱动力是算法。 [00:34:04]
张小珺:你什么意思? [00:34:23]
姚顺宇:举个简单的例子,比如说多模态生成,我觉得那个可能就是一个算法上还没有太想清楚的事,所以那个还是一个科学问题,还没有解决。但是语言已经不是科学问题了。自然语言的生成,我觉得目前这条技术方案撞到头之前,在科学上是比较清楚的,但是工程上还有很多很多要做的事。 [00:34:26]
张小珺:你觉得预训练还能提高多少?通过预训练提升模型能力,还有多长的路可以走,可以预期到? [00:34:57]
姚顺宇:人就是这样,当你没有撞到头的时候,你其实不知道这个路有多长。我能看到的就是现在还没撞到头,但我也不知道哪天会撞到头。如果真的让我去估计一个时间线的话,就像刚才说的,我觉得接下来四个月还是会继续有进展。但是 AI 这个方向,没有人能预测四个月之后的事。 [00:35:02]
张小珺:所以过去几个月,你在看预训练和模型能力的时候,你还是很兴奋的?这是你周围普遍的心态和状态吗? [00:35:25]
姚顺宇:我觉得是的。 [00:35:34]
张小珺:这是在 Google 一个小环境里面,还是说在整个硅谷的环境里? [00:35:37]
姚顺宇:我觉得很难说整个硅谷,因为硅谷是个太大的地方。可能做产品的人对产品很兴奋;对做产品的人来说,他们最兴奋的点可能会更混合。但是对做模型的人来说,我们会对这种模型的进展更兴奋一些。 [00:35:40]
张小珺:对于做模型的人来说,兴奋是一个共识吗?在过去四个月。 [00:35:53]
姚顺宇:我个人认为是的。至少在我能接触到的范围内,在 Google,大家可能想得更多的是:AI 会不断进展下去,很快我们就要被替代掉,替代掉之后我们该干点啥,而不是模型撞到头了该怎么办。 [00:36:00]
张小珺:说到这个问题。 [00:36:21]
Coding的爆发 [00:36:23]
张小珺:说到这个问题,为什么在过去几个月,coding 的发展速度是最快的?为什么是这个场景? [00:36:23]
姚顺宇:我觉得 coding 这个场景,首先 coding 这个事,我指的是过去几个月发展最快,其实从 Claude 3.5 Sonnet(new),外界有人管那个叫 Claude 3.6,从那个之后一直都处于高速发展的状态。那个是去年初还是前年底?前年的十月份,应该是十月份,大概差不多那时候。从那个之后,我觉得一直都属于高速发展状态。我觉得 coding 这个场景有两个最大的优势。第一个优势就是它的 reward signal,就是它的回馈信号,是很好定义的。比如说像 software engineer 这种 task,经常情况就是,我需要写一个 code,实现一个 feature。这个 feature 需要的是,某些输入会得到某些输出,这就是一个很容易能够测试的事情。所以它的回馈信号非常清晰:你输入和输出能够对,那就说明你的实现是成功的;不对,那就说明不成功。但这只是一个例子,在这种和写 code 相关的事情里面,有很多很多能这样良好定义的回馈信号。另一个比较大的优势是,coding 的数据有一个非常天然的基础,这个基础就是 GitHub。GitHub 上汇聚了过去几十年很多很多优质程序员所写下的代码,然后从那些代码出发,是可以构建出非常非常非常多环境的。我觉得这两件事,从模型的角度上来说,是为什么 coding 可以做得很好。当然我觉得从产品上来说,还有另外一方面的原因,就是 coding 这个产品的使用需求,其实从某种意义上说是比较单一的。它不像你去做一个社交软件或者游戏,可能每一个人都有不一样的品位,然后你可能很难能够满足每一个人的需求,那可能就需要推荐算法。但是 coding 这个事好的地方在于,优秀的程序员写代码,其实风格是比较类似的。 [00:36:30]
张小珺:什么风格?简洁、干净? [00:39:12]
姚顺宇:对,就是好的代码是不脏的,是有一些共同标准的。比如说像你说的,代码简洁、结构清楚、适于未来的开发,然后有合理的抽象。当然还有别的很多标准,但是我觉得好的程序员往往是有比较共识的标准的。所以这件事从产品上来说,其实让 coding 这个产品变得更简单了。 [00:39:15]
张小珺:那你现在的工作百分之多少会用 Claude Code 写代码?它能帮你提高工作多少倍啊? [00:39:41]
姚顺宇:你问了一个我差点会被开除的问题。Google 不能用 Claude Code。对我来说,一个保守的估计,可能 90% 的 code 是模型产生的。但是可能我需要花很多时间去看这个 code 是不是写得合适、写得合理,是不是真的是我想让它写的。然后我觉得有了 AI 辅助工具之后,可能写 code 这个事,最重要的地方变成了你怎么去设计,你怎么去设计你这个 code 的逻辑;然后它需要和哪个文件相关联,需要做哪些事情;你需要给这个模型一些合理的 context,比如说这个 code,你可以做一个 reference 去看一眼。真正去输出 code,我觉得模型比人的能力强太多了。所以对我来说,你要实际去数有多少行 code 是我自己手写的,有多少行 code 是模型写的,我觉得保守估计,模型写的超过 90%;不保守的可能就是 99 或者 100。 [00:39:53]
张小珺:剩下 10% 是它不能写,还是为什么你没有让它写? [00:41:02]
姚顺宇:保守估计 90%,给我自己点面子。我觉得它不能写而我能写的部分,已经越来越少、越来越少、越来越少了。 [00:41:09]
张小珺:过去可能是什么样的?是什么它不能写的? [00:41:17]
姚顺宇:我觉得很早的时候,可能在一年半以前,那个时候市面上说白了只有 Claude 一家能够真的写这种软件工程的 code。那个时候模型还是能体会到很多缺陷的。比如说它有时候写 code,可能就只关注这一个文件,它不会很关注多个文件之间的关联。然后如果一个 class 的定义其实藏在很多层里,或者说它其实没有直接被套在这个直接的树里面,可能这个模型就找不着。现在我觉得这个事已经越来越少了,真的越来越少了。 [00:41:23]
张小珺:作为一个 researcher,你的写程序工作量能够是过去的多少倍?因为从写 code 的角度来说,是比较能量化这个事的。 [00:42:07]
姚顺宇:但是如果说从比如说我做实验,然后实现一些 idea 的效率上来说,我觉得可能比起一年甚至一年半以前,都是二十甚至五十倍的加速。因为现在模型真的变得可以很离谱。你可以同时开好几个,然后你好几个 idea 同时去试。甚至有的时候,这个模型可以帮你监控一些实验,监控一些结果之类的。所以还是真的是一个挺大的效率提升。但是,如果从个人工作时间上来说,我觉得它好像让我工作时间变更长了。 [00:42:16]
张小珺:这是为什么? [00:42:58]
姚顺宇:因为开发的速度变快了之后,就越试越想试,有越来越多的想法要去试。以前你可能存在说,你有一个东西,比如这个文件以前没见过,你可能自己看,搞得不是很明白,要去花时间找那个人。然后你遇到那个人,可能就几个小时之后。但现在就不是,你看到这个文件,你不懂,拿去问一下 Claude,或者 Gemini,可能五秒钟就告诉你结果,你就接着干了。所以从工作时间上来说,我觉得好像工作时间反而变长了,而且工作的密度也变高了。 [00:43:01]
张小珺:Google 已经不是那个 Google 了是吗?不是那个可以养老的 Google,不是那个 work-life balance 的 Google。 [00:43:35]
姚顺宇:我感觉在 AI 这个领域,没有谁可以养老。 [00:43:45]
张小珺:所以你现在早几晚几啊? [00:43:49]
姚顺宇:我一般可能早上九点钟开始。 [00:43:52]
张小珺:到公司吗,九点? [00:43:54]
姚顺宇:我早上九点钟会先起来看一下邮件,然后看一看我前天晚上的实验。到公司可能一般十点左右。晚上如果我一个人在美国的时候,可能就会待到十点、十一点。当然如果我家人在,我老婆在的话,我可能就会早一点回家,但是在家反正也是干。所以我觉得这场 AI 战争,没有谁是在躺着的。除非你已经完全对技术没有兴趣了,对自己没有追求了,那你躺着其实也没有人管你。但是我觉得大家还是比较 self-driven,就是还是自己想干。 [00:43:55]
张小珺:你觉得其他领域会出现更多这样的 Claude Code 时刻吗?Coding 之后会在哪里爆发? [00:44:34]
姚顺宇:你问了一个好问题。我要是看清楚了,我可能已经出去创业了。但是确实除了 coding 之外,我们已经能看到对很多别的方向已经产生大的影响。但只说那些方向,可能并不是一个好的市场上的方向。比如说,好多现在做基础科学研究的,比如做数学、做理论物理,好多人其实已经大量使用 AI 工具。因为过去你可能像我们做 AI 研究,其实很像,就是说你可能想玩一个想法,想跑一个数值。学物理的人又不是很会写 code 的,光搞明白怎么打开这个编译器、把 code 跑起来,可能半天已经过去了。现在就没有这个烦恼了。你现在想试,五分钟之后 code 写完了,你就可以开始试了。然后甚至像 Gemini Deep Think 发布之后,有很多基础科学的研究人员,就把这种比如说数学推导、数学证明,甚至去看这些不同的文章、归纳这些事,全都交给模型了。所以我觉得已经对除了 coding 之外的方向产生了影响。当然,那些基础研究可能很难变成一个万众瞩目的事情,除非你真的发现了一个以前人都没发现的很妙的理论。比如 AI 产生了 string theory 这样的级别的东西,那可能会变成万众瞩目。但是那个时刻可能还没到来,影响是已经在产生了。 [00:44:43]
张小珺:哇,AI 好神奇啊。它为什么首先上来做的都是人类觉得最难的那部分工作? [00:46:17]
张小珺:做的都是人类觉得最难的那部分工作。 [00:46:21]
姚顺宇:我觉得这是一个特别好的问题。过去在我人生的阶段里,大家往往会觉得,智力上最有挑战的工作,反而是那些比较理性的、比较客观的事情,比如数学、写代码、做 AI 研究,还有科学研究。对,就是越是这些事,其实 AI 越容易做好,因为你一旦想清楚这个事怎么去评价,你就知道怎么训练。人为什么比较难呢?你看,都是人类智力分布最高的那部分人做这些工作。但是可能未来就不是这样了。 [00:46:24]
张小珺:未来会怎么样? [00:47:07]
姚顺宇:我觉得未来其实会发生一个改变,就是有很多事 AI 其实没有那么容易做,但是反而是人可能做比较好的。比如说做产品经理,我说实话觉得,做一个好的产品经理,是一个我现在想不明白该怎么训练 AI 去做的事。 [00:47:09]
张小珺:这是为什么? [00:47:31]
姚顺宇:没有标准,没有刻度。什么叫做一个好的产品,我其实想不太明白,没有一个很刻板的标准。你一定是做出来之后,给人用了,你才知道它好,大家才会说它好。我觉得那个就是一个回馈信号很不明确的事,那个我就不知道该怎么去训练、该怎么做。 [00:47:33]
张小珺:程序员什么时候会被彻底取代吗?会有这一天吗? [00:47:53]
姚顺宇:我觉得这一天会来,但是它不会是一瞬间地来。不会是程序员都还在,过了一个晚上,第二天程序员全被开除了,不会是这样的。它一定会是一个渐变的过程。但是大家现在已经看到这个渐变的过程,因为有些公司已经开始裁员了。对,我觉得从某种意义上来说,AI 当然是一个很好的东西,但是从某种意义上来说,它可能也是一个很不幸的事。AI 是一个很 centralized 的 technology,它会让少部分人变得更强,但会让大部分人失去他们的独特价值。所以我觉得对于传统的软件工程来说,最后变成的结果可能就是:现在千分之一的人,干了过去所有人的工作,拿着现在 100 倍的工资。 [00:47:58]
张小珺:那你对程序员有什么建议? [00:49:05]
姚顺宇:我觉得可能接受新事物吧,就是我觉得很重要。未来程序员可能很重要的一件事,是怎么和 AI 有效地协作。比如说有很多事情是 AI 可能做得不是那么好的,比如怎么合理地设计一个事情的实现方案,然后怎么样设计,让它跟这个公司未来的发展比较契合。这些东西可能你很难去告诉一个模型,让它理解这些事,这些事可能还需要人去做。但是像具体的,过去很多程序员做的工作是:你的经理告诉你,实现这个方案,下周五之前给我。我觉得这样的工作未来可能就不会再存在了。 [00:49:09]
张小珺:那千分之一的程序员会是什么样的程序员?他们的特质是什么? [00:49:57]
姚顺宇:首先千分之一是个虚指,我真的不知道是千分之一,还是万分之一,还是十万分之一,也可能是百分之一。 [00:50:00]
张小珺:你不要那么悲观。 [00:50:06]
姚顺宇:我是一个著名的悲观主义者,所以也不要太那什么。然后我觉得,未来好的程序员,首先他肯定从技术上来说一定会非常强,因为如果你技术上弱,那没有什么道理 AI 还不能取代你。但技术强可能不会是唯一,它不会是一个充分条件,但可能是个必要条件。另一个我觉得会很重要的事情,就是你得能够理解你的这部分工作,在一个大的组织或者一个大的公司里,该怎么适配进去。这件事情可能也是重要的。然后当然还有可能别的很多事情,比如说这个人的规划能力是不是足够强。他规划能力强的话,肯定可以把一个很复杂的大事情拆解成很多相对较小的事情,然后交给不同的 AI 去做。但是现在这三种能力是重要的,可能 AI 还不能完全做,不代表六个月之后不能。可能六个月之后你过来问我,我发现最后一个 AI 已经能干了,那就只剩下两个事;再过几个月,可能剩下两个也能干了,那可能我的回答就会变得更悲观。所以没有人能预计六个月之后发生什么,我只能说从现在的观点来说,刚过去的那个春节…… [00:50:07]
字节和豆包 [00:51:25]
张小珺:刚过去的那个春节,很多人关注的另外一件事情是 Seedance。Seedance 会让 Google 焦虑吗? [00:51:23]
姚顺宇:我觉得其实有可能有,但是这个焦虑的情绪目前还没有传导到我这儿。可能让 Google DeepMind 负责多模态生成的团队会有一些压力。但是如果你要问我的话,我可能不觉得他们有什么可焦虑的。我觉得并没有体现出什么范式上的改变,更多的是,字节不管是这个产品的效果,还是可能在数据之类的细节上,会做得非常非常好。我觉得确实是,字节过去在多模态生成一直以来都有比较强的优势,但是至少我个人没有体会到它是一个范式上的变化,那可能就不足以让大家非常焦虑,但是肯定是有压力。 [00:51:30]
张小珺:Seedance 它的产品能力来自于模型能力,还是产品能力? [00:52:28]
姚顺宇:我没在字节干过,所以我也不知道具体的细节。但是你要让我猜,我觉得可能模型还是占大头的。 [00:52:32]
张小珺:模型能力的好来自于什么?因为算法可能没有本质创新。 [00:52:42]
姚顺宇:我觉得算法,首先就是因为刚才多模态属于,咱们说的就是还属于科学问题。 [00:52:50]
张小珺:多模态的生成属于科学问题。 [00:52:58]
姚顺宇:对,多模态生成还属于一个比较科学的问题。 [00:52:59]
张小珺:多模态理解解决了吗? [00:53:00]
姚顺宇:比生成肯定是要有更系统的理解,但是比起 text token 来说,肯定范式还是没有那么固定。对。我觉得生成上可能就是,因为它是一个范式还没有固定的事,可能每家用的技术都会有一些大的或者小的区别。然后现在更多其实是能看到说,效果上来说,可能字节和 Google DeepMind 属于做得比较好,所以它可能也是来自于细节做得更好。对。你如果要让我猜,我会猜数据。 [00:53:05]
张小珺:数据。 [00:53:41]
姚顺宇:你要让我猜,我会猜数据。但是我也没在字节干过,所以也是我硬猜的。 [00:53:42]
张小珺:你怎么看从 Google 去字节的吴永辉? [00:53:50]
姚顺宇:我觉得很难评价永辉。我过去没有和永辉一起工作过,所以我其实真的不是很能给什么很好的评价、很客观的评价吧。但是我觉得我去了 Gemini 之后,看到的更多的是永辉好的一面。就是我通过偷偷去看他以前交过的代码,以及他带过的项目,我的感觉是,他是我见到的少数层级非常高、人也很 senior,但是还有很强技术能力的人。我觉得是非常非常少见。所以我觉得我可能还没到能够评价永辉的这个水平,但是要问我说的话,我觉得永辉是非常非常强的。 [00:53:55]
“硬蒸”和“聪明的蒸” [00:54:45]
张小珺:你说站在 2026 年的这个节点,拍一张快照,你觉得中美的模型能力差距是在放大还是缩小?差多远? [00:54:45]
姚顺宇:我觉得,如果现在拍一张快照去看过去一年,或者过去一年半的发展趋势,显然中美之间的 gap 是越变越小。但是最后这个 gap 会不会完全弥合,甚至中国超过去,我觉得是一个不清楚的问题。我觉得对中国的 AI 研究员、研究机构来说,也是一个机会。一个很真实的事就是,中国确实在实际的算力资源上占很大劣势,但是这个很大的劣势,可能反而逼出了一些有趣的事。比如说中国的模型公司,其实对 distillation,就是蒸馏别人,很在行。 [00:54:54]
张小珺:最近 Dario 不是点名了三家公司蒸馏它? [00:55:46]
姚顺宇:对。我觉得蒸馏这个事存在,是一个心照不宣的事实。但是蒸馏也有不同的方式,有硬蒸馏和聪明的蒸馏,两种不一样的选择。 [00:55:53]
张小珺:什么叫硬蒸馏? [00:56:13]
姚顺宇:硬蒸馏,最简单的例子就是,我从 Claude 里面取出一堆它生成的 token,然后强行在上面做训练。如果干这样的事,我就觉得,首先商业上不是很道德,然后智力上来说也比较愚蠢。因为干这个事的公司,本质上体现出来的一件事,就是它其实都不知道自己想干嘛。它能干的唯一一件事就是抄别人,然后让自己的模型在数据上能看起来好看一点。但这本来就说明,它自己都不知道该干嘛,这是硬蒸馏。但是蒸馏也有一些很有趣的科学问题。比如说,我是不是有一种可能,随便举个例子:有没有可能是,我自己生成数据的链条当中,用到了别的模型作为辅助;或者说,我自己模型生成的答案,用别的模型作为它的评价者。这个我觉得商业上来说是比较灰色的地带,但是从技术上来说其实很有意思。因为你想,从某种意义上来说,可能中国的实验室成为了做 multi-agent 训练的先驱,而且是真正的 multi-agent。因为它如果从不同家的模型里,用这种比较聪明的方案,把它们融会到一个训练系统里的话,每家模型可能分布很不一样,它的语言分布很不一样。这个是真正的 multi-agent,它可能比起比如说我用了好几个 Gemini 一块做,是一个更有趣的事。所以对我来说,聪明的蒸馏,我不知道这个商业上最后会不会变成一个很明确错、或者很明确对的事,但是技术上其实很有意思。 [00:56:17]
张小珺:你这两种蒸馏分别说的是谁?能不能后期把名字 beep 掉? [00:58:18]
姚顺宇:我首先没有在中国的 lab 干过,所以我不知道确切的事实。但是我的感觉就是,有些应该是硬蒸馏了,然后可能曾经硬蒸馏过,但是后来慢慢也在努力向软蒸馏的方向转化。我觉得比较明显,可能蒸馏比较少的是字节,我感觉到这个模型还是比较有特点。 [00:58:25]
张小珺:特点体现在哪里? [00:58:52]
姚顺宇:比如说这个模型,你说它有多聪明呢?我觉得豆包肯定没有 Gemini 和 Claude 聪明,但是豆包,首先比如说豆包的语音生成非常非常强。 [00:58:56]
张小珺:这个很难吗,在技术上?确实豆包是做得最好的。因为我发现我生活上的问题,我只想问豆包,因为它很快。但其他模型为什么不优化这个产品功能呢? [00:59:11]
姚顺宇:我觉得还是跟它的用户群体有关系。在美国,我觉得大家的想法更专注于怎么能够提高工作效率。 [00:59:20]
张小珺:你生活没有一些困惑吗? [00:59:36]
姚顺宇:我生活中有。首先我个人确实是一个生活上比较无聊的人,所以我生活中没有很多有趣的困惑可以去问豆包。我生活中更多的困惑都是技术上的困惑,问 Gemini 这种聪明的模型就是最好的。我没有什么半夜去打豆包情感电台的需求。 [00:59:38]
张小珺:不只是情感,就是很多。比如说你做饭,可能会遇到一个什么问题,你可能及时需要有人告诉你,但是你又不知道,没有这样的人。 [00:59:55]
姚顺宇:那些我觉得可能更多是数据上的问题。然后可能更多的只是说,美国公司现在主要的优先级是在智能或者工作效率上。未来有一天会不会变成这些日常的事情?我觉得是有可能的。事实情况是,你如果去问这种日常话题,其实你能发现 Gemini 每一代到另外一代,会做得也越来越好。所以我身边很多朋友,包括我自己以前也是,我以前在 Anthropic 的时候,可能写 code 会去问 Claude,但我可能日常查个什么东西,就会去问 Gemini。 [01:00:09]
张小珺:你用过豆包没有?我发现你们都不怎么用,是不是有鄙视链?有智力的鄙视链。 [01:00:43]
姚顺宇:没有没有,不至于。我觉得首先就是,跟在中国的人试图用美国的模型会有一些复杂的事一样,我在美国用中国的模型其实也是挺复杂的。第二,确实也没这个动机。尤其我可能生活中,工作是工作,休闲的时候就是找不一样的工作,所以对我来说,我的最好伙伴就是 Claude 和 Gemini。但是可能对别人来说并不是这样,所以也只是我个人的问题。我自己用豆包的那一两次,是因为有人给我展示豆包手机。 [01:00:55]
张小珺:那你怎么看豆包手机? [01:01:37]
姚顺宇:我觉得是一个很好的想法。我个人觉得效果上来说其实做得也不错。当然我不知道的是,技术上来说,它的优化做得有多好。就是说,我觉得它执行一些任务,从效果上来说是没什么问题的,但我不知道它会有多大消耗。如果这个消耗非常非常大,那可能是一个技术上需要解决的问题。因为你并不希望让你的模型去给你订了一张高铁票,结果花的钱比高铁票还贵,这肯定是一个不可以接受的事。所以可能技术上来说,我个人不清楚它有多成熟。然后我觉得产品上来说,对大家来说还是一个挺,不能说惊讶吧,但是让大家觉得挺兴奋的事。苹果以前可能也想干这样的事,其实苹果可能自家的模型一直不太行。 [01:01:41]
张小珺:苹果好像不甚在意它的 AI 战略,现在。 [01:02:36]
姚顺宇:我觉得苹果一定是在意 AI 战略的。因为曾经 Siri 这个手机助手,是苹果发布会里一个非常非常重要的闪光点,但是自己的模型没赶上趟,现在可能要通过和 ChatGPT 合作来试图做这样的事。至于现在它是不是重视,首先我也不知道。你要让我猜,我肯定觉得是重视。但你要让我解释,它为什么从外界来看没那么重视,我的唯一猜测就是:如果你外界来看就显得很重视,还做不成,那就显得很蠢。 [01:02:41]
张小珺:挽尊。 [01:03:17]
姚顺宇:对。 [01:03:19]
张小珺:我们说一下豆包的模型。你刚才说豆包模型比较有特色,具体一点。一个是语音做得很好,这是第一点。 [01:03:23]
姚顺宇:我觉得语音做得很好,是我能感觉到最有特色的事。我觉得语音这个效果可能是,客气地说,可能是全世界最好的之一;不客气地说,我觉得就是全世界最好的。 [01:03:29]
张小珺:这个很难吗? [01:03:44]
姚顺宇:我自己没做到那个地步过,所以我也不知道是不是难。但是我觉得可能是一个很费功夫的事,不管从数据上还是各种优化上来说。 [01:03:45]
张小珺:是个产品的事,还是个模型的事? [01:03:56]
姚顺宇:它一定会是模型的事,它有可能也包含一些产品的部分,但一定是一个模型的事。然后我觉得这是一方面。另一方面,我自己感受就不多了,因为我其实用的机会没那么多。那可能更多的是来自于亲朋好友的反馈,也就是说豆包这个模型就是 fun to talk,聊起来很有趣。但我觉得那个更多的是一些主观的反馈。 [01:03:56]
张小珺:我觉得它一个是语音,然后一个是它生成得很快,也是一个很重要的。因为很多模型都在给你展示思维链,但是生活上的琐事,我不想看它的思维链。 [01:04:23]
姚顺宇:对,这个事我觉得技术上并不难,只是可能大家目前还没有花更多时间在这上面。然后事实情况是,如果你去尝试 Gemini 3.1 和 Gemini 3 的话…… [01:04:35]
姚顺宇:Gemini 3.1 和 Gemini 3 的话,你会发现 Gemini 3.1 在完成同样一个问题的时候,已经会比以前快很多,然后废话少很多了。所以我觉得这个在我看来不是一个技术上的难点,它更多只是什么时候去重视、去做这个事。我觉得可能现在美国的这几家,还都处于在努力把智能的上限往前不断推进。而字节呢,当然它也肯定是在推进上限的,但是我觉得它可能在用户体验上也做得很不错。最近还有一个话题。 [01:04:45]
机器人 [01:05:22]
张小珺:最近还有一个话题,就是中国的机器人很火,在春晚上。我不知道你对这个有没有什么观察? [01:05:20]
姚顺宇:看过一些表演,也在亚马逊上搜过一些价格,确实很惊讶,它居然这么便宜。 [01:05:30]
张小珺:买了吗? [01:05:37]
姚顺宇:没买。我买了也没什么用。但是确实,我以前脑海里会觉得,这种人形机器人,当然软件层面其实没什么,但主要是硬件。我觉得硬件想做得这么成熟,可能怎么也得是个大几百万美金这样的。但是我去看了一下,好像价格比这要便宜很多。我觉得这还是体现出中国在硬件产业链上很有优势。作为一个机器人硬件来说,确实是非常非常强。然后从软件上来说,没太看明白。我觉得机器人的模型,目前也是一个分歧比较大的事情。 [01:05:39]
张小珺:怎么说? [01:06:22]
姚顺宇:我觉得机器人的模型可能更多处于 feature engineering 的时代。就是有一个给定的环境、给定的场景,你去优化这个场景,大家是知道怎么做的。 [01:06:24]
张小珺:做 RL 嘛? [01:06:40]
姚顺宇:做强化学习,构建合适的虚拟环境,或者虚拟的这种数据,然后你去做训练,是可以提高的。但是它没有很强的泛化性。我觉得有没有泛化性,其实是很多 AI 方向的一个分水岭。就是一个确定的场景,一个很单一的场景,能不能做好,这个事不是最近这几年才解决的,十几年前就能干。像语言也是,语言在基于 Transformer 这种类似架构之前的时代里,并不是说完全做不了。那时候你也可以训练很强的模型去做翻译,也可以训练很强的能力去做语义分析。但是你不能做的事,是我可以水平地提高所有能力,这个我觉得是一个分水岭。然后我觉得 language model 在 Transformer 和 GPT 之后,跨过了那样一个阶段,就是可以水平地提高所有能力。你可能在一个点上的训练,它会把这样的能力抽象地泛化到所有相关的事情上。但是机器人我觉得没到那个阶段,更多的还是在那个阶段之前:我有一个单一的场景、单一的事情,然后我能够为这个事情去做优化。 [01:06:41]
张小珺:所以你怎么看硅谷的这些机器人团队,还包括 Gemini 内部,也有很多机器人的人。你会怎么看那个方向?这算什么,是你们子方向,还是你们的平行方向,还是别的什么? [01:08:03]
姚顺宇:我觉得过去是一个挺平行的方向。但是现在机器人,大家也在尝试能不能利用语言模型作为一个基底模型,然后在那个上面去训练,比如像 VLA 这种类似的。 [01:08:18]
张小珺:特别是多模态模型。 [01:08:32]
姚顺宇:对对对。所以现在来说,变成了和语言模型这条线比较相关的一条线。我个人的感觉是,它们未来会变得很重要,但是目前还没有找到自己的路。但是它们做的事真的很有意思。我非常推荐大家去看看机器人的实验室,比做语言模型的实验室要有趣得多。做语言模型的实验室感觉就是正常的办公室,但机器人那边是真的会有人去操控机器人,采集各种数据,然后去看这个机器人在货架里取不同的货品之类的各种事情。我觉得是很有意思的一件事。 [01:08:34]
张小珺:你去的是哪家? [01:09:17]
姚顺宇:我在 Gemini 自己的实验室,不是 Gemini,就是 Google DeepMind 自己的实验室去看过。然后还有 Dyna,我也去看过。 [01:09:18]
张小珺:他们是一个叠衣服的机器人? [01:09:29]
姚顺宇:对,他们可能场景更单一一点,就是我叠衣服。我是一个机器人,可能做一些别的事情,比如说倒个水之类的。 [01:09:30]
张小珺:你直观感觉机器人进展,相当于大语言模型的哪一年? [01:09:39]
姚顺宇:还没有到 GPT-1 的时刻。一定没到,我觉得一定是没到。 [01:09:42]
张小珺:对,就是相当于大家还没有想明白怎么去 scale up。 [01:09:47]
姚顺宇:我觉得对我来说,不管机器人还是多模态生成,都没到这个点。 [01:09:53]
在Underdog之地赌一把 [01:10:00]
张小珺:都没到这个点。那接下来进入今天的主题。我们还是对你非常感兴趣,聊一聊你是怎么从一个学物理的人进入 AI 世界的。你从小在哪儿长大?你是怎么长大的? [01:09:57]
姚顺宇:我出生在宁夏,一个很小很小的城市,叫大武口。看,你这困惑的表情,说明了这个城市有多小。这个城市过去的存在是因为一个煤矿,因为石炭井的一个煤矿,然后有了这样一个城市。所以我在那儿出生。但是我小学的时候,跟我父母一块去了上海,所以我小学的后半段和初中、高中是在上海。然后我上本科就去了北京,就是刚才所说的那些:本科在北京,然后博士在美国。 [01:10:14]
张小珺:你从小成绩就很好是吗?你是物理竞赛保送,然后在清华和斯坦福读的是理论物理,对? [01:10:48]
姚顺宇:对。我不是物理竞赛保送的。我觉得我小时候挺菜的。首先,我读的初中和小学都是无名之辈。我当时读的初中,好像竞赛不是一个你该考虑的事,就处于这么一个初中里。那个叫上南中学东校,又是一个大家听了很困惑、一头雾水的学校。 [01:10:53]
张小珺:既然都说到这儿了,那小学是哪个小学? [01:11:25]
姚顺宇:小学叫啥来着?我的 context manager 能力太差了,我已经不记得叫什么了,其实。 [01:11:28]
张小珺:可以。 [01:11:35]
姚顺宇:对,然后那个初中,就是一个班里面、一个小环境里,还是有一些想要好好干事的同学的。但是总体来说,那个初中我觉得是比较躺平的状态。然后我可能学习还可以。 [01:11:37]
张小珺:还可以是什么? [01:11:56]
姚顺宇:还可以就是,当时上海高中有所谓的四校,就是什么上海中学、华二、交大附中和复旦附中。当时的状态就是,能上这四个学校,但上不了这四个学校里最好的班。但是我当时特别想搞竞赛,因为以前都没搞过竞赛。 [01:11:58]
张小珺:你初中开始搞竞赛? [01:12:17]
姚顺宇:我初中没搞,我初中没搞过竞赛。 [01:12:19]
张小珺:你没搞过竞赛,为什么想搞竞赛? [01:12:21]
姚顺宇:因为没搞过,所以想搞。 [01:12:23]
张小珺:怎么植入了这个概念? [01:12:25]
姚顺宇:我这个人的个性就是,总是爱干一些自己不太会的事。然后当时没搞过竞赛,但是知道有这么回事,所以觉得上大学之前得干一把。但是成绩也没好到那个份上,所以去四校,就是最好的那四个学校,是进不了搞竞赛那个班的。我当时就发现,有一个稍微差点的学校,格致中学,那个学校有一个竞赛班。我感觉这个竞赛班,按照现在的话说就是 underdog。 [01:12:27]
张小珺:厉害。 [01:13:09]
姚顺宇:用当时的话说,我感觉就是光脚的不怕穿鞋的。我觉得可以一搞。所以其实当时上海还有所谓的推优生制度,就是你可以在考试前,去和某一个学校签约,相当于提前预定了那个学校的名额,然后就直接去他们那儿,然后很自然就去了,去搞了竞赛高中。 [01:13:13]
张小珺:所以你其实是在上海四校的普通班,和格致中学的竞赛班里面,义无反顾地选了格致中学的竞赛班。 [01:13:40]
姚顺宇:当然我也不能说,我做选择的时候,上最好的四个高中是那么板上钉钉的事,虽然后来的分确实够了。 [01:13:48]
张小珺:你还没有中考? [01:13:57]
姚顺宇:还没中考,对。但是当时就觉得,就算能上,我也应该去一个 underdog 的地方赌一把。 [01:13:58]
张小珺:为什么? [01:14:05]
姚顺宇:因为想干这个事。 [01:14:07]
张小珺:你想干竞赛的目的是什么? [01:14:10]
姚顺宇:我觉得当时最主要的事是想体验。我觉得没干过,一定要找机会干一下。 [01:14:12]
张小珺:为什么一定要干一下这个? [01:14:18]
姚顺宇:第一就是觉得它确实难吧。有一种对难的兴奋感。至少当时没搞的时候,大家给我的印象就是,这个事比你不搞竞赛学的那些东西要有挑战性得多。感觉干这个事确实强;不干,你也就只是平庸石头里最光滑的那一个。所以我当时觉得要干,就去干了。当然干了之后,实际上也带来一些好处。我后来回想起来,如果当时没去搞竞赛,可能就进不了清华了。 [01:14:20]
张小珺:你是有加分还是什么? [01:14:56]
姚顺宇:当时竞赛的保送生制度已经大幅收紧了,只有进国家集训队才能保送。反正我觉得我当时没有进国家集训队的水平,所以就别说了。但是我在高三考竞赛之前,阴差阳错地去清华参加了一个夏令营,然后阴差阳错地在夏令营的最后一天,听说了他们在搞自主招生,但是主要是面向北京的学生。我就疯狂给招生办的老师发短信,说我要跟他们一块考。他答应了,然后就答应了我们去考。 [01:14:58]
张小珺:你们,还是你? [01:15:38]
姚顺宇:就是答应了我们高中一块去的那几个人去考,就是上海去夏令营的那几个高中同学去考。 [01:15:42]
张小珺:你有什么理由说服他?你给他发短信。 [01:15:47]
姚顺宇:我已经忘了这个短信具体怎么说了,但这个短信大概说的意思就是:你给北京的同学考,为什么不给上海的考? [01:15:50]
张小珺:理直气壮。你当然觉得他们开后门是吗? [01:15:56]
姚顺宇:我也不是觉得他们开后门,就是觉得人家有这个机会,凭什么不给我们?大家都在一条线上竞争嘛。所以就发了这个信息,然后人家就真让我们去考了。 [01:16:02]
张小珺:几个人? [01:16:13]
姚顺宇:我就不太清楚,上海去那个考场里可能有七八个人的样子。 [01:16:15]
张小珺:是你发的那个短信? [01:16:20]
姚顺宇:可能别的高中也有别的同学发,但我们高中是我发的。都是上海高中去北京参加那个夏令营的同学。 [01:16:21]
张小珺:参加夏令营的同学? [01:16:32]
姚顺宇:参加夏令营的同学,对。然后就这么一考,然后就签了。 [01:16:33]
张小珺:这么好说话? [01:16:39]
姚顺宇:对。所以我从那件事得到的人生最重要的道理,就是胆子要大。你不争取是永远得不到的。争取了也有可能得不到,但不争取就绝对得不到。 [01:16:40]
张小珺:你当时发那个短信的时候忐忑吗?你当时还高中。 [01:16:56]
姚顺宇:我已经不记得了。 [01:17:00]
张小珺:当时觉得自己这是个很大胆的事吗,还是还好? [01:17:03]
姚顺宇:我当时满脑子想的都是:现在就得争取,再不争取明天就争取不到。就是我在听说的那天,就赶紧去疯狂发短信。 [01:17:06]
张小珺:疯狂发,给谁发? [01:17:16]
姚顺宇:发给招生办的,清华招生办的老师。 [01:17:17]
张小珺:就发给了一个人,还是多个人? [01:17:20]
姚顺宇:不记得了,应该是一个老师。 [01:17:22]
张小珺:他很快回了吗? [01:17:24]
姚顺宇:我觉得清华就 say yes 了。我不知道他们自己有没有讨论,但是反正最后就说了同意,那就一起考试了。所以我一直对清华还是挺有感情的,我感觉这个学校是愿意给大家提供机会、给大家提供平等机会的。 [01:17:25]
张小珺:那个考试考得怎么样? [01:17:47]
姚顺宇:我当时出来的时候觉得考挺崩的,因为有半道题没做出来。但是我后来发现别人没做出来更多,所以果然就招了。 [01:17:50]
张小珺:你们那一拨上海同学进了几个? [01:17:59]
姚顺宇:好像两个。 [01:18:05]
张小珺:自主招生是降分还是什么? [01:18:08]
姚顺宇:是降到一本线。 [01:18:09]
张小珺:降到一本线。后来你高考考得好吗? [01:18:10]
姚顺宇:后来高考果然没考到清华的分,但是除了清北之外的学校都能上。 [01:18:16]
张小珺:所以为什么网上都说你是保送的? [01:18:23]
姚顺宇:我觉得大家没在那几年上过学的人,很难理解清楚那几年到底发生了什么。因为在我的两届之前,还是拿了省一等奖就能保送的。 [01:18:27]
张小珺:拿了省一等奖就能保送? [01:18:41]
姚顺宇:就能保送。 [01:18:43]
张小珺:你们那时候呢? [01:18:45]
姚顺宇:我们那时候就是拿了省一等奖,进了省队,然后再代表省队去考国家的比赛,进了国家集训队才能保送。我是进了省队,去考了国家比赛,但我没考进国家集训队。所以我那届我是没有保送名额的。 [01:18:45]
张小珺:你搞竞赛搞得好吗? [01:19:01]
姚顺宇:我觉得挺菜的。难道不是没有干到最好就是很菜吗?然后我显然没有干到最好,所以就是很菜。 [01:19:04]
张小珺:你家里人对你搞竞赛这个事情是什么态度? [01:19:10]
姚顺宇:我觉得我爸妈最好的一点就是,他们不太管我。他们可能曾经也试图管过我,后来发现管不住。 [01:19:19]
张小珺:怎么管不住? [01:19:26]
姚顺宇:就是我也不听他们的。我觉得可能大多数中国家庭都是,孩子和父母商量,已经算是很好的了;我一般都是通知。 [01:19:27]
张小珺:通知了啥? [01:19:39]
姚顺宇:通知我去自主招生了。然后包括中考、高考填志愿也是,我爸妈甚至可能都没见过我的志愿单。 [01:19:41]
张小珺:他们比较服你是吗? [01:19:55]
姚顺宇:他们……我觉得就是,当你没有办法理解…… [01:19:57]
姚顺宇:当你没有办法理解别人在干什么的时候,别指手画脚就是最好的。我觉得我爸爸这个道理懂得很好。 [01:20:00]
张小珺:那你是比较叛逆,是吗? [01:20:08]
姚顺宇:我觉得我是比较叛逆的。因为我的个性是,我很 care 我想做的事。如果这件事是我自己想明白了要去做,那就是别拦我,然后我也一定会尽最大能力做到最好。但如果这个事我不想干,逼我干也没用,我也不会干。 [01:20:13]
张小珺:你的胜负欲强吗? [01:20:38]
姚顺宇:挺强的,对。但我觉得我更多是在跟自己较劲吧,不太愿意和别人较劲。当然,如果正好是我觉得这事很重要,你也觉得这事很重要,那我肯定是干得比你好。 [01:20:39]
非厄米系统与量子物理 [01:20:59]
张小珺:那你到了清华就更神了,去学了量子物理,为啥呀? [01:20:59]
姚顺宇:对,我当时做了凝聚态理论。为什么选这个专业?阴差阳错。现在回过头来说,当然能编造出一些听起来很合理的理由,但是摸着良心回到当初,我觉得就是阴差阳错。 [01:21:04]
姚顺宇:当时我们在基科班,然后基科班有一个非常好的传统。首先,基科班虽然在物理系,但它不限制学生干什么,所以基科班实际上三分之二的学生都不会做物理。 [01:21:22]
张小珺:那你为什么会进这个班? [01:21:36]
姚顺宇:当时清华的物理系全都是基科班,现在可能不是了,但是当时是。然后它另外一个好的传统,是鼓励学生在实践中学习,所以它鼓励学生尽早进到科研的实验室里去,在科研中学习。然后我当时很想做理论。 [01:21:38]
张小珺:是有觉得这个难吗?感觉你对“难”有一种着迷。 [01:21:58]
姚顺宇:可能也是一种病。之后可以再讲讲这个病带来的不良后果是什么。对,然后我想搞理论。 [01:22:02]
姚顺宇:当然基科班,或者说我们学堂班有一个更小一点的班,老师就推荐说,高等研究院是个很好的地方。清华高等研究院,就是杨振宁先生创立的那个研究院,是个很好的地方,然后我就去那儿找老师。 [01:22:15]
姚顺宇:正好有一个那时候还很年轻的老师,叫王中,是我本科的老师。那时候他也没几个学生,然后我也就聊。我当然啥也不懂,但他还挺耐心,还给了我一些 paper 让我去读,读完我就跟他讨论。 [01:22:30]
姚顺宇:后来又发现,凝聚态理论,尤其当时做的方向,就是跟拓扑绝缘体这些比较相关的方向,其实是一个很适合本科生上手的方向。它需要的背景知识不太多,只需要你懂最最基本的,量子力学、统计力学、固体物理,就是非常非常容易学的基础知识。但是它可能很考验你对这些知识理解的深度。所以对于本科生来说,其实是一个特别特别好的方向,你能够很快上手,去做一些实际的项目。 [01:22:49]
姚顺宇:然后我们就一块做了一些工作,其中有一个在开放量子体系里的工作,现在看来还是一个挺重要的工作。 [01:23:28]
姚顺宇:从某种意义上来说,现在回头来看,做那个工作、做那段时间的科研,其实和现在做的特别特别像。它更多的是,你有一个想法,有一个理解,然后在那个阶段,你可以做一个数值实验,去验证你的想法和理解是不是对的。你发现 AI research 其实也是这样:你有一个想法,有一个理解,你去设计一些实验,验证你的理解是不是对的,然后设计一些模型训练的 pipeline,来把你的想法实施出来。所以其实这两个是很像的。 [01:23:36]
张小珺:你能不能讲一下你这个非厄米系统的研究? [01:24:15]
姚顺宇:可以讲。我尽量说人话,但是也有可能实际上说了鬼话,所以要是不想听的人可以跳过。 [01:24:20]
张小珺:划一下进度条,到时候可以在进度条前设置一个标注。 [01:24:30]
姚顺宇:非厄米系统是这样,量子力学一个最基本的假设,是一个孤立系统,它的演化被幺正演化所描述。幺正演化是个鬼话,对不起。幺正演化的意思就是,它是一个线性的过程,然后这个线性过程可以被一个算子,叫做哈密顿量,来描述。哈密顿量从某种意义上来说,有点像这个体系的能量,但不完全是,只是有点类似。所以它决定了这个体系随着时间的演化。 [01:24:35]
姚顺宇:如果是一个孤立系统的话,这个哈密顿量会是一个厄米的矩阵。厄米的矩阵就是你转置一下,然后做一下共轭,它和原来是一样的。 [01:25:10]
姚顺宇:但是,真实系统绝大多数都不是孤立系统。比如说,你我作为人,肯定要和外界有信息交互,有物质的交互。材料也不一样,你一块材料放在那儿,除非你抽特别特别真空,你总得和衬底有交互,你得和外界环境有交换。所以真实体系绝大多数时候都不是孤立系统。 [01:25:18]
姚顺宇:非孤立系统就不会被一个幺正的过程去描述,然后它所对应的哈密顿量也不会是一个厄米的哈密顿量。这就是“非厄米”这个词的来源。它本质上是为了研究开放量子系统,就是和外界有交换的量子系统,它的行为。 [01:25:40]
姚顺宇:当时发现一个很困惑的事,是我们一开始试图研究开放量子系统里的这些拓扑现象,然后就发现手算出来的理论结果和数值死活也对不上。更确切地说,手算这个结果是假设了这个体系是一个周期的边界条件,比如它在一个环上,或者在一个轮胎的表面上;数值的话,因为和实际情况比较类似,会算一个开放边界的,就是一个方块这个材料上的行为。就发现这两个结果死活也对不上,然后就试图理解这个事。 [01:25:57]
姚顺宇:后来就发现,大家过去用来描述厄米系统的一个基本范式,就是所谓的布洛赫波。它假设物体的本征态都是一些波的线性组合,对不起,是一些正弦余弦波这种波的线性组合。这个假设在非厄米系统里面会 break down,就是会变成错的。实际情况就是,后来我们发现在非厄米系统里,它的能量本征态都有可能会聚集到这个体系的一边去。 [01:26:32]
姚顺宇:然后我们就系统地建立了这套描述方法,建立一套体系,去描述一个开放边界的非厄米系统,它的本征态该怎么去描述,进而描述它的一些随时间的演化和动力学。所以这个是当时这份工作。后来就有很多,因为它其实是一个范式上的东西,所以后来有很多 follow-up 的工作。但是后来我换方向了,所以就没有太在这个方向继续做了。 [01:27:08]
张小珺:你为什么不接着做?很难抓住一次范式的变化呢,是不是? [01:27:39]
姚顺宇:很难抓住一次范式的变化,是的。是呢,这就是人性的弱点。 [01:27:45]
姚顺宇:我感觉我总爱挑战一些自己不会的事。尤其当时,我不知道,我当时的感觉是,在那个方向,可能那个工作再过几年回头来看,就会是这个方向最重要的工作。后面你再去做一些工作,可能确实会让你更有名,获得更多的引用,写更多好的期刊文章,找到一个好的教职。 [01:27:52]
姚顺宇:但是感觉作为一个科学家来说,就没那么令人激动了。所以我当时就想换个东西做,换一个自己不太会的东西做。 [01:28:16]
姚顺宇:所以读博士的时候,就换了一个方向,去做高能理论。 [01:28:25]
张小珺:高能理论? [01:28:29]
姚顺宇:对,高能理论物理。 [01:28:30]
张小珺:所以你本科和博士也是不一样的。还不是从物理跳到 AI,其实你本科和博士看起来都是物理,其实方向也已经发生了很大的变化。 [01:28:34]
姚顺宇:对,是两个几乎没有任何联系的方向。 [01:28:41]
张小珺:你这个很神奇。还包括你选竞赛,去格致中学也很神奇。对,这是你的什么人性? [01:28:45]
姚顺宇:我觉得,说难听了就是爱折磨自己,说好听的是挑战自己。 [01:28:54]
张小珺:被折磨开心吗? [01:29:05]
姚顺宇:我觉得如果为了被折磨而被折磨,那这个人就是有心理疾病。但是如果一个人是为了学习更多的东西,丰富自己的经历和能力而被折磨,我觉得是值得的。 [01:29:07]
张小珺:你本科那个老师,王中老师,也是个 underdog 是吧?算吗? [01:29:21]
姚顺宇:不算。人家做得挺好的,怎么可以这样说? [01:29:24]
张小珺:在那个时候。你刚刚说他还是很年轻嘛。 [01:29:28]
姚顺宇:他很年轻,但是我对他的印象一直都是,他是一个很 sharp 的人,就是很能看问题、试图理解问题,而且理解很清楚的人。 [01:29:30]
姚顺宇:确实,可能不像很多老师那样很有名气,在社会上,或者很光彩夺目。至少那时候不是,现在已经很有名气了。那时候还没有那么有名气。但是我觉得从能力上来说,他是很强的。 [01:29:41]
姚顺宇:其实他一开始读博士的时候,是和张首晟老师学习。所以说,能被首晟老师挑中的人,基本都不会太差。 [01:29:59]
张小珺:他对于你博士换方向,说过什么吗? [01:30:14]
姚顺宇:没说过什么。我觉得他是一个不爱干涉别人的人。我不知道他内心是怎么想的,但是我觉得他是一个不爱干涉别人的人。 [01:30:16]
张小珺:量子物理整个是一个什么样的世界观? [01:30:35]
姚顺宇:我觉得最大的区别就是,和经典物理有很多很多不一样的地方。但是我觉得它们俩是一个对应的概念,经典物理和量子物理,它俩是一个在不同能量、时间或者空间尺度下的理论。就是说,本质上我们这个世界都是量子的。当然,我们现在也不知道…… [01:30:40]
姚顺宇:当然,我们现在也不知道在比这更小的尺度上会是什么。更小尺度上有很多不一样的想法,比如说弦论是一个想法,然后可能还有其他想法,圈量子引力也是个想法之类的。但那些都没有办法验证。被验证的小尺度上的有效理论,就是量子物理。 [01:30:59]
张小珺:最小的尺寸? [01:31:14]
姚顺宇:对,就是被实验上能够验证的最小尺寸的有效理论,就是量子。当然这里面包括量子力学和量子场论。然后经典物理是当你所看的空间尺度比较大的时候,量子物理会慢慢退化成经典物理,所以说它更多是在不同尺度下的不同有效理论。 [01:31:16]
姚顺宇:这个事其实在物理上是一个很深刻的想法,就是所谓的重整化群。重整化群说的事,就是描述一个体系的理论,在不同的能量尺度下可能看起来是完全不一样的。哪怕它们可能从根源上来说都是一个大一统理论,当然现在没有什么真正的大一统理论了,如果存在的话,哪怕它们在根源上是同一个根,但是它们在不同尺度上可能看起来也是完全不一样。所以经典物理和量子物理,更多是两个不同尺度下的描述。 [01:31:39]
张小珺:讲到量子物理,有几个词好像是相关的,比如说蝴蝶效应,比如说量子纠缠,能不能讲讲这些?我觉得这个可能是大家能听得懂的。然后我也不懂物理,大家不要骂我,我也不懂量子物理。 [01:32:16]
姚顺宇:对,我觉得量子纠缠确实是一个大家比较耳熟能详的、量子物理比较独特的事情。很简单地说,我有两个粒子,比如说它们属于一个纠缠态,它们实际上相隔很远,但我可能对其中一个做一些测量或者微扰,它也会影响到另外一个的状态。 [01:32:32]
张小珺:这个是真实存在的? [01:32:50]
姚顺宇:真实存在的,对。 [01:32:51]
张小珺:什么样的会有量子纠缠?什么样两个物体? [01:32:54]
姚顺宇:有很多实际的情况。实际上,当你看得足够足够细、足够足够微观的时候,绝大多数的粒子可能都处于纠缠态。但是实际上来说,你可以比如说制造一个自旋和另外一个自旋,先把它俩靠在一块,然后把它们制备到一个纠缠态上。然后你可以把其中一个拉得很远,它俩就成了一个距离很远的纠缠态。甚至好像我记得几年以前,还有人专门去做,就是把一个细菌和一个什么东西置备在一个量子纠缠态里。 [01:32:56]
张小珺:什么叫置备在一个量子纠缠态里?这个是可以人为操作的? [01:33:32]
姚顺宇:这是可以人为操作的。 [01:33:38]
张小珺:为什么?怎么操作? [01:33:40]
姚顺宇:一般来说,就是通过一些测量和演化算符的作用,能够把它置备到这个状态上。但是这里面难的其实是,实验上怎么实现这个过程。你可以想象,你做一些量子测量和一些所谓的量子门操作,其实是比较难的。因为又回到刚才那种,就是每一个体系其实都不是孤立的。你可能这两个自旋,你觉得我这么准备一下,它不就到纠缠态了吗?那我再把它拉开不就完了?但是实际的问题是,这两个粒子其实活在我们这个世界里,会不断有别的粒子撞它一下,或者外面的热量干扰它一下,它这个状态一下就没有了。所以难的是怎么具体在实验上去实施这个过程。 [01:33:41]
姚顺宇:然后纠缠的另外一个例子,可能更耳熟能详,我其实应该提那个例子,就是薛定谔的猫。 [01:34:24]
张小珺:薛定谔的猫。 [01:34:31]
姚顺宇:对,那就是一个更耳熟能详的例子。就是说它的状态其实是叠加了某一个放射源发出粒子、猫死了,这是一个状态;另外一个状态是放射源没有发出粒子、猫活着。这两个东西的叠加状态。其实比如说你去测量一下放射源,发现放射源放出粒子,你就知道猫死了,不管这猫和放射源离多远。所以这是纠缠。 [01:34:32]
姚顺宇:但是蝴蝶效应是另外的事。蝴蝶效应这个事,大家耳熟能详的部分其实反而是经典物理。大家在经典物理里听到的蝴蝶效应,就是那个著名例子:可能南美洲一个蝴蝶扑了一下翅膀,半个月之后北美洲刮了个台风。但是它从更数学的表述来说,就是在时间起始的时候,你如果做一个很小的扰动,然后去测量这个扰动产生的影响在未来有多大,你会发现这个扰动的变化是指数级变大的。这是数学上对经典蝴蝶效应的一个描述。 [01:35:02]
姚顺宇:但是之前大家比较费解的一件事,就是这个事情在量子体系里怎么可能存在。因为量子体系刚刚说了,孤立量子体系是一个幺正演化,它是一个很线性的过程。所以说从某种意义上来说,如果一个状态是一个矢量,和另外一个矢量开始的时候夹角不太大,那经过一些演化之后,这个夹角应该不会变。所以怎么会存在这种初始状态差别很小、在未来变得指数级变大的情况?好像在量子力学上看,是不太可能实现的事。但刚刚又说了,其实我们的世界在微观是量子,然后在宏观就变成经典了,那它俩一脉相承,怎么可能这有那没有?这是大家试图理解的事。当然后来大家就有一些更好的理解,就是说其实你讨论量子里的蝴蝶效应时,不应该讨论两个态之间的变化,而是应该讨论一些所谓的 local observable,就是局域的观测量的变化。那个其实是对应了经典物理里你看到的那些变化。 [01:35:48]
张小珺:那你读了四年的物理以后,你当时在想什么?你觉得物理对你的帮助是什么,在你大四要毕业的时候? [01:36:52]
姚顺宇:我觉得本科期间读物理最大的帮助就是,第一,想问题要想清楚。读书不在于读得多,而在于读得深。你读得多,不代表你能够发现新的东西;但如果你对一件事有和别人不一样的见解,那个才是对这个社会来说更有价值的事。这是一件事。然后另外一件事就是,别太相信理论,别太相信纯理论。为什么得出这个结论?因为当时那个事发现的主要原因,还是因为能做数值。一开始是因为数值和理论对不上,才仔细地研究那个问题,然后发现了这个事。 [01:37:00]
张小珺:那你博士为什么去读了…… [01:37:40]
高能物理 [01:37:42]
张小珺:那你博士为什么去读了高能物理?也是一个理论? [01:37:40]
姚顺宇:对,就回到了刚才这个话题:总爱挑战很难的事,有时候也是会带来一些不好的结果的。 [01:37:44]
张小珺:什么不好的结果? [01:37:52]
姚顺宇:比如我就感觉,我这个博士对我自己来说,学到很多东西,成长很大;但是于这个世界来说,没有产生什么贡献。高能理论这个方向就是足够难,非常非常难。但它不好的事情在于,它其实不是特别可以验证,没有什么客观的评价标准。因为高能理论已经发展到了实验完全追不上的阶段,实验完全追不上你在理论里讨论的那些,不管是能量尺度,还是这种微观尺度。 [01:37:54]
张小珺:所以说,它是怎么进步的呀?它的进步依赖于什么呀,如果不是实验? [01:38:34]
姚顺宇:一个进步的来源,是来自于数学上的自洽性。比如说你提出一个框架来描述这些事情,那你能和现有的、已经被验证的、更低能标下的理论相自洽。比如你研究弦论,可能自然大家问的就是,弦论能不能在低能的情况下回到量子场论,再接下来回到经典物理。这个自洽性是一个判定方法,我觉得这是很合理的,是很科学的一件事。当然也有一些不科学的因素:当这个领域完全没有实验、没有客观标准的时候,肯定不会只有一个框架出现,肯定不会只有一个自洽的框架出现。这个时候谁做得好、谁做得不好,其实就依赖于领域里那些老登的主观判断。 [01:38:38]
张小珺:你是被谁伤害了是吗? [01:39:33]
姚顺宇:我也没有被谁伤害。只是我在那个领域待时间越长,就越觉得这件事蠢。人这一辈子也没多长,为什么要把自己的时间浪费在伺候老登身上?所以感觉是,花了五年,学了很多知识,买了一个大教训。 [01:39:36]
张小珺:这个教训是? [01:40:03]
姚顺宇:这个大教训就是,要做有比较客观评价标准的事。或者从另一个角度来说,就是要做对这个世界能够产生影响的事。 [01:40:05]
张小珺:所以其实你本科还是比较顺利的,对吧?在量子物理这个研究领域,你很快就有了非常好的学术成果,而且是范式的变化。但是你很快觉得没有新意了,所以你想到博士去挑战一个更难的事情。然后在博士期间,其实是比较落寞的,至少从结果来说是这样的。外界看不出来,外界看都是非常光鲜的履历,博士在 Stanford。 [01:40:23]
姚顺宇:对。我觉得从实际的科研产出来说,没有人会说我博士期间的文章不好。但是摸着良心说,对这个世界有多大的影响,我觉得几乎没有影响,几乎为零。所以对我自己来说,我自己很不满意。但是确实也没有不满意到说,我会担心有人说我在混日子,确实也没在混日子。 [01:40:45]
张小珺:就是你还是能达到所有的外界标准的。这是怎么做到的呢? [01:41:15]
姚顺宇:我觉得这个还真的是很多事情冷暖自知。达到外界标准,或者达到一个小圈子的评价标准,是像训练模型一样:一旦有了这么一个小圈子,你知道他们的评价标准之后,做得好是很容易的。其实你哪怕不认可这个标准,也是可以达到的,但是你还是知道你是不认可的。有时候哪怕不认可,达到了,我也可以蒙蔽自己,继续往前走。但我后来发现我蒙蔽不了自己,骗不了自己。 [01:41:18]
张小珺:是哪一年发现的? [01:41:54]
姚顺宇:我觉得可能从博士最后两年吧,就会有这样的感觉。但是那时候确实也没有想好、没有想清楚,如果不做这个该去做什么。可能就花一些时间去了解一些不一样的方向。比如一开始,我可能更多的是去了解量子计算或者量子信息这样的方向。然后拿了 postdoc offer,就是博后的 offer 之后,感觉这个事更紧急了。因为在学校里的时候,你还可以有一个学生的心态;离开学校之后,就是自己的 career,你得给自己找一条路。当时就是觉得,可能量子计算和 AI,是两条我觉得给年轻人、给小登的机会比较多的。 [01:41:56]
张小珺:所以你博士后的方向是啥? [01:42:51]
姚顺宇:博后没有方向。博后其实就是理论物理这个方向,但博后是一个很独立的职位,就是你自己想干啥干啥。它更多的是,从某种意义上来说,有点像搞慈善。 [01:42:52]
张小珺:谁搞慈善啊? [01:43:05]
姚顺宇:就是有一些可能,不管是支持科研的国家组织,还是个人组织,他会给学校捐一笔钱,或者给学校批一笔钱。然后学校用这笔钱来招一些博士后,在一个系里面去做他的研究,然后把自己的研究广泛地告诉系里的别的人。我觉得它更多的是一种社会氛围上的工作。所以其实没什么限制,你想干什么就干什么。但是我其实也没做多长时间的博后,实际可能到伯克利待了两三个月;但官方来说,就只待了两个星期。 [01:43:05]
张小珺:官方来说是什么? [01:43:43]
姚顺宇:就是我其实在入职之前已经去那儿了,因为我反正人就在湾区,入职之前就去那儿;但是入职之后,其实只待了两个星期就辞职了。 [01:43:44]
张小珺:这两个星期发生了什么? [01:43:53]
姚顺宇:这两个星期啥也没发生。我本来都不准备入职的,但是伯克利人就是太好,说没事,等事情定了再说,能来多久就来多久。 [01:43:54]
张小珺:你告诉他们,你其实在跟 Anthropic 谈? [01:44:03]
姚顺宇:对,我告诉他们,其实我觉得我可能会去做 AI 了,要不就别入职了。但是伯克利,不是伯克利,我觉得就是湾区这两个学校的老师都人很好,很照顾你。他就觉得,你还没有完全谈定,那还是先把现在的工作先拿着。 [01:44:05]
物理与AI [01:44:24]
张小珺:你觉得物理对你后来做 AI 有什么帮助吗? [01:44:23]
姚顺宇:我觉得硬实力上其实没什么帮助。从工具性的技能上来说,其实从物理到 AI 的转化是非常非常少的。但是非要问的话,我觉得主要的不能说是能力吧,就是性格。可能做物理的人会更想刨根问底,更想理解一个事,然后更想做事很系统。因为我们习惯了很系统性地,不管是做实验的方式,还是做理论的方式。所以我觉得这个可能是一个比较好的地方。但我也不觉得这个事是做物理的人独特的,为什么做计算机的人没有这个特性?我认识很多做计算机的人也有这个特性,很多学化学的人也有这个特性,学生物的也有这个特性,所以我也不觉得它是做物理独特的。 [01:44:26]
张小珺:但是事实上,可能比较有趣的是,这个领域里面确实有很多,尤其是语言模型这种比较 large scale 的 AI,确实有很多物理出身的人,而且做得很成功,尤其是在 Anthropic 这个公司。因为很多人在描述这一代 AI 的时候都会说是黑盒,你能用科学的角度来理解一下这个黑盒吗?人工智能的运行原理。 [01:45:21]
姚顺宇:我觉得这世界上所有东西都是黑盒。哪怕像物理这种大家觉得很理解的东西,其实也并不是真的有一个从它微观的行为一路演化到了宏观体现的这种理解。像不管是刚才说的量子力学,还有量子场论,其实都是描述那个能标下的行为。本质上这个系统还是一个黑盒,你还是不知道它最微观的地方是什么样的动力学。AI 也是一样,黑盒不黑盒其实都是一个相对的事。我们确实对语言模型没有理解到神经科学手术刀级别,不是说我理解这个行为,能理解到这个行为是由于哪一个人工神经元的哪一个激活产生的,没有,没有到这个层面理解。除非是在一些很稀疏、很小的网络里面,像 Anthropic 有所谓的 interpretability,就是可解释性团队,他们可能会做一些类似的工作。但是在实际能够使用的语言模型里,都没有达到这样的理解。但是也不代表我们完全没有理解。比如说 Scaling Law,它就是描述了那个尺度下,模型随着模型大小和数据,是怎么在 Perplexity 这个指标下变得越来越好。所以你说是完全没有理解吗?如果说 Scaling Law 不算是理解的一个小部分的话,那是不是我们也说,我们其实对这个世界也完全不理解,这个世界也是一个完全黑盒? [01:45:45]
张小珺:所以 Scaling Law 是一种科学规律? [01:47:15]
姚顺宇:它是一种经验规律。 [01:47:20]
张小珺:经验规律。 [01:47:21]
姚顺宇:对。但是经验规律和科学规律之间的界限是很模糊的。比如说我们回头去看热力学的各种不一样的定律,第一定律、第二定律、克拉佩龙方程这些东西,在当年被发现的时候也都是经验规律。只是后来随着时间的发展,我们慢慢知道了它的微观机制,那它变成了一个科学规律。我觉得可能像 Scaling Law 或者类似的东西,它目前肯定还是很经验的,但是未来当技术变得比较固定,然后大家开始越来越多地理解它微观过程的时候,会不会变成一个科学规律,如果这个定义是存在的话,我觉得是有可能的。 [01:47:22]
张小珺:能不能用科学的表达来解释一下所谓的智能涌现? [01:48:08]
姚顺宇:首先这个话就不太科学,所以自然也没有办法用科学的话来表达一个不科学的事。 [01:48:17]
张小珺:智能涌现吗? [01:48:24]
姚顺宇:对。我觉得智能涌现对我来说,它更多的是一种主观的感觉,而不是一种客观现象。当很多人说智能涌现的时候,他脑子里想的可能是,以前的语言模型只能做某一个方向的事,比如只能翻译,只能做分析,只能做什么;但现在模型好像可以做所有的事。但是这个事,again,我觉得对我来说,更多的是一个技术上的涌现,而不是一个行为上的涌现。就是说,我们通过研究发现了该怎么去做这种大规模的训练,然后能够水平地提升所有能力,我觉得这个是一个更本质的事。至于智能涌现这个事,其实每个人可能心里定义都不太一样。 [01:48:25]
张小珺:你的定义是? [01:49:17]
姚顺宇:对我来说就是没定义。对我来说,唯一的区别就是有没有发现发生了一个技术上的改变,使得我们可以做 scale up,可以水平地提升所有的能力。这个对我来说是一个良好定义的事。 [01:49:19]
张小珺:你最后是在量子计算和 AI 之间选择了 AI,这个是怎么发生的变化? [01:49:34]
姚顺宇:我觉得还是花了一些时间去了解两个方向的瓶颈在哪。我觉得好处是它们都给年轻人机会,好处是都有机会。 [01:49:40]
张小珺:但是量子计算对你来说,好像是离你的主线更近一些,在那个时候,对不对? [01:49:52]
姚顺宇:这就是为什么要去了解一下细节。因为了解细节之后就发现不是的,是反过来的。量子计算现在的主要瓶颈其实在实验上,并不是你怎么去设计那些算法,或者设计那些算子,更多的是你怎么在实验上实现它。那个事反而是我不擅长的,反而和我过去很多有兴趣的事比较不相关。然后反而跟我相关的事更多像 AI。就刚才说的,AI 其实更多的是你有一个想法,然后你可以用一些数值去验证,这个数值在 AI 里面可能就是训练一个模型,或者怎么样。这个反而和做物理很像。甚至这就是为什么我之前一直把这个和 18 世纪的物理学做比较。 [01:49:56]
张小珺:热力学。 [01:50:59]
姚顺宇:对,更像那个时代的物理。那个时代理论和实验不分家,没有什么理论物理学家、实验物理学家,你就是搞物理。 [01:51:00]
张小珺:就是搞物理。 [01:51:04]
姚顺宇:你自己可以做实验,然后也可以做理论推测。我觉得 AI 就有点像那个时代。 [01:51:05]
张小珺:所以其实从理论物理跨越到实验物理的距离,比你直接跨到 AI 要远? [01:51:10]
姚顺宇:要远,其实要远。而且从兴趣上来说也更远。 [01:51:15]
张小珺:你不喜欢实验物理,你不喜欢做实验。 [01:51:18]
姚顺宇:我觉得确实不是我的兴趣所在。虽然我自己不愿意做,但是我确实很有兴趣知道别人实验做得怎么样。 [01:51:20]
张小珺:AI 不用做实验吗? [01:51:25]
姚顺宇:用,但是它更多是数值。它不太像你在实验室去搭一个光学平台。我觉得实验真的是一个,可能因为是我不懂,我没有达到那个境界,所以有些事在我看来挺玄妙的。比如说大家都知道这个光学台怎么搭,但有的人就能给你搭出来,有的人耗了六年都没搭出来。 [01:51:26]
张小珺:这个是动手能力? [01:51:53]
姚顺宇:我就是没搞明白。我有时候觉得这是有点玄妙。 [01:51:55]
张小珺:所以还是数值,数值实验清晰很多。 [01:52:00]
姚顺宇:对,对我来说,做数值实验,或者像 AI 就是训练模型,然后研究各种不一样的技巧,看某些细节,这些事对我来说,反而是我能想明白它为什么要这么干。但是在搭台子这个事上,我就是一头雾水。 [01:52:07]
张小珺:你做过,是吧? [01:52:25]
姚顺宇:当然,大家可能都做过基本的,读物理的人肯定都做过基本的实验培训。但是更多的就是有很多做实验的朋友,不管去看他们的实验室,看他们怎么做实验的,还是跟他们聊这些怎么设计实验,我就感觉很多事我其实不太能够理解。但是他们确实有的人就是做得好,有的人做得就是不好。 [01:52:26]
张小珺:所以你说现在从事 AI 研究像 18 世纪热力学研究,其实是在表达,虽然大家没有办法很清晰地从科学上去解释和理解这个事情,但是它并不会阻止它的发展。 [01:52:49]
姚顺宇:对。它更像是在,为什么比较那个时代的物理学?就是那个时代大家其实不理解什么是热的微观理论,大家不知道热是什么东西。 [01:53:02]
张小珺:就像现在不能理解。 [01:53:14]
姚顺宇:对,就像现在大家不能理解这个 language model 里面哪一个矩阵元是在干什么,其实大家也不理解。但是不妨碍你有一些好的经验定律,比如热力学的各种定律,和现在的各种 Scaling Law。所以从这个角度来说,从这个方向的角度来说,这个层面上它是类似的。然后从研究人员的角度来说,就是刚才说的另外一个问题,它的理论和实验其实不太分家。 [01:53:15]
张小珺:那你是怎么去面试 Anthropic? [01:53:46]
在Anthropic训练Claude 3.7、4.5 [01:53:47]
张小珺:那你是怎么去面试 Anthropic 的?你这个 Anthropic 的历程是怎么展开的? [01:53:46]
姚顺宇:我觉得其实主要还是因为有前同事在 Anthropic。 [01:53:53]
张小珺:前同事? [01:53:59]
姚顺宇:对。Anthropic 其实有很多做物理出身,尤其是做理论物理出身的人。 [01:54:00]
张小珺:为什么呀?他们从人的选择上,为什么会选择这一拨人? [01:54:06]
姚顺宇:当然很多人可能会找一些原因,说做物理的人擅长这个,或者擅长那个。但是就我个人的视角来看,我觉得主要原因还是 connection,就是联系。因为 Anthropic 的创始团队里面,当时有三四个比较技术的人,其中有两个现在还在技术一线领导的人,他们俩都是做物理出身的。然后他们可能招的一些人,也是做物理出身的,所以就这样一直延续下来。 [01:54:11]
姚顺宇:但其实到了现在这个阶段,就在我之后,其实也几乎没怎么再招完全没有 AI 背景的人了。所以我觉得这也是一个时代的产物。然后我反正是当时决定去找工作了,所以就先出去联系一些地方。 [01:54:55]
张小珺:你只找了 Anthropic 吗? [01:55:03]
姚顺宇:没有,我还找了 OpenAI 和 GDM,就是 Google DeepMind。但 Google DeepMind 那时候速度太慢了,所以最后没有出现在考虑范围内。 [01:55:04]
张小珺:速度太慢,是指他们面试的速度慢? [01:55:17]
姚顺宇:嗯。但是后来显然他们在这个事上获得了长足的提升,后来动作就非常快。 [01:55:20]
张小珺:OpenAI 呢? [01:55:30]
姚顺宇:OpenAI 也联系了,但是 OpenAI 可能没有找到特别合适的事和人。Anthropic 是因为我当时联系了后来我的第一任 manager,他以前也是做理论物理的。然后他当时就说,我们在尝试做强化学习,尝试做这种大规模强化学习,有很多科学问题要去理解。 [01:55:32]
姚顺宇:那个时候,2024 年 8、9 月的时候,其实强化学习还没有像现在这么成熟,那时候大多数人其实都不太知道怎么做。因为 o1 其实还没发布,那时候 o1 只是快发了,大家都知道有,但是都还没看到结果。Anthropic 当时其实也不是完全知道怎么做,是大体上知道,但是有很多细节需要仔细去研究。所以他就跟我说,有这么一个事,你要不要来面试一下?我觉得他觉得可能是一个好的机会。 [01:55:59]
张小珺:你当时怎么认知强化学习? [01:56:34]
姚顺宇:没认知。 [01:56:37]
张小珺:你大概知道 pre-train、post-train? [01:56:39]
姚顺宇:我大概知道这个流程,但我其实不太知道具体的这种工业级别的语言模型是怎么训练的,只能知道学术界是怎么训练。现在谈那时候的认知,其实在我现在看来就是没有认知。更多的还是,我当时觉得这个事是一个不确定的事,然后是一个好的机会,所以我就去干了。 [01:56:42]
张小珺:当然也有些面试的准备和面试过程。怎么准备的?聊啥? [01:57:12]
张小珺:跟谁面的? [01:57:15]
姚顺宇:就是后来的我的一些同事,当时面的。面试题也不太难,反正。但是对我来说,我当时也不知道怎么准备,然后我就去把我能找到的那些课,自己能学的学了一遍,能做的作业做了一遍。然后自己手搓了一套,就是 Andrej Karpathy 有一个著名的项目,好像叫 nanoGPT 还是什么,反正它有一个可以在 Google Colab Notebook 里面就能训练一个很小的 GPT 模型。然后我就手搓了一下那个,然后就去面了。 [01:57:16]
姚顺宇:然后很快拿到了 offer。 [01:57:53]
张小珺:然后你第一个方向就是大规模的强化学习? [01:57:55]
姚顺宇:当时其实是有两个组的 manager 来跟我聊,一个是做 evaluation,就是模型评测;另外一个是做强化学习。然后我是选择了强化学习。当时选择强化学习,是因为它更加不明朗。 [01:57:58]
姚顺宇:那个时候其实 Anthropic 也不像现在是一个大公司,那时候公司其实也很小。 [01:58:21]
张小珺:多少人? [01:58:25]
姚顺宇:我去的时候,我们那个大的 team 才只有 10 个人左右,10 个人或者 11 个人。 [01:58:26]
张小珺:大 team 叫什么? [01:58:33]
姚顺宇:叫 Horizon。 [01:58:35]
张小珺:这个大 team 的平行 team 有什么? [01:58:38]
姚顺宇:那个大 team 其实后来几乎就是,强化学习的方方面面都在这个题目里。所以它的整个大组就是一个强化学习。首先,这个创业公司你也很难说这个组的目标是什么,因为它可能曾经也有过很多不一样的目标,只是那个阶段可能主要目标是做强化学习。 [01:58:43]
姚顺宇:当然底下也有更做数据的组,更做环境、infra 和技术设施的组,也有更做 research 和算法的组。然后我去的那个组,是比较偏 research 和算法的组。 [01:59:03]
张小珺:那时候 Anthropic 多少人? [01:59:20]
姚顺宇:那个时候可能七八百的样子吧,总共。对,是整个公司七八百。 [01:59:22]
张小珺:你一进去,对这家公司的印象是什么呢? [01:59:35]
姚顺宇:我觉得我对 Anthropic 的印象其实还是挺 consistent。进去之后,我对公司的印象就是执行力非常强。它其实是一个比较 top-down 的公司,所以很多事情决定了之后,就会全力去做。公司员工之间的氛围也很好,大家都不会藏着掖着。尤其刚去的时候很小嘛,所以大家都认识,氛围很好。 [01:59:37]
姚顺宇:我觉得如果只是做语言模型相关的事的话,现在回头来看,那是一个非常非常好的学习机会。你能够接触到模型训练的方方面面,然后都能找到对应的人去问。 [02:00:12]
张小珺:那个时候的 Anthropic 已经有了现在我们都知道它那个非常坚定的 bet 了吗? [02:00:35]
姚顺宇:有的。 [02:00:43]
张小珺:这个 bet 来自于哪里?为什么会有这个 bet? [02:00:43]
姚顺宇:我不知道它完全的来源在哪。我自己能看到的一个显然的来源,就是前一代模型 Claude 3 发了之后,推特上,那时候可能还没叫 X,推特上有很多人在讨论,说 Claude 3 好像写 code 比 GPT-4 强。那个年代,GPT-4 还是一个和大家 gap 很大的模型,所以能有一件重要的事比 GPT-4 强,就很厉害了。 [02:00:48]
张小珺:所以是试出来的? [02:01:18]
姚顺宇:我觉得至少是其中一个原因,就是很快地对这个市场做了反馈。这也是我觉得这公司很强的一点,就是它 execution、执行力非常非常强。一旦给它一个信号,让它觉得是很 reasonable、这公司该做的事,那就会扑上去。它没有那些大组织那种犹豫。 [02:01:20]
张小珺:为什么它的 coding 会比 GPT-4 要好? [02:01:43]
姚顺宇:不能说。是有原因的,但是是个随机的原因,不是一个“我这么选择,所以有这个结果”的原因,是一个纯技术原因。但是确实我不能确定一开始是随机试着的,还是故意选择的。你要让我猜,我肯定会觉得是随机试着的。 [02:01:46]
张小珺:纯技术的原因,是有某个人做了某个事情? [02:02:08]
姚顺宇:确实有某一个团队做了某个事情。 [02:02:11]
张小珺:是自上而下的,还是自下而上的? [02:02:16]
姚顺宇:我觉得最开始可能是自下而上的,但是后来就变成了一个自上而下的事。就是要快速捕捉到一些市场,内部和市场的信号,然后要赶快扑上去。我觉得这是 Anthropic 非常强的一点,它非常非常 reactive,反应非常快。 [02:02:18]
张小珺:它执行来自于哪里?来自于 Dario 这个人?来自于它的某种特质? [02:02:39]
姚顺宇:我感觉 Anthropic 作为一个公司来说,它能够实现这种比较 top-down 的机制,是一个很独特的事。 [02:02:44]
张小珺:为什么? [02:03:04]
姚顺宇:因为实现 top-down 其实有一个很难的点,就是你做技术的决策人,必须也得是公司本身的决策人。首先就是你技术上得能服众,那下面的研究员才会信服,你才能够让下面的研究员去做这个事。另一方面,你得是公司的决策人,你得能为这个公司负这个责任。Anthropic 有这个条件,就是说它技术上的 leader,其实是公司的 co-founder。 [02:03:04]
张小珺:你指的是谁?不是 Dario? [02:03:30]
姚顺宇:就是 Jared Kaplan 和 Sam。他们俩是公司 co-founder,他们自己做这个决定,那是人家的公司,所以他有权利做这个 top-down 的事。 [02:03:31]
张小珺:那 Dario 作为 CEO,他会 say yes 和 no 吗? [02:03:42]
姚顺宇:我不知道,他们决策层的讨论里面…… [02:03:46]
张小珺:他们决策层的讨论里面,OK,Dario 起到了什么样的作用? [02:03:47]
姚顺宇:我只能说,技术 leader 是有决定权的。我只能说,对我当时的工作来说,我接触得最多就是 Jared。 [02:03:53]
张小珺:可是这对其他模型公司很难吗?比如说 OpenAI 就干不了?Ilya 在的时候难道不行吗? [02:04:02]
姚顺宇:Ilya 在的时候有可能可以。但是 Ilya 后来,一方面我也不知道因为什么原因,就是失去了这个做决策的能力,然后就走了。 [02:04:08]
张小珺:其他公司呢? [02:04:20]
姚顺宇:其他公司我觉得都比较难,Gemini 也比较难。但是我觉得 Gemini 就是另外一套打法,不太一样。就是说,我觉得大公司和 startup,它打法本来就不一样。因为 startup 重要的是 make bets,就是我得赌一件事。我如果想要赌,就意味着有风险,所以就意味着我能够很快地做一些决策,然后很强力地推进一些决策。可能在这种情况下,top-down 我觉得是一个很有优势的事。所以我觉得特别从组织上来说,是比 OpenAI 更有优势。但是作为大公司来说,可能就是另外一套想法。因为大公司的想法可能是,我能尽量减少做赌的成分,而是在方方面面都有储备,然后任何一个事成了,我都能跟上;如果有事我自己做成了,我可能还能领先。所以在 Gemini,Google 是一个很传统的、很 bottom-up 的组织。公司层面可能有一些比较良好定义的框架,来看你的工作是好是坏,来引导你做一些公司需要的事。但是本质上,还是你自己来决定自己做什么。 [02:04:23]
张小珺:所以你觉得 Anthropic 能 make bets,是因为它独特的组织和文化? [02:05:38]
姚顺宇:对。 [02:05:45]
张小珺:这个听起来,其实应该是其他公司也能做的,但是却非常奇怪地发现,其他公司很难做,而 Anthropic 可以做到。 [02:05:48]
姚顺宇:对,我觉得还是需要技术的,或者公司的 leader 有公信力吧。这个其实挺难的,我觉得。 [02:05:56]
张小珺:你说的还不是 CEO 有公信力,是技术的一号位有公信力。 [02:06:04]
姚顺宇:对我来说,我觉得技术的一号位有公信力很重要。但是与此同时,CEO 可能没有成为一个阻力。 [02:06:08]
张小珺:这个难吗? [02:06:16]
姚顺宇:这个我觉得就得看你这个 co-founding team 有没有足够的互相信任,这个也很关键。我觉得 Anthropic 这点也是在 startup 里也很强,就是它 co-founding team 没有一个人离开公司。如果你看他们过去的履历,那是一群真正一起打过仗的人。他们都是以前 OpenAI 的一群人。像他们甚至好多人都是一系列关键文章上的合著者。比如 Scaling Laws 这个 paper,是 Jared Kaplan、Sam,当然还有 Dario,还有一些可能 Tom Brown 也在吧,我不太记得 Tom Brown 在不在。然后 GPT-3 的 paper,Tom Brown 在,Ben Mann 在,Jared 和 Sam 也都在,Dario 也都在。所以他们是一块趴过战壕的人。我觉得互相之间的信任还是很关键。有很多公司可能干着干着,连这个小集体都团结不住了,那你怎么能指望这个大公司能团结住呢? [02:06:18]
张小珺:你在说 OpenAI 是吧?你加入 Anthropic,公司正在做的最重要的项目是什么?你参与到那个大项目里面了吗? [02:07:27]
姚顺宇:对。当时就是为了能做大尺度的强化学习,然后能够用它来提高 coding 的能力,这个就是当时最重要的事。我们当时这个组的研究重心就是这个,这也是这个组后来慢慢变大、变得越来越重要的原因。最终带来的结果,就是大家一块做出了 Claude 3.7 这个模型。 [02:07:35]
张小珺:你说内部有一个 3.6? [02:08:04]
姚顺宇:不是内部叫,就是外界的 Claude 3.5 其实有两个版本,一个可能是 6 月的版本,另外一个是 10 月版本。然后你也可以看出,Anthropic 这个公司曾经也是没啥产品能力的,居然管两个模型叫一个名字。所以后来外面人为了区分,管那个 3.5 后面那个版本叫 3.6。Anthropic 跟随着外面的这个习惯,就叫 3.6 了,管这个再新的模型叫 3.7。所以你去看实际的公司产品时间线,其实是 3.5、3.5 New、3.7。 [02:08:04]
张小珺:怎么会有一个 3.5 New?这个是怎么想的? [02:08:44]
姚顺宇:只能说,那个时候的 Anthropic 可能真的是没有什么产品上的想法。 [02:08:46]
张小珺:所以你第一个项目是 3.7,还是 3.5 New? [02:08:52]
姚顺宇:3.7。3.5 New 其实我没参与,几乎没参与。 [02:08:55]
张小珺:3.5 New 的时候已经看到 coding 的迹象是吗?你刚才说,3.5 New 的时候已经看出 Anthropic 的模型在 agentic coding 会比别的模型强了,这个是为什么? [02:09:01]
姚顺宇:不能说。 [02:09:11]
张小珺:所以你进去的时候刚刚好,就是他们知道了这件事情,管理层也知道了这个迹象,然后他们要 make bets 的时候。你这个运气很好。 [02:09:13]
姚顺宇:我觉得对。我进去的时候,大家肯定已经看到了这个事能做成且重要,但是不太清楚怎么去把它做成。然后我去的时候,是跟大家一起去研究怎么把它做成。 [02:09:25]
张小珺:所以方法是大尺度的强化学习。 [02:09:38]
姚顺宇:对,这是从大的角度来说是。但是当然有很多技术细节是需要去研究的。 [02:09:42]
张小珺:这里面有什么 know-how? [02:09:49]
姚顺宇:有好多 NDA 的内容,有很多。 [02:09:53]
张小珺:NDA 是会写这么详细的吗? [02:09:58]
姚顺宇:原则上来说……但是我觉得,虽然我不能公开去谈,但是我觉得把简单的事做得比谁都干净,是最关键的。 [02:10:00]
张小珺:什么叫干净啊?你刚才也用过这个词。 [02:10:28]
姚顺宇:对,就是我觉得有很多花里胡哨的技巧。比如说做强化学习,最简单的 algorithm 就是 policy gradient,但不代表这是唯一的 algorithm,它还有别的算法,比如各种复杂的搜索算法之类的东西。但是这些复杂性是不是必须的?这些复杂性可能给你带来一些 benefit,甚至就是效率上的提升,但它可能也给你带来一些基建、infra 上的困难。那你怎么去 trade off 这些事?这些事其实是做研究需要去理解的:怎么去 balance 这种不同的因素,然后选择最好、最稳定的那条路。我觉得很多 know-how 其实都是在这些细节里面,在怎么去处理方方面面细节里面。 [02:10:31]
张小珺:那那个时候怎么来描述 coding 很重要呢?他们认为是大语言模型的一个分支,一个重要的分支,还是什么呢? [02:11:23]
姚顺宇:我觉得每个人可能想法不一样。对我来说,它重要的原因有二。一个原因是老生常谈、一直在讲的事:coding 本身也是做语言模型研究的一部分。如果你能够把 coding 做得很好,那可能会让你的研究效率有翻倍的提升,就形成一个研究上的飞轮了。这是一方面原因。对我来说另一方面原因,是因为 coding 其实是模型使用工具和环境交互的一个很好的抽象。首先这个抽象,刚刚已经说过了,这个抽象的好处在哪?比如说反馈信号清晰,然后数据充分。其实你很难在别的场景下,找到能同时有这两个特质的使用工具的场景。所以对我来说,这是一个好处。像在这里面做的一些研究,可能是对更通用的那些使用工具和环境交互的能力的一些有用的 lesson。 [02:11:32]
张小珺:那时候 Cursor 是什么状态? [02:12:36]
姚顺宇:那时候 Cursor 还是一个纯产品公司。我觉得从某种意义上来说,好像在我去 Anthropic 之前的那段时间里,Claude 和 Cursor 都属于比较 underdog 的状态。然后 somehow,在 3.5 New,就是 3.6,外界的 3.6 这一代的时候,首先是这个模型能力上去了,然后 Cursor 又发现这个模型真的能够做这种 AI coding 的工具了。它是一个壳,但是这个壳包着一个模型,一下子让公众体会到了——不是公众,就是软件工程那个圈子体会到了,这事好像真的是效率工具了。所以后来这个一下子就起来了。 [02:12:41]
张小珺:所以那个时候 Anthropic 就意识到,Cursor 是未来的竞争对手? [02:13:24]
姚顺宇:那就不知道。 [02:13:30]
张小珺:那 3.7 是怎么做出来的? [02:13:31]
姚顺宇:这个是一个分水岭。对于 Anthropic 来说,是一个分水岭式的模型。我觉得对于 Anthropic 的后训练来说,是一个分水岭。就是在 3.7 之前,后训练都是处于一个…… [02:13:35]
姚顺宇:后训练都是处于一个比较小规模,然后可能就是修修补补模型的这种状态。 [02:13:46]
张小珺:大家不重视后训练是吗? [02:13:56]
姚顺宇:也不是不重视。一开始很长时间,大家都没有搞明白后训练该怎么 scale up。但是在那个阶段,不管是 OpenAI、Anthropic,还是包括像中国的 DeepSeek,大家意识到了这个事该怎么去 scale。该怎么 scale?就是你得找到合适的环境:这个环境的反馈信号足够清晰,然后这个环境本身也是一个很强的数据源。在这个上面,其实能让训练非常稳定,这事就能做成。 [02:13:57]
张小珺:对。我记得那个时候,其实大家都不知道 OpenAI 保密项目是什么,就知道它在“草莓”,叫 Strawberry。然后大家觉得会带来一个新的范式,新的范式就是后续那个强化学习,但是更多的就不知道了。 [02:14:30]
姚顺宇:对。其实我觉得我去 Anthropic 的时候,大家已经比较清楚这个事大概该怎么做,就是大概的方向是怎么做。后来随着我对这个领域知道越来越多之后,我就发现,其实那个时刻 OpenAI 做的方式和 Anthropic 其实还是差别挺大的。 [02:14:45]
张小珺:怎么说? [02:15:12]
姚顺宇:就是具体这种算法和使用数据的方式,其实是不太一样的。虽然都叫后训练和强化学习,但是我觉得那些不是本质区别。大的方向来说,它们是同一个:找一些反馈信号非常清楚、非常客观,数据本身又比较干净,然后对于模型来说是可学习的,在上面做稳定的强化学习训练。大的方向来说都是这个方向,但具体实现其实差别比较大。后来事实也证明,具体实现每家方向都不一样,但是都能做成。 [02:15:14]
张小珺:而且当时 OpenAI 的目标也不是 coding。当时我了解到的叙事是说,预训练作为第一个范式,已经金矿快挖完了,所以我们现在开启第二个金矿,就是后训练和强化学习,然后来让 scaling law 继续。 [02:15:47]
姚顺宇:对。我觉得很长时间 OpenAI 都是这个想法,我不知道他们现在的想法有没有变。对我来说,我的想法经历过摇摆。在 3.7 那个时代,我其实也抱着这个“预训练已经快 party is over”的感觉。 [02:16:04]
张小珺:就在你要入职的时候? [02:16:27]
姚顺宇:我刚入职,然后当时在做这种 3.7 相关实验的时候,我也曾经抱过这个想法。但是后来随着了解越来越深,我就发现其实还有做的空间。预训练 scaling law 这个事,它也不是告诉你要一直变大,它本质上是一个很系统的框架,能够告诉你做什么样的事是更有效的。所以后来就发现,其实还有很多事可以做。事实情况是,后来 Anthropic 和 Gemini 的预训练也一直在不断进展。 [02:16:29]
张小珺:OpenAI 自己卡了很久,它现在又重视预训练了吗? [02:17:09]
姚顺宇:它应该已经重视预训练挺久了,最近可能刚刚有点进展。 [02:17:14]
张小珺:所以预训练和后训练作为两个范式,都没有达到它的平台期? [02:17:24]
姚顺宇:我觉得都没有。但是你说要去预测到来多少,这个做不到。我觉得到达平台期有两种可能性:一种可能性是技术本身到达,就是你明明还有想让模型干的事,但是这俩技术就死活学不会了;另一种可能性是,你想干的事到平台期了。我觉得现在是后者,就是我们现在知道了有一个 chatbot,你可以叫它干这个;又有一个 coding,你可以教它干这个;后面就不知道了,不知道该教点啥好。就是说这模型还是一个非常聪明的小孩,你其实可以教它很多东西,但是我们人类作为老师,现在还不知道下一个东西该教什么,或者说该怎么用现在的一些方式去合理地教它。 [02:17:28]
张小珺:说到 3.7,还有什么 know-how?这是几个月做出来的? [02:18:17]
姚顺宇:这个最后零零总总,从开始训练到发布,可能花了四五个月的样子吧。 [02:18:26]
张小珺:就是从你刚进去? [02:18:34]
姚顺宇:就是从开始大家为了这个事做研究,可能花了两三个月;后来开始训练,到训练结束,中间磕磕绊绊很多事情要处理。然后有很多新的基础设施,基础设施真的是很重要,很花时间,又可能花了两个月这样子。 [02:18:36]
张小珺:你在其中做的重要的工作是什么? [02:18:57]
姚顺宇:我觉得我也没什么重要的。我个人对任何一个模型的贡献,我的陈述都是:我觉得我自己对那个事没那么重要。更多的是,我很幸运,有机会在那个时候加入了一个重要的项目,做了一些事。因为从某种意义上来说,我觉得 AI 在最近这几年,这个事本身是一个不可阻挡的事。它不在于你这个人去干或者不干,你不干,也有别人一样能干出来。所以我觉得在这个时代,其实所有给个人贴金的事,都有点炒作的嫌疑。但是确实对我来说,我是很幸运,能在那个阶段加入一个重要的事,学习了一些知识。 [02:18:59]
张小珺:好的。那你幸运地在那个阶段,在 Anthropic 这家公司的大尺度强化学习团队里,做了什么? [02:19:53]
姚顺宇:我觉得 3.7 那时候,主要做的还是在 RL 里做 agentic coding 这件事,怎么把它 scale up,或者怎么去准备各种各样的环境和 data,包括算法上会遇到什么样的问题。当时主要的研究都在这部分。 [02:20:03]
张小珺:这里面有什么 tips 吗? [02:20:19]
姚顺宇:现在来看没啥特别有用的 tips。我觉得说到技术 tips,其实这个事是一个大家一方面很愿意听,公司又不让你说,但实际又没啥用的事。 [02:20:22]
张小珺:为什么? [02:20:39]
姚顺宇:因为很多算法设计其实并不只是算法,它非常强地依赖于你的基础设施。举个简单的例子,有些公司可能就大家经常讨论一个问题:在强化学习的时候,sampler,就是给你产生这些 trace、这些 token 的那个机器,和 trainer,用来实际训练这个模型、改变模型权重的这个机器,这两个可能会不一样。当然不一样,有一些原因是数值上的不一样,有一些原因是因为使用这种异步的训练架构,所以它自然从根本上来说就不一样。 [02:20:41]
姚顺宇:不同公司可能这个不一样的程度是不一样的,所以你算法上的设计也会不一样。有些公司可能这两个区别非常非常大,那你算法可能最大的部分就在于怎么控制这个,然后怎么让这个训练稳定;对于训练的实际效果之类的,权重就会稍微小一点。但有可能有的公司基础设施建设就特别特别好,这两个差别没那么大,那可能就可以花更多精力在训练效果上。 [02:21:18]
姚顺宇:所以说很多这种小的 tips,其实是没有什么用的,很多 know-how 其实没什么用。我确实也发现,很多别的 lab,不是在这三家 lab 里面的,可能很想知道 Anthropic 怎么做这个,或者 Gemini 怎么做那个。但其实我有时候不愿意回答,一个主要原因是因为我觉得,本质上我回答这个问题也是在误导他。现代的 AI 训练是一个大的系统,你其实要了解这个系统的方方面面,才能有一个全局的认识:什么事是因为什么而变得有用,而不是说这个事本身有用。 [02:21:52]
张小珺:从 3.7 到 4.5 又发生什么呢? [02:22:27]
姚顺宇:这个预训练和后训练都有。一个就是 scale up 上做得更多了,然后 data,不管是 data 还是训练的算力,都更大的尺度。但是我觉得从范式上来说,就没有特别大的改变。 [02:22:32]
张小珺:到你离开 Anthropic 的时候,它已经多少人了? [02:22:51]
姚顺宇:接近 2000 人了。 [02:22:59]
张小珺:扩了一倍多。所以你在 Anthropic 时期,刚好是它最剧烈转变的一个时期。 [02:23:00]
姚顺宇:我可能就是踩在了它还是个小公司的尾巴。其实我觉得进去之后过了可能三四个月,这个公司就已经开始,人一下就变多了。 [02:23:07]
张小珺:文化有变化吗? [02:23:19]
姚顺宇:还是经历了一些比较混沌的阶段吧。尤其可能在我快离开的那段时间,我觉得文化上还是经历了一些混沌,因为从外面来了一些人,可能跟本来的文化有一些冲突。 [02:23:20]
张小珺:之前的文化是? [02:23:37]
姚顺宇:我觉得之前就是很简单。它更像是一个小作坊,大家都是朋友,然后大家都知道对方在干嘛。 [02:23:39]
姚顺宇:然后大家都知道对方在干嘛,也没有人特别会做过多的个人宣传,或者做一些没用的事。没有人做这些没用的事,大家都有很多事要处理。公司那时候可能紧迫感也更强一些。后来可能就觉得,人多了,这样的文化肯定会受到一些冲击。 [02:23:47]
张小珺:带来了什么风气? [02:24:09]
姚顺宇:我觉得确实有一些人,我个人不是很喜欢。当然不代表他们真的不好,就是我个人不是很喜欢。我可能不太喜欢在这个领域里面说很多话的人。我觉得 idea is cheap,想法是便宜的。很多想法其实很显然,所有人都知道,难的是怎么把它实现,怎么把它变成一个一个小的、可实现的步骤,把它做出来。我不太喜欢那些一天中很多时间花在 Slack 上的人。Slack 是美国用的一个办公软件,在 Slack 上花很多时间,在那儿讲一些大道理,我觉得没啥用。 [02:24:12]
张小珺:你后来为什么突然离职了?你当时是完成了什么阶段性的工作吗?酝酿了多久? [02:24:59]
姚顺宇:我觉得可能酝酿了一两个月,一个多月吧,一个月多一点。一个方面是,我其实不是太特别认同 Dario 反华这个事。我觉得他作为个人,做什么样的观点都无所谓;但是作为一个公司的 CEO,把这个观点推到这么极端的地步,是一个非常情绪化的体现。这是一个比较小的原因。大的方面,就是刚才说的,公司的文化上有些冲击。然后包括我自己可能也想去学一些不一样的事情。Anthropic 毕竟非常专注,如果你很想做和语言模型相关的方方面面,做这种使用工具、agentic、coding 这种事,在 Anthropic 其实很好,能学到很多东西。但是 Anthropic 有很多不做的事,比如 Anthropic 完全没有人做多模态生成,你想学没地儿学。Anthropic 可能也没有花太多精力在更底层的工程技术设施上。所以想要学习更多东西,也是我当时离开的一个动因。 [02:25:09]
张小珺:反华占百分之多少比例?因为它有个人原因。 [02:26:33]
姚顺宇:我在公开场合说 40%,但这个数字反正听听就好。这个数字就是告诉你,它不是主要原因,但它确实是一个很大的原因。 [02:26:38]
张小珺:就没有控股,不是个控股原因。 [02:26:48]
姚顺宇:对,不是个控股原因,但是是一个 major holder 的原因。 [02:26:50]
张小珺:你这个选择也很神奇。因为大多数人在一个公司还是 underdog 的时候加入,会更有感情,然后会愿意陪公司走更长时间。但你反而跳去了 Google。很多研究员一进去 Google,会觉得 Google 给的 scope 不够,所以反而想跳去像 xAI 或者 Anthropic 这样更小一点的组织。你这个行动好像也是反的。 [02:26:54]
姚顺宇:对,我觉得其实取决于你自己想要的是什么。如果你很想要的是一个很明确的 scope,然后这个事和最后产品的模型息息相关,你一定要把其中一个想法送到这个模型里去,那可能 Google 是一个很差的地方。因为毕竟有那么多研究员,有那么多已经成熟的组织,做这件事情是有很复杂的过程。但是我觉得,如果你想要的是有研究的自由,有探索的自由,然后想从更广泛的人里学习,这个世界上可能找不到第二个比 Google DeepMind 更强的地方。所以本质上还是取决于你自己想要什么。但是我觉得很多人离职,不管从哪离职,换到另外一家之后会觉得不开心,主要原因是没想明白自己想要什么。比如说你离职到了 Google,你刚开始想的是我要有研究自由,更多动机是学习;然后去了之后发现,自己还是想要 product impact,那你可能就会很难受。 [02:27:25]
张小珺:你不追求 impact 吗?你刚才也有说,现在 AI 是一个非常大的系统,是一个很大量的人协作的东西。你在里面追求什么? [02:28:40]
姚顺宇:我觉得分阶段。在 Anthropic 经历了太多和产品息息相关的事之后,我可能也想给自己换个脑子,去学习一些不一样的东西。但是你说有没有哪一天,我可能又换回这个脑子,又想去产生一些产品的影响,也不是不可能的。 [02:28:55]
张小珺:产品影响力怎么量化?内部都很清晰吗? [02:29:16]
姚顺宇:不好量化。我觉得发论文的时候,它还是有一作、主导作者这种概念。现在其实没有办法量化,实际情况就是没有办法量化。这也是为什么我觉得在这个时代,谈每一个个体的影响,是一个很虚无缥缈的事情。本质上还是这个组织做了这样一件事,或者这个世界需要这样。 [02:29:19]
张小珺:所以产生 product impact 是个主观感受? [02:29:45]
姚顺宇:在模型侧是这样。当然实际上可以细节谈的是,你自己做过哪些具体的技术贡献,它在技术上产生了什么效果,这个是可以客观谈论的。但是比较主观的是,你说这个效果在最后的产品里占了多少比重,这个没有人能说清楚。 [02:29:47]
张小珺:在 Claude 3.7 上你能描述一下吗?你觉得什么样的技术性工作对模型是产生影响的? [02:30:10]
姚顺宇:主要还是跟 agentic coding 的环境有关的工作。然后也有一些算法上的工作,算法上主要是怎么让训练变得更稳定,说实话。算法上肯定是有一些提升,但也没有达到特别理想的效果。比之前的算法肯定是要好的,但是那个我觉得也不是我个人的贡献,也是大家集体的贡献。 [02:30:19]
张小珺:我每次问你,你都会说,这是集体的贡献,不是一个个人英雄主义的时代。 [02:30:47]
姚顺宇:对,我觉得个人英雄主义时代,对于大语言模型这个方向来说,可能过去了。什么时候是?就是在 Transformer 那个时刻,在技术还没到 scale up 那个点之前,找到了那个技术的人可能是一个英雄,或者找到那个技术的小团体可能是英雄。找到那个技术之后,可能很长一段时间,从模型侧来说,我觉得更多都是集体主义。这个集体能不能一起工作,能不能为了一个目标一起花自己的时间、花自己的精力,这个是最重要的事,而不是每一个个人提供了什么样的东西。 [02:30:54]
张小珺:说集体主义的原因,是因为其实能力是来自于 AI,是吗? [02:31:31]
姚顺宇:说集体主义的原因,是因为我觉得 AI 这个方向本质上是简单的。除了可能 Transformer 那一下,那个 idea 可能得有一些很深刻的洞见;在之后的过程中,很多想法其实非常 trivial,非常简单,谁都能想,谁都能干,只是你运气好,撞到了一个机会去干而已。 [02:31:35]
张小珺:包括你在描述 Anthropic 做 coding,好像它也是某种随机性,但是你要抓住它。 [02:32:00]
姚顺宇:对。但我觉得做 coding 可能还比做模型侧的这些技术上的东西,更稍微有点公司英雄主义。就是说,你能不能足够快地赌这件事,那确实还是 Anthropic 很强。但如果今天没有 Anthropic 做,可能别的公司也做了。我觉得这是一个必然的事。 [02:32:05]
张小珺:所以它都是 AI 在涌现能力。其实看你能不能抓住那个能力,不管是公司还是个体。 [02:32:23]
姚顺宇:对。在可用的大规模语言模型出现之前,很多事情是非必然的。有没有一个人能够发明一个东西,让语言模型能够大致做起来,以及 GPT 这个范式能不能被发现出来,那是有很多不确定性的。比如那个时候,如果没有 Google Brain,可能 Transformer 就不会被发现,可能要过很多很多年,才会被另外一个有钱又有人的组织发现,那可能就是一个很大的影响。 [02:32:29]
姚顺宇:但是进入那个阶段之后,尤其到现在,已经反过来了。任何一个组织想要停止 AI 进展,是做不到的。因为 Anthropic 很担心 AI 安全,那 Anthropic 有没有这个能力阻止 AI 发展?它没有。你阻止发展,你停止发展,别人会发展,你的话语权还会变小。其实现在更多是这样一种状态:这个世界在推着我们前进,而不是我们在推着这个世界前进。 [02:33:03]
张小珺:感觉未来我们会更加难以阻止。 [02:33:34]
姚顺宇:我觉得已经阻止不了了。试图去阻止 AI 里的一件事发生,可能本身就不是一种正确的想法。 [02:33:40]
姚顺宇:可能本身就不是一种正确的想法。 [02:33:45]
张小珺:这也是刚才聊到的,其中一个很重要的动因是所谓 AI 安全。AI 安全这件事,是 Anthropic 创立时候的动因,对?现在跟它有什么关系? [02:33:47]
姚顺宇:现在的关系比较复杂。一个自然的问题是,大家可能会问:一个做 AI 安全的公司,为什么现在开始训前沿模型了?Anthropic 的解释是说,我首先得拥有一个最前沿的模型,才有话语权来推进我的 AI 安全政策。所以它其实一直以来的想法是说,我要做这个世界上最好的模型,大家不得不听我的,来推进我的安全政策。 [02:34:05]
姚顺宇:但其实从我个人角度来说,我觉得这个想法是非常幼稚的。这个事现在看来,它是不会发生的。更有可能发生的是,大家都有很好的前沿模型,而你没有办法阻止这个事发生。我觉得可能对于这个事来说,现在更多该想的是,如果你真的想要避免 AI 带来一些危机,什么才是一个更制度化的方式。 [02:34:39]
姚顺宇:举一个制度化的例子,比如说核武器。核武器也是一个大家觉得可能有毁灭世界力量的东西。但核武器最终受到控制的方法,就是 multi-party control。也就是说,有很多个有核武器的国家,它们互相都有对方的能力,所以通过这样一种制衡,才稳定住。我觉得你要阻止 AI 干一些不好的事,可能最终是需要一种类似的机制来实现,而不是寄希望于一家公司制定一个规则来管这件事。 [02:35:06]
张小珺:对,而且它自己制定,也只能管得了自己。你刚才也提到 Anthropic 有个可解释性团队,是吗?它的可解释性到达哪一步了? [02:35:40]
姚顺宇:在一些比较简单、比较稀疏的神经网络里面,他们能够做一些有趣的研究。比如说,看看某一个输出的、或者输入的文字或者图片,它内在的表示是长成什么样的。然后你可能把那个表示反演一下之后,它会输出一个什么样的东西,做一些这样的研究。 [02:35:51]
张小珺:你刚才还提到一个观点。 [02:36:15]
AI本质是简单的 [02:36:18]
张小珺:你刚才还提到一个观点,就是“AI 本质是简单的”。你能不能描述一下这句话?这是一个结论? [02:36:15]
姚顺宇:对,我觉得这甚至不是一个结论,这是我的一个 statement,是我的一个陈述。它可对可错,然后我对这个…… [02:36:24]
张小珺:这是你的观点。 [02:36:32]
姚顺宇:对。我对这个陈述的解释是,我觉得它本质上简单的点在于它能做实验。它和比如说本质上难的东西,比如物理,它的区别在于:那个东西你没有那个能标下的实验数据,你就是理解不了那个能标下的理论。但是 AI 目前不被这个所绑。你理解不了没关系,我也可以往前发展。而且现在的事实就是,能够做任何我能想到的实验,只是可能需要一些时间去把计算量提上来,或者把基础设施准备好,但是没有什么本质上的困难。所以我一直说,AI 没有给人感觉它碰壁的原因,就是首先很多东西你都能试;其次现在不是说大家已经想空了脑袋,没有什么想法可以试了,更多情况下是有太多的想法,得一个个试,花时间。 [02:36:34]
张小珺:感觉人好渺小,在这个事业面前。 [02:37:36]
姚顺宇:是的。所以说我觉得,很快可能 AI 就会开始自己做实验了。 [02:37:43]
张小珺:很快是多快?四个月内? [02:37:49]
姚顺宇:我觉得未来的六到十二个月,AI 就会自己做实验。其实当然,这话不太良定义,对不起,我说了一个很模糊的话。就是 AI 自己提高自己,或者自己来加快自己的发展过程,这件事其实已经在发生了。对吧?就像我们刚才最早的时候聊过,它已经开始帮我们去实现一些我们想要的东西,然后加快我们实验的速度。但是我觉得未来六到十二个月,它目前还做不到的事情是什么?是说它能不能从头到尾地把一件 AI 研究的事做完。比如说,它不仅能写这个 code,它还能跑这个实验;跑这个实验还能看到这个结果;看到这个结果还能分析这个结果;分析这个结果,知道它哪做得不对,然后提出新的假设,设计新的代码,跑新的实验。这条链条目前还没有完整,但我觉得这条链条可能是下一步会慢慢变得完整的事。 [02:37:52]
张小珺:基于你的各种原因,在你决定离开 Anthropic 那一刻,你对这家公司未来的预期是什么呀? [02:38:48]
姚顺宇:我觉得我离开的时候,我对这公司其实挺悲观的,但后来显然是我过度悲观了。 [02:38:57]
张小珺:为什么悲观? [02:39:05]
姚顺宇:我当时悲观的原因是,我觉得我当时离开 Anthropic 的时候,其实主要的收入来源都是 API,就是卖 token。然后这个是差生意,是差生意,因为这个生意只有对一个公司是好生意,就是 Google。因为这个生意最后就是得打价格战,最一般的处理就是要打价格战。打价格战,你没有完整的链条,是没有什么太多优势的。但是后来 Anthropic 显然在产品方面,我觉得确实有很多巧思,做了很多好的事。往下是 Claude Code,也变得越来越好用了,然后 Claude Code、Work,和各种各样的这种和工作、效率相关的事情,都慢慢汇聚起来了。所以感觉它现在反而变得比我当时想的更好。你要问我 OpenAI 和 Anthropic 哪个会先死,但就不会真的死,就是说哪个会先变得没那么重要,我当时会觉得可能是 Anthropic 会先变得没那么重要。但是后来,首先 OpenAI 被 Google 揍了一拳,然后 Anthropic 自己就上道了。所以现在看来,好像 Anthropic 更占优势一些。 [02:39:08]
张小珺:你后悔过没有? [02:40:16]
姚顺宇:不太后悔。我觉得对我个人来说,我个人的动机还是想要去换一个地方,提高自己。我觉得对于想做的这件事来说,这个选择没有什么错误。 [02:40:18]
张小珺:你也提到 Anthropic 的产品有很多巧思,特别是今年,像 Claude Code、Work 这些,这个来自于哪里? [02:40:33]
姚顺宇:我觉得我没看到 Work 的发展过程,所以我不知道。然后 Claude Code,我觉得产品可能还真的是有一些个人英雄主义的机会。 [02:40:44]
张小珺:是研究员还是产品经理? [02:40:56]
姚顺宇:我觉得 Claude Code 几乎,至少它的开端,是他自己想要做这个事,提高自己或者同事的工作效率,最后变成了一个对所有人都很重要的事。 [02:40:57]
张小珺:Boris 是一个什么样的人? [02:41:12]
姚顺宇:我跟他没有太多的个人接触,我更多是看到他的工作,在公司的时候。 [02:41:15]
张小珺:他是 researcher,是吧? [02:41:17]
姚顺宇:对,但他主要是在产品那边。所以 Anthropic 是有专门的产品部门的,以前没有分得那么开,后来有单独的。 [02:41:19]
张小珺:对,Anthropic 感觉是很懂 AI 的产品。 [02:41:28]
姚顺宇:对。我觉得这就是为什么刚才开始说的时候,觉得产品经理可能还是目前挺难被 AI 取代的,好的产品经理。 [02:41:32]
张小珺:而且它好像不是上一代那种产品经理,它不是那种 feature 的摆放什么的,它好像是知道怎么跟 AI 协作的某种产品经理。 [02:41:43]
姚顺宇:对,我觉得上一代产品经理可能,但也不全是,上一代也有些交互方式级别的变化。每一次交互方式级别变化,其实就带来一个很大的产品。比如说抖音就是一个交互方式级别改变的产品,它一下就打开了新的方向。然后我觉得可能 Claude Code 也是一个这样级别的产品。 [02:41:53]
张小珺:对。Claude Code 和 Work 都是 Boris 做的吗? [02:42:17]
姚顺宇:我不知道 Work 是谁做的,我已经离开了。 [02:42:22]
张小珺:那说说你到了…… [02:42:24]
在Google DeepMind训练Gemini 3 [02:42:25]
张小珺:那说说你到了 Google DeepMind 以后的工作吧,工作重心发生变化没有? [02:42:24]
姚顺宇:还是发生了一些变化的。我自己主要是在做 ML coding,和一些比较 long horizon 的事。这两个事刚才都大概提了一嘴。ML coding 主要就是想要实现刚才说的,完整的 AI 自己研究自己这个想法。当然这个过程中有很多实际的问题,也有很多实际的细节要去解决。大的方向上,大家其实比较有共识,知道该怎么做;但还是回到细节,细节上有很多要处理,比如怎么样选取合适的 data,怎么样选取合适的反馈信号,以及它又带来新的基础设施挑战。现在就是要把这些事情慢慢摸清楚。 [02:42:30]
姚顺宇:Long horizon,就是刚才说的另外一件事:想要实现模型能够,还是那句口号,train with finite, but use as infinite。我觉得想要把训练的长度一直变长,可能并不是,单个训练语段的长度一直变长,可能并不是一个很现实的方案。更现实的是,你如何在有限的 context 下去做更长的工作。其实你去想人就是这个样子,人的 context 其实是很短很短的。你现在问我昨天晚上吃了什么,我是一点也想不起来了,你可能还想起来,我是一点也想不起来。为什么?因为它对我现在这个场景来说不关键,对吧。我现在知道昨天晚上吃什么又能怎么样?所以我选择把它忘掉。人本质上 context 是很短的,但他能够选择性地遗忘,然后选择性地去 retrieve,把这些重要的、跟当前场景相关的信息再抓回来。 [02:43:21]
姚顺宇:所以我觉得那个可能也是对我来说很有趣的方向。这两件事其实有点相关、有点互补。为什么?这两个事其实都在模型使用工具和环境,以及不同模型、不同人交互的这个大的范畴内。在这个范畴内,大家过去完成的那个节点就是 agentic coding:又是工具,又和环境交互。环境就是虚拟机,或者你自己的电脑。 [02:44:26]
姚顺宇:然后这个事横向会长出不同的使用场景。作为 AI research,其实就是横向场景里的另外一个场景。而这个场景不仅横向上是一个新场景,它在纵向上也让事情的尺度变得更长。因为完成一个代码补全这类是很快的事,但做一个完整的 AI 研究,或者做一个计算机科学研究,那是一个很长的过程。所以它就像一个 T 字形,横向也有延展,纵向也有延展。 [02:44:59]
张小珺:那 long horizon 是不是还是个科学问题? [02:45:37]
姚顺宇:有科学问题,也有工程问题。我觉得它科学问题更多的是,怎么把不同的方案尝试一下,以更科学的方式尝试之后,找到最后我们要走的那个方案。 [02:45:41]
张小珺:这有哪些方式? [02:46:00]
姚顺宇:我可能不能说得太细,但粗地来说,有一些方案是从 pre-training、从预训练的角度来说。比如有一些方案类似于稀疏的 attention,sparse attention,DeepSeek 也有一些工作,学界也有很多工作。从 post-training、后训练的角度,也有后训练的方案。比如外界你每天用的 Cursor 这些,它们就是很强的 context management,管理 context 的能力:它可以让模型去选择,我把中间某一段觉得不重要的扔掉了,然后那一点重要的就存在某个文件里,到时候再取回来。 [02:46:01]
姚顺宇:大的来说,这两种方案都有人在研究。当然具体实施细节不止我刚刚说的这些例子,刚刚说的只是比较公开的例子。具体实施细节,每个公司还有自己的小秘密,但我觉得最终大家也都会互相知道。我个人花更多时间在后训练这部分方案上,因为首先我自己本来就没有花正式的工作时间在预训练上,预训练对我来说更多是一个我感兴趣、想学习的事,但我自己没有在那上面做太多工作。另一方面是,我觉得后训练的方案更符合我自己对这个事的理解。刚才一直在说的一件事就是,能不能用短的 context 去训练,但是它能做长 context 的事。预训练这些方案,本质上还是需要你有长 context 训练,它需要数据里有。所以它不太符合我对这个问题的哲学。 [02:46:52]
张小珺:所以你现在看,可以吗?用短的去训练长的? [02:47:47]
姚顺宇:我觉得可以,是一定可以,但是我们不清楚哪个方案最有效。 [02:47:52]
张小珺:Gemini 的长文本做得很好,好像,为什么呀? [02:48:00]
姚顺宇:有些技巧,有一些让我很惊讶的技巧。 [02:48:02]
张小珺:这是预训练的事,是吧?长文本做得很好。 [02:48:12]
姚顺宇:一定是两边都有的。但是我只是说,对我来说,预训练那边那个技巧还是挺让我惊讶的。 [02:48:16]
张小珺:OpenAI 在长文本上做得没有 Gemini 好。但是好像说法也不一样,有些人也说 Gemini 3 这一代长文本反而变差了一点之类的。 [02:48:26]
张小珺:那你加入 Gemini 的时候,感觉大家对 Gemini 预期不高? [02:48:37]
姚顺宇:没有,我对 Gemini 当时预期已经挺高的了。 [02:48:42]
张小珺:你那是几几年的事情? [02:48:46]
姚顺宇:我是去年 9 月底。 [02:48:47]
张小珺:那个是 Gemini 发 Gemini 3 之前。你对它的预期高,其他人呢? [02:48:51]
姚顺宇:我觉得业内的人当时对 Gemini 都还是印象不错的。我觉得之前一直觉得 Google 很有危机,在 OpenAI 的冲击之下。大家的感知可能在 Gemini 2.5 这一代产生了变化,因为 2.5 是一个明显能看出来 Google 开始上道了。当然之前 Gemini 1.5 也有一些小的事情,在某一个局部方面做得已经算很强,很明显它已经不是很落后。但是 2.5 是真的一代,我觉得开始有人开始用的模型。我自己其实也用过 2.5,用得挺多的。 [02:48:59]
张小珺:你是看到 2.5 去的 Gemini? [02:49:42]
姚顺宇:我去 Gemini 跟这没关系。主要还是我知道 Gemini 大概是一个什么样的项目,有很多人在做不一样的研究,然后我也知道一些人做研究很有意思。很多 Gemini 的工程师,我觉得技术是非常非常强的,我从他们身上学到了非常非常多。对我来说那是原因。但是从大家的感知上来说,我觉得业内的人在看到 Gemini 2.5 之后,可能就已经意识到 Gemini 是要赶上来了。 [02:49:44]
张小珺:那就你来说,是不是你加入也是 Gemini 的一个信号? [02:50:22]
姚顺宇:不是我加入它的一个信号。 [02:50:25]
张小珺:那你为什么加入 Gemini 呢? [02:50:27]
姚顺宇:那就是刚才说的,主要是因为我当时想做事。 [02:50:28]
张小珺:但你知道 Gemini 的人强,对吧? [02:50:30]
姚顺宇:对。那个是因为他们来找我的时候,肯定也会让我去和他们的人聊。从聊的过程中,其实是能看出来状态怎么样的。 [02:50:33]
张小珺:是他们来找你? [02:50:48]
姚顺宇:对。但是我觉得最后就变成双向奔赴了。 [02:50:49]
张小珺:当时 OpenAI 不是选项吗?如果你想从 Anthropic 离职,OpenAI 也是当时的选项。OpenAI 当时应该还是比 Gemini 从性能上要强吧,在那个时候?不过那个时候是不是各种内部的内斗开始出现了? [02:50:53]
姚顺宇:OpenAI 确实也是我当时的一个选项,当然还包括像 xAI 之类的。我觉得 OpenAI 最后没有去的一个重要原因,还是我对它的文化,至少当时来看,是有比较大的担心的。用粗话来说,就是感觉它做事的人没有 Gemini 多,更多是玩小圈子的。这个我很 care。 [02:51:08]
张小珺:所以一种文化和人的亲近感让你去了 Gemini,然后你又赶上了到 3 的那个转折点。Gemini 3 应该对它来说是一个很大的转折时期,是吗? [02:51:40]
姚顺宇:我觉得从实际效果来说,是两件事让 Gemini 产生了一个大的转折,变成了市场里举足轻重的玩家:是 Nano Banana 和 Gemini 3,两件事连着。我觉得如果只有 Gemini 3,可能也不会有现在这么好的效果。因为当你的市占率连 10% 都不到的时候,你这个模型好一点坏一点,等它传播出去,其实太慢了。但是 Nano Banana 做到了一件事: [02:51:55]
姚顺宇:但是 Nano Banana 做到一件事:首先市场上这件事很爆款,然后大量的人去下载了 Gemini 的 App,Gemini 3 又紧接着推出,把这部分用户留下来了。所以现在它变成了一个举足轻重的玩家。可能就是,如果没有 Gemini 打这么一拳,那其实 OpenAI 的位置很爽,它市占率已经高到,你其实模型上干点啥,对它来说可能影响都没那么大。甚至说实话,我觉得真正普通人用模型的时候,对于模型能力的感知其实是很弱很弱的。绝大多数人甚至都不用 o 系列模型,绝大多数人都用普通的 GPT。所以我觉得对于 Gemini 来说,一个 Nano Banana 把量打起来,然后 Gemini 3 又把人留下来,是一个很关键的事。它事实上抢走多少 ChatGPT 的用户,我不知道现在具体的比例,但是我的感觉是,Gemini 可能市占率会在 20% 左右,但是我确实没有仔细去检查过现在的数据。 [02:52:23]
张小珺:就是从事后归因来看,这两个因素共同促成了 Gemini 今天对于 OpenAI 的冲击。那你从内部视角肯定能更前置地知道,为什么就发生了什么,Google 会有这样的变化? [02:53:36]
姚顺宇:我觉得首先就是,Google 的技术储备一直是够的,人一直是够的。然后组织上来说,后来变得越来越清晰,就是有一个更好的框架来让大家一起干这个事了,所以可能会慢慢有些进展。 [02:53:47]
姚顺宇:然后我觉得从某种意义上来说,我作为一个局外人,我觉得 OpenAI 是救了 Google 一命。因为大家以前一直都担心说,这个聊天机器人会不会完全把搜索取代掉。如果这个事真的发生了,Google 其实很难受。但是好在 OpenAI 先把这事做了,然后让 Google 意识到了这个事很重要,但是它又没有把这个事做到底,又没有把这个事做到极致,又没有完全把 search 搜索干掉,可能就吃掉了一些份额。结果让 Google 自己把聊天机器人也追上来了,那现在难受就是它了。你要万一,比如说有一个公司,假如在一个虚构世界,有一个公司不仅做了 chatbot,而且还一路高歌猛进、越做越好,真的一把就把你搜索吃掉了,完全没有给你反击的机会,那就很难受了。 [02:54:08]
张小珺:那 chatbot 没有吃掉搜索,是因为 OpenAI 干得不好,还是为什么呢?还是因为这个形态干不掉搜索? [02:55:08]
姚顺宇:我觉得两方面其实都有。首先,目前的 chatbot 这种交互方式其实不会完全吃掉搜索。因为它比搜索强的,就像刚刚最早时候说过,它比搜索强的一点是,它有很强的交互性,你可以追问,然后它可以帮你把一些很复杂的信息浓缩,这是它很强的地方。所以这部分使用场景,它确实会把搜索的人抢掉。但是搜索里还有一些非常愚蠢的场景,就是你有一个特别简单的事,你根本不想浪费这个时间在聊天机器人里。比如说我就搜买大米,我就一搜,买就完了,结果我还非得去问 ChatGPT,我还非得问哪个好,然后它还在那儿转圈转半天,给你一个 link,你再一点,再跑到网页去买,对吧?没有那个必要。所以从实际的使用上来说,它目前的形态并不足以把搜索完全吃掉。 [02:55:16]
姚顺宇:当然从另一个角度上来说,它可能在聊天机器人这个世界上,也没有做到登峰造极。它还真的让 Google 把它给赶上了,那就是它自己的问题。 [02:56:11]
张小珺:现在还不算赶上吧?在产品上。 [02:56:23]
姚顺宇:我觉得在产品上不算赶上,但是在模型上已经是赶上了。 [02:56:27]
张小珺:但是投资人投 OpenAI,他们会说,他们下注的时候是认清楚 OpenAI 其实是一个产品公司的,它的护城河其实是产品和品牌。那从今天来看的话,似乎 Google 还没有在这件事情上能够,不能说超越 OpenAI 吧,赶上 OpenAI 吧。 [02:56:30]
姚顺宇:对。我觉得这其实都是我作为一个局外人、观察者的视角来说。 [02:56:52]
张小珺:你今天是点评家。 [02:57:00]
姚顺宇:观察者的角度来说,我觉得 Google 传统上在产品就是有点慢,是一直都比较慢。所以你说 OpenAI 会不会在产品上有优势,我觉得是有可能的。 [02:57:03]
姚顺宇:然后 Google 特别擅长的一件事是什么?是找到一个极为简单的产品形态,大家都长一个样,它就疯狂给你卷技术,你就卷不过它。我觉得那个事是 Google 擅长的,因为搜索引擎就是这样的一个事。搜索就是一个典型的,大家都是一个框、一个键,但它就是比你搜得快,搜得比你准,你拿它一点办法也没有。 [02:57:18]
姚顺宇:所以这个为什么我感觉一直以来 Google 都处于一个做得很好,华尔街都不太认可的状态。大家总觉得,这公司壁垒到底在哪?也没有什么产品的巧思,也没有什么留存的机制,但它就活到了现在。 [02:57:43]
张小珺:所以它技术好的原因是啥?就人好吗? [02:58:05]
姚顺宇:我觉得还是氛围吧。就是说,它是一个特别特别重视,以前特别重视工程师,后来特别重视研究的这样一个氛围。所以它很适合那种通过技术能力溢出产品能力的产品。 [02:58:09]
张小珺:如果从这个角度来看的话,那你觉得 OpenAI 的位置是稳固的吗?现在。 [02:58:24]
姚顺宇:我觉得谁的位置都不稳固。我觉得 AI 的形态还有很长的路要走,没有到什么终局之战这个地方的感觉。 [02:58:28]
张小珺:感觉国内已经有点这意思了。 [02:58:47]
姚顺宇:我不理解。 [02:58:52]
张小珺:为什么不理解? [02:58:53]
姚顺宇:我很费解。国内觉得我们在争夺一个 super app,super app 就是此消彼长的。我觉得 condition on 聊天机器人这个事就是 super app,那可能可以争夺一下。但是问题是,你这个形态是不是 super app 的那个形态?会不会别人就是哪天出了一个完全不一样的形态,然后你的功能变成了那个东西的一个子集? [02:58:55]
张小珺:这是很有可能的是吗? [02:59:21]
姚顺宇:我觉得没有什么,我看不出什么不可能。 [02:59:23]
张小珺:为啥 chatbot 不是那个终极形态?但是这么多年我们也就看到这个了,都是一个对话框。 [02:59:28]
姚顺宇:我觉得在这个事上,我确实没有什么理性或者量化的标准来说明。更多的是,你觉得这个事很蠢,就是这个模型明明有那么多的能力,但居然用的方法是 chatbot,就不太 make sense。 [02:59:35]
张小珺:所以需要一个产品经理来解放一下模型的能力。人类到现在只通过 chatbot 去跟 AI 沟通,让你觉得很蠢是吧?那应该用什么去跟 AI 沟通? [02:59:51]
姚顺宇:没想明白,要想明白我就干了。 [03:00:04]
张小珺:你没有告诉我,Google 内部到底发生什么变化,然后有了外界看到的模型能力的突飞猛进。 [03:00:08]
姚顺宇:对,就是刚才说的,我觉得组织上更清楚了。组织上一旦清楚的话…… [03:00:15]
张小珺:组织变化了吗? [03:00:20]
姚顺宇:对。尤其像预训练,现在变得非常非常清楚,就是谁负责什么事情,然后每一个点、每一个节点上,谁是负责人,这些事情都很清楚。 [03:00:21]
张小珺:以前是混沌的吗? [03:00:31]
姚顺宇:以前最早的时候很乱。我没有最早时候在那待过,但是根据同事,或者我以前认识的人的描述,以前还是更混乱一些的。然后现在至少预训练也变得非常非常清楚,加上 Google 一直有的这种比较强的技术背景,然后它做事也比较系统,所以我觉得预训练在 Google 是一个非常非常可控的事、可预测的事。 [03:00:32]
姚顺宇:你能够知道下一代不会差,然后可能你还会知道它会有多好。 [03:00:57]
张小珺:通过 Anthropic 这种自上而下的管理,它也不错。那 Google 是这种自下而上,它依然是自下而上的是吗? [03:01:10]
姚顺宇:对。 [03:01:26]
姚顺宇:它比以前肯定要更自上而下了,比起最早的时候,但是它比 Anthropic 来说,还是更自下而上的。 [03:01:26]
张小珺:就是好像不同的文化都可以,是吗? [03:01:24]
姚顺宇:对。对于模型的训练来说,大公司有大公司的答案,startup 有 startup 的答案。 [03:01:28]
张小珺:所以大公司是,你刚刚也说,它是一个完全不一样的趋势,它是一个不一样的方法。Google 是什么方法现在? [03:01:32]
姚顺宇:我觉得 Google 更多地是,像这种比较确定性的事,比如像预训练已经是一个比较确定性的方式了,那可能 Google 就会更像把它做成一个工程项目。Google 的工程管理能力又很强,所以它就能慢慢把它做好。 [03:01:39]
张小珺:什么叫工程项目? [03:01:56]
姚顺宇:工程项目的意思就是,你其实是非常 top-down 的一个组织,然后很清楚我们下一阶段要做的是什么事情,做这个事情中间需要由哪几个节点被处理掉。哪怕是做研究,也是有一个很清晰的框架告诉你怎么去验证你的结果是好是坏,evaluate 你的结果是好是坏。所以这个是 Google 很强的事情,在过去的…… [03:01:57]
姚顺宇:在过去的任何一个大的工程项目上,所以说,预训练其实我觉得现在进入到 Google 的舒适区里了。然后后训练当然有更多的不确定性,那可能后训练现在说,还是更 bottom-up 一点,大家可以广泛地试。 [03:02:24]
张小珺:你说 pre-train 也是一种 RL? [03:02:41]
Pre-train也是一种RL [03:02:43]
张小珺:你说 pre-train 也是一种 RL,为什么这么说? [03:02:42]
姚顺宇:我觉得你很难从纯技术的角度说,pre-training,就是预训练,或者说监督学习、SFT 和 RL 的本质区别是什么。因为预训练和 SFT,当然预训练和 SFT 本质也没啥区别:你无非就是把拿到的那些数据当成 ground truth,然后把那个当成你的 expert,当成专家输出,然后你朝那个专家输出的分布上靠。 [03:02:46]
姚顺宇:强化学习可能就是更宽广的一个集合。它是说,首先本来输出的东西也不是一个给定的专家,而是我自己产生的一些东西;然后里面有好的结果,有不好的结果,好的结果要往上靠,不好的结果要远离它之类的。所以从某种意义上来说,pre-training 和 SFT 是强化学习的一个子集。 [03:03:14]
姚顺宇:但是这两件事确实在现在这个时代是有区别的。我觉得对我来说,它的最大区别在数据上。pre-training 的数据更多还是要 distribution 够好,就是分布足够广,或者足够符合你想要覆盖住的那些范围,但是数据质量并不需要非常非常高。post-training 就反过来,它分布上来说可能要窄很多,但是它有的那些数据,在质量上会要求非常高。所以目前来说,对我来说,它俩最本质区别还是在数据分布上的区别,而不是在算法或者训练范式上的区别。 [03:03:39]
张小珺:那像不同的 lab,它是怎么分这个组的?预训练和后训练有不同吗,还是都一样? [03:04:19]
姚顺宇:Anthropic 和 Google 比较类似,两个都是预训练是预训练一个组,然后后训练是后训练一个组。OpenAI 可能比较混沌。最早的时候,它是分三个组:有 pre-training,然后还有强化学习,就是 Strawberry 草莓组,然后还有一个 post-training 组。我没在那干过,但我的理解是,它的 RL 组,Strawberry,和它的 post-training,其实是别的公司的 post-training 和产品,它可能是以一种不一样的方式给它切了。 [03:04:24]
张小珺:它把后训练当产品做,就是它的一部分后训练其实是产品,是在做产品。它是名字没改过来呢? [03:05:09]
姚顺宇:完全是。因为绝大多数公司的产品其实不太训练模型了,更多的是把需要的模型特质告诉训练模型的团队。但是它好像就是,它的 post-training 既从某种意义上说自己又是产品,但自己又能训模型。 [03:05:19]
张小珺:这是不是它对于产品的理解,就是需要训练模型的人来做产品? [03:05:38]
姚顺宇:对,有可能。有可能是件好事。但是它后来组织变化也很多次,我现在也不知道他们组织成啥样。 [03:05:42]
张小珺:你们最近发了几个模型,然后我看到你也都参与其中,Gemini 3、DeepThink、Gemini 3.1 Pro。 [03:05:51]
姚顺宇:我觉得可能只能说是有幸参与。again,就是感觉都是集体工作。 [03:05:59]
张小珺:你为什么现在都变成明星人物,然后每次都被拎出来单独写一下? [03:06:09]
姚顺宇:我不明白。我觉得其实不太好,每次看到之后我都感觉,明天该怎么去办公室见同事呢? [03:06:13]
张小珺:会有异样吗,在办公室? [03:06:24]
姚顺宇:就还好。我觉得同事可能还是人比较好,他们可能不是特别看重这些事。但说实话,我是觉得我参与过的任何一个项目,不管是在 Google 还是在 Anthropic,没有我都会发生,都一样会发生,效果也不会变差。我觉得大家现在每个人都是冲浪的人,本质上是那个浪,而不是你那个冲浪的人。 [03:06:25]
张小珺:浪是 AI 吗? [03:06:55]
姚顺宇:对,就是 AI 这个事情本身是这个浪,它会往前走。不管你冲不冲这个浪,这个浪都会拍到岸上。只是说有人可能就冲了这个浪,有人可能就晚了一点,没赶上那个浪尖。 [03:06:57]
张小珺:好,你有幸参与了这几个工作的什么? [03:07:08]
姚顺宇:主要可能就是一些算法设计上的小细节,会一块讨论;然后有一些数据上的东西。但是数据上的东西,我觉得可能对之后的工作会影响更大一些。 [03:07:14]
张小珺:这几个模型有范式变化吗? [03:07:30]
姚顺宇:我觉得没有哪个变化大到了从不知道怎么做大尺度的强化学习,到大尺度强化学习那个级别的变化;没有哪个变化大到这个地步。肯定都是会有一些小小的变化。 [03:07:36]
张小珺:这几个小小的变化,你能讲一讲吗?就这几个新的模型。 [03:07:52]
姚顺宇:不能讲。很不幸,对不起。 [03:07:57]
张小珺:最近我感觉模型已经发麻了。 [03:08:02]
技术预测 [03:08:04]
张小珺:最近我感觉模型发得已经麻了,国内一堆模型,国外也是很多模型:OpenAI、你们这边,国内 GLM、字节,DeepSeek 一直期待还没发,Kimi。你能不能给大家划划重点? [03:08:02]
姚顺宇:我觉得,从某种意义上来说,都没那么值得关注。 [03:08:23]
张小珺:大家现在在争什么?感觉群魔乱斗。 [03:08:30]
姚顺宇:我觉得有一些争的事情,其实现在看来,在这个时代已经没那么重要了。因为过去带来的惯性是,大家会争各个 benchmark 的第一名,证明自己模型的基本能力很强。这个事情到现在,其实已经到了公众关注的那些 benchmark 都有点打满了。你想,最早大家关注 SWE-bench,SWE-bench 大家都打了80多。幸亏没有人超过83,因为最近 OpenAI 刚发了一个 post,说超过83的题目都是不良好定义的。幸亏没人超过,谁超过谁尴尬。然后大家以前 reasoning,就是打完 AIME 打 IMO,打完 IMO 打 ARC-通用人工智能 这些。ARC-通用人工智能 在 Gemini 3 之前,大家最高的可能也就十几这样子吧,然后大家就说登天难。然后 Gemini 3 给变成30多了,Claude 4.5 还是 4.6,4.6 应该是,变成60多了。然后 Gemini 3 Deep Think 一下打到80多。所以这个也打满了嘛。所以现在感觉光靠打这种公众认知的模型能力,其实已经没啥太大的意思了。所以从这个角度上说,本质上没有什么太多重点。虽然大家发得很快,发得快也说明,其实这道题对大家所有人来说都变简单了,大家都知道 know-how 了,没有什么秘密了。 [03:08:33]
张小珺:对。还是那个冲浪理论,还是这个浪在往前走。大家下一个可能在寻找的目标是什么?下一个范式级的变化是什么?还会有吗? [03:10:15]
姚顺宇:我觉得我刚才自己聊的那两个事,对,这两个我觉得可能没有到范式级变化,但是对于 Google 来说会很有价值。首先,MALCO 是因为 Google 自己是一个 AI research 大户,又是 AI research 最全栈的:它不仅有训练模型这些部分,还有设计硬件的部分,有从硬件到模型的部分。这一整套东西如果能被加速,或者说被更好地管理,那可能对这个公司来说很有价值。Long horizon 就不说了,所有人都知道,所有人都觉得很重要。所以我觉得那个对我来说不能说是范式级别,绝对不到范式级别,但是是一个很有价值、需要在未来几个月之内能够看到曙光的事。然后我觉得范式级可能还是那些更非确定性的东西,比如说多模态生成。那个我觉得可能会有一个英雄吧,或者会有一个英雄集体吧。像那种可能会有一些。 [03:10:34]
张小珺:还有聊得比较多的 continual learning、世界模型呢? [03:11:57]
姚顺宇:我觉得 continual learning 和这种 long horizon,跟刚刚说的没有本质区别。大家以前觉得这两件事差别很大,是因为 continual learning 会改变模型的一些权重。然后你做这种,比如现在开源大家做很多 context management,是不会改变模型权重的。但其实你想,这两件事没有本质区别,因为 context 里那些词自己的 KV 不也是一种权重吗?所以这两个方案最后谁能更有用,长期来说更有用,我觉得是不清楚的。但是它们本质上都是为了做刚才 long horizon 这种类型的事情。然后世界模型,一万个人有一万个世界模型。 [03:12:02]
张小珺:啥意思? [03:12:45]
姚顺宇:就是定义不清晰。首先我不知道什么叫做一个世界模型,其次每个人在说他们做的世界模型的时候,可能也在说不一样的事。比如说咱们俩做的世界模型,可能就和像李飞飞他们做的世界模型不是一个事。 [03:12:47]
张小珺:描述一下区别是? [03:13:05]
姚顺宇:我不是特别了解外面像李飞飞他们这些 lab 做的事情到底是怎么样的。但是我们这边的世界模型更多是一种 end-to-end 的训练。它想要的结果是说,比如视频生成,是大家能够给定一个描述,然后生成一个视频;但它想要的结果是,我不仅能够生成一个视频,我是能生成一个场景。什么叫一个场景?场景就是说,我生成了这个时刻的状态,然后我还可以再给它一个 condition、一个条件。这个条件是我在这个状态下做了一项什么样的动作,然后它下一个时刻状态会变成我上一个时刻状态和动作的函数,然后它是 end-to-end 地去训练这样的能力。所以说,这个可能是一种方案。然后我首先也不知道大家最后想要的到底是什么结果,我也不知道大家对自己世界模型的定义到底是什么,所以我觉得更多还是一种探索状态。 [03:13:08]
张小珺:刚才我们一直没有聊到…… [03:14:05]
组织搭建 [03:14:06]
张小珺:刚才我们一直没有聊到一个组织,是 xAI。我们刚才聊了 Anthropic、OpenAI、DeepMind。xAI 呢?xAI 我是一点不明白。作为点评嘉宾说一下,他们怎么最近这么动荡? [03:14:05]
姚顺宇:我觉得他们一直都挺动荡,但为什么最近这么动荡,我也不知道。我其实跟 xAI 接触得没有那么多,然后我接触的一些人现在也走了,所以我也不知道他们发生了啥。 [03:14:21]
张小珺:对了,你刚才说,技术的一号位能不能 make bets 是非常重要的。那在 Google 这样的一号位是谁?这个英雄是谁? [03:14:42]
姚顺宇:我觉得英雄可能在不同的阶段是不一样的人,但是英雄的背后都有一个人,就是 Sergey,就是 Google 的 co-founder。我觉得最终很多大的决定,可能不是由他来决定怎么做,但是最后拍板得他来拍。 [03:14:52]
张小珺:现在也是?Demis 呢? [03:15:16]
姚顺宇:我觉得可能更多在一线出现的是 Koray,就是 DeepMind 的 CTO,然后他现在也是 Google 的 SVP。 [03:15:22]
张小珺:哦,Demis 在负责什么? [03:15:32]
姚顺宇:我觉得 Demis 可能管了更多偏 science 的事情,比如药物 design、Isomorphic Labs 那些事情。 [03:15:35]
张小珺:对对对。哦,Gemini 他管得不多? [03:15:44]
姚顺宇:至少从我的视角来说,我看到更多的也是 Koray。但是有可能公司管理层的事,其实也有很多是我看不到的部分,那我就不清楚了。 [03:15:47]
张小珺:你刚才也提到,AI 整个是一个系统。经过了你这两年的工作,你对于怎么系统性地做 AI 有什么认知吗? [03:15:59]
姚顺宇:有几方面。一方面,从整个系统来说,它需要一种比较科学的态度,就是你要清楚地理解自己做了什么样的预设。然后我在做一个改变的时候,其实有哪些因素是相关联的,哪些因素是不相关联的。 [03:16:10]
姚顺宇:这是从组织情况来说。从人的情况来说,其实需要人很 reliable,就是需要很负责任的人。每一个系统、每一个评价框架都是很容易被 hack 的,因为你总可以做一些事,让你的指标看起来很好看。但是一个值得信赖或者踏实的人,他其实会想:自己做的这件事,如果效果好的话,是不是真的在大的市场上效果好?是不是我中间漏了那些因素? [03:16:29]
姚顺宇:所以其实把事做系统,听起来是一句话,但真正做起来是很复杂的事。有很多细节,有很多阻力,因为它其实是违背人性的。每个人个人的人性,可能都是为了让我自己做的东西能够显得更好。但是对一个公司或者一个组织来说,最有利的事是把整个公司的系统性做得非常扎实、非常严谨。 [03:17:01]
张小珺:这个能不能举一点例子?好像有点抽象。 [03:17:25]
姚顺宇:对,它确实有点抽象。 [03:17:30]
张小珺:所以这也是你说,没有那么多个人英雄主义的一个表现? [03:17:31]
姚顺宇:对。人要变成一个更可信、可靠的系统组件。 [03:17:35]
姚顺宇:我可以举一个可能也比较鬼话的例子。比如说做强化学习,你可能可以做一个算法,出来效果比别人好。但是可能更关键的问题是,你要问:在真正的大尺度下,我是不是能够保持稳定性一样好?我比别人的东西效果好,是不是因为我用了不一样的 data?以及我是不是用了更多 training 的 FLOPs,是不是用了更多 sampling 的 FLOPs?我具体在真正生产的、最后大的 production run 里面,到底哪个才是我的限制因素?我该看重哪个指标? [03:17:43]
姚顺宇:这些可能都需要研究员自己对于这个系统怎么运作有一个好的理解,并且对公司负责任,才能做到。否则你很容易做到一件事:比如你在考虑 training 的时候是比别人好的,但考虑 training 加 sampling 是比别人差的;你总可以显得你只是在 training 上更好,但这就很糟糕。所以这既需要你个人负责任,又需要组织所建立的体系里,能够尽量发现这些有意或者无意的边界事情。 [03:18:27]
张小珺:但是你作为个体的话,你不知道怎么样是对全局最好的呀。 [03:19:01]
姚顺宇:其实是需要。我觉得如果一个研究员做不到对全局去考虑的话,他就不是好的研究员,在现在这个时代。这个和你在学术界做 research 是很不一样的事。因为在学术界做 research,本质上是一人吃饱、全家不愁的状态,就是我为我的项目负责,对吧?我为我的可重复性负责。但是在一个公司里,你其实更多的时候是,我得为这个公司负责。这是两种完全不一样的心态。 [03:19:06]
张小珺:那你这种自觉性从哪里来的? [03:19:38]
姚顺宇:不知道。我觉得我感觉就是,拉不下脸。 [03:19:41]
张小珺:拉不下脸是什么? [03:19:49]
姚顺宇:就是你对一个公司负责任,是你和这个公司的契约的一部分。其实我觉得没什么道理不这么做,不这么做是没有道理的。 [03:19:51]
张小珺:所以个人英雄主义会破坏这种整体性? [03:20:00]
姚顺宇:我觉得如果只是为了个人英雄主义而做事的话,很有可能是会破坏整体性的。当然实际可能你能力很强,然后你真的成了一个英雄,那也是有可能。 [03:20:05]
张小珺:因为你也经历了两个组织了,你觉得什么样的组织更能够激发创新,在这个时代? [03:20:17]
姚顺宇:我觉得其实这是一个很有争议的事。因为刚才也聊了,不同组织可能有些比较自上而下,有些比较自下而上。一个自然问题是,比如这两种组织,哪个更能够激发创新?过去的观点是,自下而上是激发创新的必要条件,因为每个人得有自由,有自由才能有创新。但是完全自下而上,发现其实也不行,因为那就乱。 [03:20:24]
张小珺:那就是 Google 之前的样子,是吗? [03:20:57]
姚顺宇:对,至少在我了解到的印象里是这样。它就乱,大家甚至都不知道我做这个事有什么用,那可能也不好。所以可能需要有一个人,或者有一个小的集体,能够把这两件事稍微融合一些。 [03:20:58]
姚顺宇:所以为什么我觉得一个组织运行得好不好,看起来是组织的问题,但其实归根结底是技术 leader 的问题。这个技术 leader 有没有特质,能够把这个组织运行得很稳定。因为最好的状态往往都是最不稳定的状态,很容易往不好的方向塌缩,所以得有一个 leader 来控制这个事。 [03:21:15]
张小珺:那你觉得都是技术 leader 来做这个事情,而不是 CEO 来做这个事情? [03:21:40]
姚顺宇:当然每个公司的 CEO 可能有不一样的职责,但是得有一个 leader。我觉得至少得有一个 leader 有两个特质,才能去做这个事。一个特质是他自己有救火的能力,不是说他光嘴上说要做什么,而是有一件事真的遇到困难了,他能自己下场去带人把这个困难解决掉。当然绝大多数时候,一个 leader 可能是不会有时间去做这个事,但他至少有这个能力。 [03:21:48]
姚顺宇:第二个重要特质,就是他得能够理解别人。哪怕一件事可能是他不做的事,但他能够理解到为什么别人做那个事重要,能够容得下别人,那可能是另外一个特质。 [03:22:17]
张小珺:你觉得 Google 的 TPU 在哪些方面表现得比 GPU 更好?劣势是什么? [03:22:30]
姚顺宇:我觉得从纯硬件的角度来说,很难说哪种硬件真的好或者坏,尤其是在这种大规模商用的情况下。因为本质上来说,GPU 和 TPU 抛开硬件的区别,使用上最大的区别就是:GPU 有比较好的开源生态,TPU 没有。但这个事其实在大规模商用的时候并不是一个问题。比如 Google 自己用 TPU,自然会花时间去搭这个基础设施。而基础设施就是,你可能只跑 1000 张卡,那可能是一个很大的负担;但你跑几十万张卡的集群,搭一个基础设施也不是一个多大的事。 [03:22:37]
姚顺宇:所以从实际的大规模商用来说,没有哪个孰优孰劣。但是这两个确实有一些设计理念上的区别。比如 GPU,至少后来这几代 GPU 我没这么用过,像 Hopper 那代 GPU、H 系列 GPU,它的设计是说,一个 pod 里面可能没有多少张卡,比如八张卡,然后这八张卡之间可以两两互联,NVLink 非常快,所以这一个 pod 几乎没有什么 communication-bound。但是 TPU 可能就反过来,它是说我抛弃了卡之间两两互联,但是我能尽量把更多的卡放在一个大的架子里面。它有这种三维 torus 的设计,所以它一张卡就只有在三个方向连三个最邻近的,但是它整个集群…… [03:23:17]
姚顺宇:但是它整个集群可以连成一个大 pod。然后如果你的 compiler,或者你的 sharding 逻辑写得足够好的话,你是可以利用这样的东西的。其实就等效来说,你会获得更大的存储空间,然后也会减少很多通信负担。 [03:24:05]
张小珺:劣势是什么呀? [03:24:26]
姚顺宇:我觉得一个劣势就是,它肯定是比起 GPU 来说,至少在小的 scale 上来说,是更加固定的一种结构。所以说它的适用性,或者它的通用性,可能没有那么强。 [03:24:29]
张小珺:最近硅谷有很多 new lab 出现。 [03:24:45]
集体主义胜利 [03:24:48]
张小珺:最近硅谷有很多 New Lab 出现,你怎么看这个趋势?为什么他们都从这些模型大厂跳出去成立 New Lab? [03:24:45]
姚顺宇:我看不太懂。我的感觉是,绝大多数的 New Lab 都会死。可能有一些 lab 是真的有好的人,确实也开始在做一些事,比如说它还是在 deliver 一些新的东西。但有些 New Lab 就是……请帮我把名字哔掉。好,比如说,我就完全不知道他们到底要干嘛,然后这俩人其实已经远离这个专业好久了。 [03:24:55]
张小珺:我觉得 2026 年国内会非常看重 C 端的叙事,谁成为那个 super app。你怎么看?这好像在硅谷没有人讲这个事。 [03:25:30]
姚顺宇:对,因为美国 enterprise,就是公司或者说效率软件这个市场太大,而且利润也太高。所以对于美国来说,其实 C 端之前就只有 ChatGPT Plus,其实也没啥油水,没有什么利润。现在大家可能重心都会先放在这种效率软件或者 enterprise 上。 [03:25:39]
姚顺宇:所以中美的趋势已经发生差异化了。我觉得不只是 AI,过去的整个互联网都是不一样的。中国很强的就是 C 端,它能够想出一些非常复杂的产品性质或者结构,然后用一种你觉得很间接、很不自然的方式把利润滚下来。 [03:26:02]
姚顺宇:比如说抖音这种东西,并不是说你看视频,我看一个视频收你两毛钱。它是说你可以免费看视频,但是我可以偷偷加广告,可以偷偷做直播,可以偷偷做电商。但是做效率软件没这个事,做效率软件非常直接:我帮你写 code,我成本一个月 150,卖你 200,我挣 50,就是非常直接的事。 [03:26:25]
姚顺宇:我觉得美国在过去的体现,就是在这种很直接的产品上能够把技术做到极致,但是一直没有哪个产品让我觉得复杂到说让你离不开它,你又感觉不到它在挣你的钱,但它实际上挣了你的钱。 [03:26:56]
张小珺:你这么说,我突然觉得 Meta 就应该抄字节的作业。 [03:27:14]
姚顺宇:对,但我觉得 Meta 没字节强。因为 Meta 也找不到自己的生态位,然后美国又没有一个做这件事情的公司,豆包这个生态位还没有人找到。 [03:27:18]
张小珺:那 Meta 就抄豆包呗,它也不需要那么强的模型能力。 [03:27:31]
姚顺宇:对,但我觉得还是美国做产品,本质上做 C 端产品的人不行,比中国来说差远了。 [03:27:36]
张小珺:这是过去十年的积累是吗? [03:27:45]
姚顺宇:对。因为过去十年,在美国的正反馈都来自于做 2B 的、很多 enterprise 的事情。或者就是在美国这地方挣钱太容易,挣钱太容易的时候,你就不会费脑筋去想怎么挣钱。 [03:27:46]
张小珺:不是很多人来都要找你聊聊吗?有什么好玩的人?很多国内的人来,科技公司来。 [03:28:03]
姚顺宇:对,我觉得都挺好玩的。确实发现国内的人做产品,可能还是想法更复杂一些,想的回路更长一些,跟美国还是风格不太一样。美国就刚才说了,做个什么就拿这个卖钱了,很简单,就是这个事需要这个能力,有了这个能力之后,就是要比别人便宜,我就能挣得比你多,那你一点办法也没有。 [03:28:10]
姚顺宇:中国感觉都是这种:一开始不挣钱,但一旦它开始挣钱,你就拦不住它。它是真的能形成自己的飞轮,真的把那个轮转起来的时候,你再想插就插不进去了。 [03:28:43]
张小珺:那你觉得美国公司现在看得懂字节跳动没有? [03:29:03]
姚顺宇:我的感觉是没有,还没有。它都这么大了,你说是不是重视它,那肯定是重视的,大家肯定都知道字节是一家被严重低估的公司,从它的估值上来说是被严重低估的,这是我觉得大家很明确的事。 [03:29:07]
姚顺宇:我觉得也很明确,在消费者市场这一端,其实没有哪个美国公司能和字节竞争。但是它毕竟是一家中国公司,从公众意识上来说,它毕竟是一家中国公司。所以看懂它了吗?我不觉得大家看懂它。但是你看 Meta,其实也在主动地从字节挖人。 [03:29:22]
张小珺:你在 AI 行业有什么偶像吗?或者欣赏的人。虽然你在 AI 行业很短。 [03:29:49]
姚顺宇:没啥。我感觉我来这行业的时候,个人英雄主义时代已经过去了,所以也没有什么英雄。有时候你甚至觉得旧时代英雄有点蠢,所以说真的没有什么。 [03:29:56]
张小珺:你觉得谁比较蠢? [03:30:17]
姚顺宇:这个还是不说了吧,no comment。 [03:30:18]
姚顺宇:我觉得和做物理的时候还是不一样。我觉得做物理的时候,还是存在着一些真的比我聪明太多的人。比如我读博的时候,我那个年轻老板 Douglas Stanford,我觉得他就比我聪明太多了。可能也是看到他,我才觉得自己待在那个领域也没什么用,有他了还要我干嘛呢,对吧? [03:30:24]
张小珺:跑到 AI 来降维打击一下是吧? [03:30:46]
姚顺宇:也没降维打击。但是反正就感觉 AI 这个事,本来也不太需要脑子。真的不太需要脑子。我觉得这个行业最重要的特质就是靠谱,就是做事细,然后对自己做的事负责任,这是最重要的特质。你说那些东西有多需要脑子?我觉得都是一些本科生就能干的活。 [03:30:49]
张小珺:可是你说 AI 没有个人英雄主义,现在一个 AI 研究员的价格炒得多高啊,跟球星转会一样。 [03:31:18]
姚顺宇:我不知道是好事还是坏事。对我个人来说,我当然很高兴,我受益于这个。但是实际上来说,我并不知道这个事是不是一件好事。 [03:31:25]
张小珺:你觉得为什么价格会变得这么高? [03:31:41]
姚顺宇:我觉得可能一方面是,大家觉得这个事很稀缺。它实际上可能确实也没那么充足。因为训练一个人,虽然这事没那么难,但是你训练一个人是需要一个环境的,你得有那个机会去接触这件事,你才能学会这件事。你没有那个机会,再聪明也没用。可能过去能撞到这个机会的人没有那么多,所以在现实条件下可能是比较稀缺的。但另一方面,我觉得可能也是对人的炒作有点过分了。 [03:31:44]
张小珺:非常喜欢神话个体。 [03:32:18]
姚顺宇:对。我觉得真的,再说一次,这是个集体主义的事。 [03:32:18]
张小珺:那很多人也会很好奇,因为可能很多公司也想招 AI 的人。你觉得最重要的还是要靠谱,这个有什么衡量指标呢?怎么能够快速判断一个人靠不靠谱,做事细不细? [03:32:30]
姚顺宇:每个人都有一些自己衡量的方法,我当然也有一些自己的 trick。我以前好像有出一道面试题,我可以大概讲一下,这个应该不涉及秘密,我也应该可以讲。面试题其实很简单,就是我需要这个人在 24 小时之内完成一个强化学习的项目,从零到一。他要自己去选用什么样的模型,我告诉他有的资源是什么样的,然后他就去选用什么样的模型、什么样的数据、什么样的算法,然后把这个模型训出来。24 小时之内,我给他 24 小时去完成这个事。24 小时结束之后,他会跟我有一个小时的讨论。 [03:32:44]
姚顺宇:这个事其实在 AI 时代没有那么难。没有 AI 的时候,这个是不可能的,没有人能在 24 小时之内把它做出来。但有 AI 之后其实特别简单,因为 AI 能帮你全套做。但为什么还要做这个事呢?有很多原因,其中设计成这样的两个原因:一个原因是,我觉得在这个时代还去考察别人,比如代码写得好不好,其实没用,因为绝大多数人不用自己写代码。更重要的是,他能不能有效地利用 AI,这是一个方面的考察。 [03:33:27]
姚顺宇:第二方面是,这个事其实有一个陷阱:如果你全盘让 AI 做了,但你最后没有试图好好理解 AI 为你做了什么,那在那一个小时的讨论里面会露馅。那个是一个会挂人的地方。所以考验的另一件事,就是你有没有真的和 AI 形成协作,还是说你就全权扔给它。那个是我个人看中的事,其实也是这个人是不是做事靠谱的一部分。 [03:34:02]
姚顺宇:当然,这个题目的设计本身也有一些比较阴暗的巧思。就是说为什么设计成 24 小时?就是为了看这个人有多看重这个机会。 [03:34:32]
张小珺:可能熬夜。 [03:34:42]
姚顺宇:对。如果他足够熬夜,他就能撑住这 24 个小时。如果他撑不住…… [03:34:43]
姚顺宇:如果他撑不住,那只能说他可能对这个机会也没有那么看重。 [03:34:46]
张小珺:那对于比你更年轻的人,你觉得他们现在来 AI,还是一个很蓝海、很有机会的地方吗? [03:34:51]
姚顺宇:我觉得纯做语言模型,已经不是一个蓝海了。我觉得晚了,末班车已经发车了。 [03:35:01]
张小珺:末班车已经发车?末班那班是哪一班? [03:35:08]
姚顺宇:我感觉我入行的就是那个末班车。确实在我入行之后,当然还有些新的人,但我觉得他们就没有机会能接触到那么好的机会,就是能在一个还没有那么大的团体里做一件事情,他们可能就很少能遇到这样的机会了。 [03:35:10]
姚顺宇:但是我觉得 AI 是一个很大的方向,语言模型只是其中很小很小一个部分。还有很多别的事情,比如刚刚说的多模态生成,可能还有很多机会;机器人,那可能机会更多。包括更夸张的,比如说你能不能用 AI 去帮助一些真正的科学问题,比如帮助做量子调控之类的,那可能就是更蓝海,那就是 blue sky 的事。所以我觉得,对于足够年轻的人来说,可能做现在最热乎的事并不是一个正确的选择,做现在没有人做到的事,可能更多是一个好的选择。 [03:35:35]
张小珺:你自己未来会怎么发展?你会在 Google 很久吗? [03:36:13]
姚顺宇:我觉得应该不会。 [03:36:18]
张小珺:这么公开地说吗? [03:36:20]
姚顺宇:我觉得应该不会。我觉得我还是会尝试去挑战自己。 [03:36:22]
张小珺:要折磨自己。 [03:36:30]
姚顺宇:对,要折磨自己。但是我可能需要找到一个值得折磨我自己的事。 [03:36:31]
张小珺:如果 AI 不是本质地难的话,你会不会做得觉得无聊啊?你的挑战在哪儿啊? [03:36:39]
姚顺宇:我觉得它虽然不难,但是你知道和不知道还是有一个 gap 的。你从完全不知道其中的细节,到慢慢理解这其中的细节,理解它怎么运作之类的,这些事情我觉得还是需要花时间、花力气的。当你理解之后,我觉得这个事对你未来做产品相关,还是往别的 AI 方向去发展,长期来说都是会有帮助的。 [03:36:42]
张小珺:你未来想在哪里去盘桓? [03:37:08]
姚顺宇:我都没想好该怎么折磨自己。 [03:37:15]
张小珺:你应该不会再跳去另外一个大公司了吧? [03:37:17]
姚顺宇:应该不太会了。 [03:37:20]
张小珺:你觉得你在 Anthropic 学的,和在 Google DeepMind 学的有什么不一样? [03:37:22]
姚顺宇:我觉得还是挺不一样。我觉得在 Anthropic,你可以把一个事了解得很透,把 language model 这条线的方方面面了解得很透,它给你这样的机会。然后在 Google,它更多是一种横向,它有很多不同的方面、很多不一样的人,你能见到不一样的视角,也能见到不一样的研究方向。Anthropic 是因为它 bet 得足够坚定,所以你能理解得更纵向。 [03:37:25]
张小珺:你有想过用 AI 去解决物理问题吗?你们那个理论物理。 [03:37:55]
姚顺宇:有人在干,所以我觉得不需要我去干。 [03:38:02]
张小珺:你对这个没有本质的兴趣? [03:38:04]
姚顺宇:首先我觉得目前对我来说,它不是最高优先级。如果哪天我觉得我把我手上最高优先级的事解决了,又没有找到别的事干,我可能会去干这个事。 [03:38:07]
张小珺:你现在最高优先级是什么? [03:38:18]
姚顺宇:我现在最高优先级是把我刚才说的这两个事情,ML coding 和 long horizon,至少推进到一个我觉得比较稳定的状态。那个我觉得是我的最高 priority。但是可能之后也会有别的 priority。至于用 AI 做物理,我觉得是一个已经有很多人在试着做的事,多一个我不多,少一个我不少,不如就让别人先干。 [03:38:19]
张小珺:你有特别崇拜的物理学家吗? [03:38:49]
姚顺宇:也没有。有,但是有点多,不知从何说起。 [03:38:52]
张小珺:物理学家有,人工智能科学家没有。 [03:38:58]
姚顺宇:但也跟人的成长经历有关吧。我觉得一个成年人是很难真的崇拜一个人的,儿童可能会。 [03:39:00]
张小珺:崇拜过谁啊? [03:39:10]
姚顺宇:我觉得物理学家其实还有很多,真的挺强的。当然,大家都说的那种一百年前的人就不说了,什么爱因斯坦、海森堡这些就不说了。包括大家后来都知道的,像 C. N. Yang,杨振宁这些也都不说了。 [03:39:13]
姚顺宇:像我之前做拓扑量子体系的时候,其实有一个,他后来也拿了诺奖,就是 Haldane。你会发现这些人有些异常的远见,他在他那个时代显得格格不入。但是你看 Haldane 最开始做 Haldane model 和这些分数量子霍尔效应相关的事的时候,离最后大家搞明白这些拓扑物态,过了好几十年。在那个时候他能够觉得这事重要,然后一直自己在推进这事,我觉得这是很不容易的。 [03:39:33]
姚顺宇:当然,我觉得你要非要在人工智能里找一个类似的人,可能是 Geoffrey Hinton。就是在大家都觉得这事可有可无,或者不那么确定的时候,他一直在这个方向做。我觉得这可能是一个英雄级别的人物。 [03:40:06]
张小珺:在他之后呢?AI 在他之后? [03:40:19]
姚顺宇:我觉得可能也有一些英雄的集体。比如像 Transformer,Noam Shazeer 和那些研究者,那可能是一个英雄集体。 [03:40:23]
张小珺:你讲过一个特别让我印象很深的话:“我在这个行业又没有什么导师,又没有什么旧友,我当然想喷谁喷谁。” [03:40:41]
姚顺宇:这可能就是不是 AI 出身的好处。真的没有什么负担。没有哪个老登是你的亲属,所以你觉得他傻,他就是傻,就可以直接说他傻。无所谓的。 [03:40:48]
张小珺:你以前也这样吗? [03:41:08]
姚顺宇:我觉得我做学生的时候还挺收敛的。但我后来发现,收敛没用,对自己也没好处,对别人也没好处。还是更直接地表达自己的想法是最关键的。我觉得直接表达自己的想法,是一个短期一定会有人恨你,但长期大家会欣赏的事情。 [03:41:11]
张小珺:你最近听谁说话特别蠢?把这个名字低调些写。 [03:41:31]
姚顺宇:我就一直听他说,而且蠢得始终如一。 [03:41:35]
张小珺:他有没有可能是那个对的人呢? [03:41:41]
姚顺宇:我觉得他说的话,用 Pauli 的话来说,就是 not even wrong,因为没有良好定义。你很难说他说的是对是错。有一天可能有一个不一样的反事实发生了,他就可以跳出来说,我当年说过这个、这个、这个。但是你会发现,如果反事实是另一种状态,他也能说一样的话。这就是我为什么很讨厌这种很模糊的人的原因。因为一个事模糊,就是没有意义的。 [03:41:49]
张小珺:你为什么觉得他说话很模糊? [03:42:19]
姚顺宇:没有良好定义,就是一种模棱两可。如果他有良好定义的话,我可以解释他为什么有良好定义;但他没有良好定义的话,我没有办法解释他为什么没有良好定义,因为他真的没有良好定义。 [03:42:21]
姚顺宇:我觉得起码那还是一个很良好定义的事:他是要做,然后他的方式可能更偏传统的 neural network model 的方式,而不是更 end-to-end 的这种方式。我觉得至少他是良好定义的。至于他是对是错,那我觉得是未来会检验的事情。 [03:42:37]
姚顺宇:大多数老登其实都还好。我觉得人年纪大了,不一定会变成老登的。人年纪大了会变成两种状态:一种状态叫德高望重,就是他可能少指手画脚,还会花自己的力气去培养年轻人;另一种人就是老登,自己也不懂,还爱指手画脚。所以人老了,不一定会变成老登。 [03:43:02]
张小珺:你是受了谁的刺激? [03:43:24]
姚顺宇:我也不知道我受了谁的刺激,但我确实见过不少老登。 [03:43:28]
张小珺:你从什么时候变化的,就是说话非常直接,开始不收敛了?你过去都是这么想的,但是你不说。 [03:43:32]
姚顺宇:我觉得我过去可能也会比较直接,但是没有这么直接。做了 AI 之后就更直接。 [03:43:39]
张小珺:是没有束缚,是吧? [03:43:47]
姚顺宇:一是没有束缚,二是这个领域足够客观。你其实不用太担心因为自己的观点,只要你的观点是自洽的,就是你有一套自己观点的理论,你不是说随便喷人,那肯定是会惹到人。但是你是有一套自己的理解,我觉得其实大家是会尊重你的。因为最终你在这个领域做得怎么样,是有客观的评价标准的。 [03:43:48]
张小珺:好。我们每个嘉宾都会推荐一本人生之书,要这本书真的对你产生过重要的影响。你要说的这本书是什么? [03:44:13]
姚顺宇:这是今天最难的一个问题。我感觉你还是高看了我的文化程度。我真的没有什么人生之书,说实话,真的没有什么。 [03:44:21]
张小珺:最近读的一本书也行。上次那个奇异超说的是《线条小狗》。 [03:44:36]
姚顺宇:最近读的书就是汤川秀树的自传。 [03:44:43]
姚顺宇:汤川秀树的自传《旅人》。然后你要非要说可能有印象的书,首先我这个人确实不爱读书,我文化水平比较低。我读的书,除了专业性的书之外,所有的书感觉都是闲书。像汤川的自传,本质上也是本闲书,但是我觉得写得挺有趣的。你能看到一个后来如此成功的科学家,在他年轻的时候有一种挣扎感,很真实。然后可能还有一些闲书,像小说,有本小说我很喜欢,《来自新世界》,是一个日本的小说。你要非让我推荐闲书的话,我可以推荐那个。 [03:44:48]
张小珺:你最近有看什么电影、电视剧,玩什么游戏? [03:45:38]
姚顺宇:什么都没有。 [03:45:45]
张小珺:一个全球范围内你喜欢的食物? [03:45:48]
姚顺宇:寿司吧。 [03:45:53]
张小珺:一个全球范围内你喜欢的地点? [03:45:54]
姚顺宇:全球范围内喜欢的地点……我觉得现在你要非让我选,我可能会选夏威夷,因为我很喜欢海。但是也很难说,因为之后我可能去了更多海的地方,就另有新欢了。 [03:45:59]
张小珺:一个少有人知道,但是可能需要知道的知识点? [03:46:15]
姚顺宇:别相信老登算吗? [03:46:22]
张小珺:你有迷信过吗? [03:46:26]
姚顺宇:我本质上没有迷信过,但是我觉得有些时候可以靠迷信来安慰自己。 [03:46:30]
张小珺:我说你有迷信过老登吗? [03:46:36]
姚顺宇:迷信老登啊? [03:46:37]
张小珺:从来没有吗? [03:46:39]
姚顺宇:真的没有。但是我以前可能没有这么恨老登,后来就变得越来越恨老登。 [03:46:42]
张小珺:为什么? [03:46:46]
姚顺宇:可能就是,当你自己有越来越多判断的时候,那些蠢的人就显得更蠢。 [03:46:47]
张小珺:那他们也没有伤害你,为什么会恨他们? [03:46:56]
姚顺宇:我觉得就是厌蠢症,每个人都有厌蠢症。 [03:47:00]
张小珺:你的 MBTI 是什么? [03:47:03]
姚顺宇:不知道。 [03:47:03]
张小珺:为什么这些年会有一个年轻人对于年龄大的人这么不友好的词出现?它来源在哪里? [03:47:07]
姚顺宇:不知道,没有研究过。可以问问 Gemini,让它 Deep Research 一下,看看“老登”这个词是哪来的。 [03:47:16]
张小珺:那你心目中影响 AI 进程的几篇论文? [03:47:23]
姚顺宇:Sequence to Sequence 是一篇。我觉得是 language model 在 feature engineering 时代的高峰。然后 Scaling Laws 是一篇,就是 Jared Kaplan 他们在 OpenAI 的那篇 Scaling Laws,是一篇把这种体系化的研究方式引进到这个领域的。当然最后,实际上 Scaling Laws 的做法可能那样并不是正确的,但是它是第一篇把这个想法引进来的,我觉得这很关键。 [03:47:26]
张小珺:基于你当下的认知,一个关键的重要的 bet 是什么? [03:48:04]
姚顺宇:Long horizon。 [03:48:06]
张小珺:我们工作室叫语言及世界工作室,第一次听到这个名字的时候,你在想什么? [03:48:08]
姚顺宇:我觉得这个名字有点正常得太平庸了。 [03:48:14]
张小珺:可以。 [03:48:22]
姚顺宇:其实我觉得这个名字,可能放在十年以前,是一个很独特的视角。但现在主要大家共识太多了。我觉得十年以前确实,可能现在不止十年,对不起,我感觉我年纪也大了,可能不止十年了。可能在 14、15 那个年代,大家都会觉得视觉是最重要的事。在那个时候,我觉得意识到语言是承载智能的重要载体的人,可能是一个不一样的事情。不过我觉得我们这个名字不是在 AI 的语境里面讲的。 [03:48:25]
张小珺:那就值得深思了。 [03:49:00]
张小珺:好了,今天的节目就是这样。这里是《商业访谈录》,是一档由语言及世界工作室出品的深度访谈节目。你可以到公众号关注我们的工作室,获取更多的信息。我们的公众号是“语言及世界”,Language is World。我们希望和你一起,从这里探索新的世界。 [03:49:35]