#539. 手搓AlphaGo:前DeepMind科学家拆解AI围棋核心原理,以及对LLM强化学习的深远启示

完整转录稿

Podcast 跨国串门儿计划 2026-05-17 02:58

# #539. 手搓AlphaGo:前DeepMind科学家拆解AI围棋核心原理,以及对LLM强化学习的深远启示

📝 本期播客简介本期我们克隆了知名科技播客《Dwarkesh Patel播客》的一期深度对谈 What rebuilding AlphaGo teaches us about self-play, RL, and future of LLMs - Eric Jang主持人 Dwarkesh Patel与嘉宾 Eric Jang展开了一场精彩纷呈的技术深潜,从零开始重建了 AlphaGo的思想宫殿。Eric Jang曾担任 1X Technologies的 AI副总裁,此前是谷歌 DeepMind Robotics的高级研究科学家。他在休假期间做了一个让极客们热血沸腾的项目:用当今的开源工具和极低的预算,从头重建、改进并深入理解了 AlphaGo。在这期节目里,Eric手把手地拆解了 AlphaGo的核心组件——蒙特卡洛树搜索(MCTS)、策略网络与价值网络如何协同工作,以及为什么这套组合拳如此优雅且强大。但这远不止是一堂围棋 AI历史课。Eric更进一步,将 AlphaGo的算法与现代 LLM的强化学习进行了直接对比,深刻揭示了后者在方差、信用分配和样本效率上的根本困境,并展望了将搜索思想引入大模型推理的前景。此外,他还分享了自己用自动化 AI辅助研究的实践经验,探讨了围棋作为“AI科学家”孵化器的可能性。整期节目信息密度极高,从算法直觉到宏观哲学,将彻底刷新你对强化学习、搜索和智能本质的认知。 👨‍🔬 本期嘉宾 Eric Jang,前 1X Technologies AI副总裁,前谷歌 DeepMind Robotics高级研究科学家。他在机器人学习、深度强化学习领域有深厚积累。近期,他在休假期间独立完成了从头复现和改进 AlphaGo的项目,并撰写了详细的技术教程,引发了社区广泛关注。他以对 alphaGo核心机制的独到洞见,以及对自动化 AI研究的先锋思考而闻名。 ⏱️ 时间戳 00:00开场 & 播客简介从零开始理解 AlphaGo 02:05为何 AlphaGo令人着迷:用一个神经网络摊销几乎不可解的搜索 03:43围棋规则速通:从吃子到 Trump-Taylor计分 08:38搜索树与组合爆炸:361的300次方,比宇宙原子数还大蒙特卡洛树搜索(MCTS)核心原理 11:16 UCB与 PUCT:如何边建树边决定探索哪条路 15:59价值函数登场:人类“一眼定输赢”的直觉,AI也能拥有 21:02策略网络:先猜一把哪儿值得搜,大幅剪枝神经网络与搜索的完美联姻 24:54 MCTS四步流程:选择、扩展、评估、回传 27:28架构选择:为什么 ResNet在小预算下仍优于 Transformer 34:23初始化的魔力:先用人类棋谱教会模型什么是好棋 42:21 Self-play闭环:让搜索反哺网络,实现策略迭代强化学习的优雅与残酷对比 47:41 MCTS作为改进算子:永远给你一个比当前策略更好的答案 52:00知识蒸馏:把几千步搜索的成果内化到网络的一次前传里 57:04价值函数训练技巧:小棋盘预训练与终局标签的重要性 01:03:01深度震撼:10层神经网络如何摊销 NP难问题 01:11:35对比 LLM RL:方差为何爆炸,“吸管里吸信号”的困境 01:22:21 MCTS能直接用于 LLM推理吗?广度、深度与动作空间的挑战计算效率与自动化研究 01:28:41算力缩放亲历:从千万美元到几千块,AlphaGo变廉价了 01:38:08 Off-policy训练与回放缓冲区:如何复用旧数据 01:47:04信息论视角:监督学习每样本比特数远超 RL,软标签有多重要 01:55:36围棋作为 AI科学家孵化器:用外循环验证研究直觉 02:05:12研究品味与可验证性:如何设计正确的 RL环境 02:08:03结尾 & 资源推荐 🌟 精彩内容 💡 10层网络,摊销 NP难题 Eric指出 AlphaGo最深远的贡献并非围棋本身,而是一个概念突破:区区 10层神经网络,通过一次前向传播,就能以极高精度近似一个几乎不可解的深层搜索问题。这暗示了宏观特征可以瓦解我们对计算复杂度的传统认知,类似的现象也出现在 AlphaFold等模型中。 “这是一个突破,我觉得今天大多数人都没能完全领会它有多么深远。” 🛠️ MCTS的优雅:永远不用从 0% 开始与今天 LLM使用的朴素策略梯度方法不同,AlphaGo的 MCTS永远能基于当前状态给出一个改进后的策略标签。这意味着它的学习过程从未陷入“所有信号都是零”的荒漠,每一步都有明确的监督目标,从而实现了惊人的采样效率和稳定性。 “AlphaGo之所以优雅,就是你永远不需要从一个 0% 的成功率开始,也不需要解决怎么拿到非零成功率的探索问题。” 🚀 监督学习信息效率完胜 Eric与 Dwarkesh从信息论角度对比了监督学习和 RL。在低 pass rate区域,RL每个样本只能提供极少的学习比特,而监督学习通过软标签(整个概率分布)可以提供高得多的信息量。这也解释了为何蒸馏如此强大——MCTS的访问计数分布作为软目标,传递了远超单个动作标签的“暗知识”。 “在一个软标签里,每样本的信息量,以比特计,要大得多。这就是为什么蒸馏这么有效。” ⚖️ 成为第一,算力永远最贵 Eric分享了自己仅用一万美元算力就重建 AlphaGo的经历,对比当年 DeepMind动辄百万美元的投入和定制 TPU集群。他强调:“成为第一个做成一件事所需的算力,永远比后来追上来所需的算力大得多。”这个规律在 LLM时代同样成立,先行者必须为探索未知付出巨大溢价。 🧪 围棋作为 AI科学家的训练场 Eric正在将围棋打造成一个“外循环”,用于训练自动化 AI研究智能体。因为围棋验证快速、胜负明确,可以低成本地检验智能体提出假设、设计实验、解释结果的能力,最终有望迁移到更复杂的科学发现任务中。 “我搭建这个围棋环境的动机之一,就是觉得围棋承载了大量非常有趣的研究问题,而且验证速度很快。” 🌐 播客信息补充翻译克隆自:《Dwarkesh Patel播客》(Dwarkesh Patel Podcast) 本播客采用 AI声纹克隆技术将原主持人和嘉宾的声音翻译成中文,可能听起来略有差异。使用 AI进行翻译,因此可能会有一些地方不通顺;如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

返回该播客 打开原文