#539. 手搓AlphaGo：前DeepMind科学家拆解AI围棋核心原理，以及对LLM强化学习的深远启示

# #539. 手搓AlphaGo：前DeepMind科学家拆解AI围棋核心原理，以及对LLM强化学习的深远启示

📝 本期播客简介本期我们克隆了知名科技播客《Dwarkesh Patel播客》的一期深度对谈 What rebuilding AlphaGo teaches us about self-play, RL, and future of LLMs - Eric Jang主持人 Dwarkesh Patel与嘉宾 Eric Jang展开了一场精彩纷呈的技术深潜，从零开始重建了 AlphaGo的思想宫殿。Eric Jang曾担任 1X Technologies的 AI副总裁，此前是谷歌 DeepMind Robotics的高级研究科学家。他在休假期间做了一个让极客们热血沸腾的项目：用当今的开源工具和极低的预算，从头重建、改进并深入理解了 AlphaGo。在这期节目里，Eric手把手地拆解了 AlphaGo的核心组件——蒙特卡洛树搜索（MCTS）、策略网络与价值网络如何协同工作，以及为什么这套组合拳如此优雅且强大。但这远不止是一堂围棋 AI历史课。Eric更进一步，将 AlphaGo的算法与现代 LLM的强化学习进行了直接对比，深刻揭示了后者在方差、信用分配和样本效率上的根本困境，并展望了将搜索思想引入大模型推理的前景。此外，他还分享了自己用自动化 AI辅助研究的实践经验，探讨了围棋作为“AI科学家”孵化器的可能性。整期节目信息密度极高，从算法直觉到宏观哲学，将彻底刷新你对强化学习、搜索和智能本质的认知。 👨‍🔬 本期嘉宾 Eric Jang，前 1X Technologies AI副总裁，前谷歌 DeepMind Robotics高级研究科学家。他在机器人学习、深度强化学习领域有深厚积累。近期，他在休假期间独立完成了从头复现和改进 AlphaGo的项目，并撰写了详细的技术教程，引发了社区广泛关注。他以对 alphaGo核心机制的独到洞见，以及对自动化 AI研究的先锋思考而闻名。 ⏱️ 时间戳 00:00开场 & 播客简介从零开始理解 AlphaGo 02:05为何 AlphaGo令人着迷：用一个神经网络摊销几乎不可解的搜索 03:43围棋规则速通：从吃子到 Trump-Taylor计分 08:38搜索树与组合爆炸：361的300次方，比宇宙原子数还大蒙特卡洛树搜索（MCTS）核心原理 11:16 UCB与 PUCT：如何边建树边决定探索哪条路 15:59价值函数登场：人类“一眼定输赢”的直觉，AI也能拥有 21:02策略网络：先猜一把哪儿值得搜，大幅剪枝神经网络与搜索的完美联姻 24:54 MCTS四步流程：选择、扩展、评估、回传 27:28架构选择：为什么 ResNet在小预算下仍优于 Transformer 34:23初始化的魔力：先用人类棋谱教会模型什么是好棋 42:21 Self-play闭环：让搜索反哺网络，实现策略迭代强化学习的优雅与残酷对比 47:41 MCTS作为改进算子：永远给你一个比当前策略更好的答案 52:00知识蒸馏：把几千步搜索的成果内化到网络的一次前传里 57:04价值函数训练技巧：小棋盘预训练与终局标签的重要性 01:03:01深度震撼：10层神经网络如何摊销 NP难问题 01:11:35对比 LLM RL：方差为何爆炸，“吸管里吸信号”的困境 01:22:21 MCTS能直接用于 LLM推理吗？广度、深度与动作空间的挑战计算效率与自动化研究 01:28:41算力缩放亲历：从千万美元到几千块，AlphaGo变廉价了 01:38:08 Off-policy训练与回放缓冲区：如何复用旧数据 01:47:04信息论视角：监督学习每样本比特数远超 RL，软标签有多重要 01:55:36围棋作为 AI科学家孵化器：用外循环验证研究直觉 02:05:12研究品味与可验证性：如何设计正确的 RL环境 02:08:03结尾 & 资源推荐 🌟 精彩内容 💡 10层网络，摊销 NP难题 Eric指出 AlphaGo最深远的贡献并非围棋本身，而是一个概念突破：区区 10层神经网络，通过一次前向传播，就能以极高精度近似一个几乎不可解的深层搜索问题。这暗示了宏观特征可以瓦解我们对计算复杂度的传统认知，类似的现象也出现在 AlphaFold等模型中。 “这是一个突破，我觉得今天大多数人都没能完全领会它有多么深远。” 🛠️ MCTS的优雅：永远不用从 0% 开始与今天 LLM使用的朴素策略梯度方法不同，AlphaGo的 MCTS永远能基于当前状态给出一个改进后的策略标签。这意味着它的学习过程从未陷入“所有信号都是零”的荒漠，每一步都有明确的监督目标，从而实现了惊人的采样效率和稳定性。 “AlphaGo之所以优雅，就是你永远不需要从一个 0% 的成功率开始，也不需要解决怎么拿到非零成功率的探索问题。” 🚀 监督学习信息效率完胜 Eric与 Dwarkesh从信息论角度对比了监督学习和 RL。在低 pass rate区域，RL每个样本只能提供极少的学习比特，而监督学习通过软标签（整个概率分布）可以提供高得多的信息量。这也解释了为何蒸馏如此强大——MCTS的访问计数分布作为软目标，传递了远超单个动作标签的“暗知识”。 “在一个软标签里，每样本的信息量，以比特计，要大得多。这就是为什么蒸馏这么有效。” ⚖️ 成为第一，算力永远最贵 Eric分享了自己仅用一万美元算力就重建 AlphaGo的经历，对比当年 DeepMind动辄百万美元的投入和定制 TPU集群。他强调：“成为第一个做成一件事所需的算力，永远比后来追上来所需的算力大得多。”这个规律在 LLM时代同样成立，先行者必须为探索未知付出巨大溢价。 🧪 围棋作为 AI科学家的训练场 Eric正在将围棋打造成一个“外循环”，用于训练自动化 AI研究智能体。因为围棋验证快速、胜负明确，可以低成本地检验智能体提出假设、设计实验、解释结果的能力，最终有望迁移到更复杂的科学发现任务中。 “我搭建这个围棋环境的动机之一，就是觉得围棋承载了大量非常有趣的研究问题，而且验证速度很快。” 🌐 播客信息补充翻译克隆自：《Dwarkesh Patel播客》（Dwarkesh Patel Podcast）本播客采用 AI声纹克隆技术将原主持人和嘉宾的声音翻译成中文，可能听起来略有差异。使用 AI进行翻译，因此可能会有一些地方不通顺；如果有后续想要听中文版的其他外文播客，也欢迎联系微信：iEvenight