David Reich:为什么青铜时代是人类进化的拐点

完整转录稿

YouTube Dwarkesh Patel 2026-05-08 17:09

# David Reich:为什么青铜时代是人类进化的拐点

# David Reich:为什么青铜时代是人类进化的拐点

来源:Dwarkesh Patel

URL:

https://www.youtube.com/watch?v=sRKBGVFVYAw

Dwarkesh Patel:至少在世界的这一部分,人类被猛然拉进了一种生活方式。它和狩猎采集祖先的生活相差如此之大,以至于人体这个生物体不得不强烈适应。也许,进入青铜时代所带来的这种撕扯,其程度在质上超过了最初转向种植作物时的撕扯。这很令人惊讶,因为我们通常的卡通式想象是:最大的转变就是农业。但遗传数据,这个生物学读数,正在告诉我们:我们的基因组对 5000 年前发生的那些事件反应要强烈得多。我又请来了 David Reich,他是哈佛大学研究古 DNA 的教授。你会怎么描述你所研究的东西?

David Reich:我是遗传学家,研究人类历史,以及古人与古人、古人与今天的人之间的关系。

Dwarkesh Patel:我们两年前做过一次访谈,那期后来成了我做过的最受欢迎的访谈之一。我想人们之所以觉得它很有吸引力,是因为人类历史中还有太多我们不知道的东西,而现在正因为你们实验室使用的这些技术,我们才刚刚开始了解。你有一篇新的预印本,非常令人兴奋,我想和你聊聊。你能先给我们一点背景吗?今天我们到底要谈什么?

David Reich:当古 DNA 这个领域在 16 或 17 年前起步时,人们的梦想是:我们会通过从古人类遗骸中提取 DNA,并追踪 DNA 随时间的变化,学到很多关于生物学的东西,也就是人类的生物学特征如何随时间改变。但从这个领域诞生以来,这个梦想其实一直没有真正实现。这个领域在理解人类历史方面非常成功。它带来了许多令人惊讶的发现,比如人类迁徙:生活在某地的人,未必是几百年、几千年、几万年前生活在同一地点的人群的后代。它还显示混合在人类历史中很常见,带有性别偏向的过程也很常见;还有许多发现并不是考古学原本预期的。从这个角度说,这个领域非常成功。但不成功的地方,是理解生物学和生物变化。

David Reich:一个重要原因是样本量太小。当你有一个人的 DNA 时,它能为历史提供极大量的信息。这是因为,当你看一个人的 DNA 时,你看到的不是一个人,而是很多人:你的两个父母、四个祖父母、八个曾祖父母、十六个高祖父母,如此往前推。回到过去,成千上万、数万、甚至数十万祖先都在为今天的人贡献 DNA。当你看一个人的基因组,或者一个尼安德特人的基因组时,你的数据里实际上代表了数以万计的祖先。你可以非常精确地把这个个体放到与其他有数据的人之间的位置关系中。

David Reich:但如果你关心的是某个特定遗传变异如何随时间变化,比如它影响皮肤色素沉着、影响成年人消化牛奶的能力,或影响某种行为特征,那么一个人只给你一个样本,也许是两个样本:一个来自母亲,一个来自父亲。要高分辨率地看到频率如何随时间改变,你需要很大的样本量,真的需要非常多的人。直到最近几年,我们才终于有了这样的数量。今天这项研究,以及未来几年希望多个团队都会做的工作,动力就在于:我们终于有了这些数字。我们可以用这些数据观察频率如何随时间改变。

Dwarkesh Patel:我能问个问题吗?接下来几个小时我会问很多天真的问题。为什么频率变化特别有意思?

David Reich:我们感兴趣的是利用自然在我们历史中做过的实验,也就是过去几万年里发生过的实验,来理解 DNA 中哪些东西在生物学上重要。如果一个群体经历了环境变化,比如人们转向农业、开始与驯化动物近距离生活,或者从寒冷地区迁到温暖地区,从低地迁到高地,那么这个群体就会承受压力,必须适应新的压力和新的需求。你要检测这种适应,办法就是看到某个遗传变异的频率系统性地朝某个方向推动。比如这个变异可能让你能生活在更高海拔,或者让你在新情境下更倾向于某种有优势的行为模式。只有当这种推动足够大时,你才能检测到。频率只移动几个百分点或十个百分点,是很难检测的,除非你有非常大的样本量。我们寻找的是那些过于极端、不能由偶然解释的频率变化。它们会告诉我们:人们经历的环境变化对生物学造成了推动。

Dwarkesh Patel:有意思。你们发现了什么?

David Reich:七年前,Ali Akbari,当时是我实验室的博士后研究员,几年后成为固定员工科学家,开始利用我们产生的数据来研究生物变化。我想,他之所以对我们实验室而不是其他地方感兴趣,是因为我们实验室的一个重点,就是从古人类身上生成真正大量的数据。我们一直试图把这个流程工业化,让它非常便宜、质量很高,并为这个目的生成大量有好数据的样本。我们积累了大量数据,因此可以重新设想:我们能不能询问频率随时间是否发生了变化。

David Reich:过去几十年,人类进化领域的主流看法是,在过去几十万年的人类历史里,自然选择相当静止。支持这一点的证据有几条。比如,如果你比较世界不同大陆的多样群体,例如欧洲人和东亚人,并观察这些群体之间频率不同的突变,所有突变的频率都会略有不同,有时差异很大。你可以问:“欧洲人和东亚人在频率上差异最大的突变是什么?”结果几乎没有任何遗传变化在欧洲人和东亚人之间达到 100% 的频率差异。

David Reich:欧洲人和东亚人都源自 4 万或 5 万年前走出非洲和中东的一个共同祖先群体。这个群体有一组基因频率,这些变异随后随机摆动,这个过程叫遗传漂变;或者也可能在自然选择下朝某个方向移动。从 4 万或 5 万年前到现在,在进化时间尺度上还不够长,所以这两个群体之间平均而言并没有那么多遗传分化。然而,如果发生了自然选择,比如帮助某地的人更好地消化酒精或消化牛奶,你可能会预期某个突变会飙升到很高频率。4 万或 5 万年是很长时间,大概是 1500 到 2000 代。这完全可能足够产生 100% 的频率差异。但你看到的并不超过偶然所能解释的程度。

David Reich:这些事实组合在一起,让人觉得自然选择似乎一直很安静。也许几十万年前,祖先人群到达了某种最优状态,此后就没有太多朝某个方向的遗传变化。确实有少量自然选择,或者清除不断落到基因组上的有害突变的选择,但没有我们所说的定向选择。定向选择指的是新出现的突变,或者已有突变被系统性地推向某个方向,帮助群体抵达一个不同的、更适合其生活条件的适应性设定点。

David Reich:我们能够把 DNA 中所有突变频率变化的原因拆分出来。我们看的是大约 1000 万个可变位置。其中有多少变化来自定向选择,也就是适应;有多少来自其他因素,尤其是遗传漂变。结果是 98% 都是其他因素,尤其是遗传漂变。压倒性地,是迁徙和群体结构造成了频率波动。因此,要检测适应性自然选择的信号极其困难,因为它们只是总频率变化中的很小一部分。绝大多数变化来自这些迁徙和混合。尽管如此,我们的研究显示,自然选择的量非常大,事实上它在基因组中非常猖獗。

Dwarkesh Patel:我能在这里问一个澄清问题吗?为什么我们不把群体混合或替代算作选择?如果从群体层面看,一个群体替代另一个群体,这难道不是选择吗?我记得上一期你解释过,某个具体地区里“是什么样的人”曾发生巨大变化。一个群体进来替代了前一个群体,然后又有新群体进来替代它。既然遗传因素可能与为什么这个群体替代另一个群体有关,为什么它不应该算进我们对过去 1 万年选择的理解里?

David Reich:它可以算,在某些方面也许确实应该算,而且可能应该算。但群体替代也可能是某种文化现象造成的,比如某个群体拥有其他群体没有的技术。也许有一些遗传突变参与其中。谁知道呢?这是可能的。但你看到的是全基因组的位移。我们要看的是 DNA 中是否有一个位置以不同于基因组其他部分的方式驱动变化。

David Reich:从统计角度看,在这些迁徙时期,频率会发生巨大波动。这样的时期对检测自然选择几乎没有信息量。检测自然选择的最佳时刻,是几百年里没有迁徙和群体混合发生的时候。在这些时期,你确实可以看到某个突变慢慢朝一个方向吹过去。

David Reich:为了这项研究,我们把欧洲和中东的历史想象成一个由时空中的小群体组成的群岛,每个小群体彼此相当隔离。在两次大的迁徙和混合事件之间,你可能有一个英国的小群体隔离几百年,或者一个匈牙利的小群体隔离几百年。在每一个这样的小型自然实验里,我们都可以问:这个突变的频率是否略有上升?同一个突变是否也在另一个地方略有上升?如果所有箭头都指向同一个方向,我们就赢了。它们在告诉我们:自然选择正在发生。

David Reich:比如 4500 年前的欧洲,几乎所有突变都经历了巨大的频率变化。那不是因为自然选择,而是因为来自黑海和里海以北的草原迁徙。40% 到 80% 的 DNA 变成了来自草原牧民的 Yamnaya 成分。他们的突变频率不同,不一定是因为选择,而只是因为他们在不同地方独立演化了几千年、几万年。当你看后代群体时,会看到频率巨大变化。你需要做的是判断:自然选择是否解释了一个超过偶然预期的位移。

Dwarkesh Patel:好,在接下来的这一段,David 解释了这篇论文方法论的细节。说实话,那部分有点技术性。我想先让你们了解结果,所以把那一段挪到了最后。如果你想理解方法论,继续听完整期就可以了。你们找到了这些看起来处在选择之下的位置。我还有一个澄清问题。你说你们找到了 3800 个位置,有 50% 的把握认为它们在过去 1 万年里受到选择。

David Reich:是 7200 个位置,我们有 50% 把握。

Dwarkesh Patel:也就是说,你们在 DNA 中得到了大约 7200 个位置,每个位置有 50% 的把握是真的。只有一半是真的,但我们不知道是哪一半,所以有 3600 个是真的。这是否也意味着,在这 7200 个之外,你们确信基因组其他位置没有受到选择?

David Reich:不是。如果看 25% 概率的阈值,会有数万个位置,其中也会有很多是真的。事实上,我们做的多项分析都提示,基因组正在被自然选择震动。还有各种更弱的效应,会在比我们更大的研究中被发现。实际上,DNA 中几乎每个位置都与另一个位置相关,而那个位置正被自然选择拖向某个方向。自然选择不是静止的,而是无处不在。虽然它只占频率变化的 2%,但它到处都在把位置朝这个或那个方向拉。

David Reich:所以我们分析了这些已经识别出来的位置,也就是我们非常有把握的数百个位置。我们看它们在 DNA 中是随机分布,还是有模式。我们看了大约 100 种左右的性状,这些性状都有全基因组关联研究,涉及免疫、自身免疫、行为、代谢和其他方面。对每一种性状,我们都可以问:从全基因组关联研究中已知会影响这些性状的遗传变异,是否含有异常多的遗传选择信号?

David Reich:我们的发现是,免疫性状有巨大的富集,大约是四到五倍。被选择信号在免疫性状中高度集中。我们也看到代谢性状有强富集,比如可能影响肥胖、脂肪性状或 2 型糖尿病的东西。而就我们所能判断的,对行为或精神性状几乎没有可检测的富集。

Dwarkesh Patel:我确认一下我的理解。这并不是说行为、精神或认知性状没有受到选择。只是说,控制这些性状的单个位点,并不特别可能出现在你们识别为受选择的位置中。

David Reich:完全正确。这个分析结果可能让人觉得免疫性状受到高度选择,而在过去 18000 年里,这个地区的行为性状没有受到选择。但这个结论是错的,而且我们有证据表明它是错的。行为性状也明显受到选择。我们认为行为性状信号更弱,是因为医学研究告诉我们,行为性状由数量大得多的基因支撑;免疫性状则由相对较少、效应较强的基因支撑。行为性状在遗传上由大量弱效应基因塑造,而我们没有足够的统计功效去检测这些非常弱的信号。当我们分析那些非常强的选择信号时,这组强结果非常有效地查询了免疫性状,但对行为性状的查询并不有效。也许确实免疫性状是受到选择最多的类别,我猜可能是。但绝不是说行为性状没有受到选择;我们可以证明并非如此。

Dwarkesh Patel:有意思。

David Reich:我们已经能够证明,有两种方式可以把过去的观察和我们的新观察协调起来。记住,过去的观察是:在几十万年或许多万年的时间尺度上,自然选择似乎相当静止。原因是你看不到欧洲人和东亚人之间有 100% 频率差异的变异。现在我们看到数百个位置在频率上飙升,很多情况下选择率达到 1% 或更高。1% 或更高的选择率意味着,在几十代的时间里就会快速翻倍。在欧洲人和东亚人分离的 1500 到 2000 代里,你难道不应该看到许多遗传变异在群体之间达到 100% 的频率差异吗?

David Reich:我们能够显示,这至少由两个因素解释。第一,在这个地区,也就是欧洲和中东,我们实际上处在自然选择加速的时期。看到这一点的一种方式,是看我们观察到的富集模式:免疫性状异常地与这些选择信号相关。我们可以把所研究时期的后 5000 年,也就是所谓青铜时代及其以后,与前 5000 年相比。我们看到,围绕免疫性状的这种选择强化,以及类似地围绕代谢性状的强化,在这段时间里加速了。自然选择并不是在所有地点、所有时期都保持同一速率。它在我们分析的这段时间里增强。很可能整个时期相较更早时期都增强了。我们处在一个选择强化期。

David Reich:这并不难想象,因为这个人群在生活方式和文化上经历了巨大冲击。我们分析的几乎所有人都是农民,或者以某种方式生产食物的人。农业最早在世界任何地方出现,是 11000 或 12000 年前的中东。发明农业的人在 8500 年前以后迅速扩张到欧洲,横跨大陆并快速增长。到了青铜时代,人们的生活方式进一步强化,人口密度高得多。人们越来越多地贴近动物生活,感染动物的疾病,也与动物和彼此交换疾病。这是一段生活方式快速变化的时期,给这个人群带来了不同的生物学需求。也许不奇怪,在这些剧烈变化下,人群的生物学并不一定已经理想适应。可能存在一些人所说的进化错配:你把在狩猎采集者中演化出来的遗传变异放进农民或牧民体内,它并不完全合适。我们看到的,是这个人群的 DNA 在回应被移入农业、青铜时代、高人口密度、城市环境后的冲击;这个人群仅仅在 1 万年前还是狩猎采集者的后代。一个假说是,我们看到的就是由此产生的适应。

Dwarkesh Patel:论文里有很多关于青铜时代前后选择强化的例子。逐一讲几个也许会有帮助。

David Reich:我们在这项工作中做的一件事,是仔细查看 DNA 中许多位置。我们实际上有一个互联网浏览器,叫 AGES browser,是 Ali 和他的一位同事,也就是我们论文合作者,搭建的。它让你可以查询这 1000 万个位置中的每一个,看到每个位置的轨迹和选择证据。我们看到的一点是,虽然大多数情况下,我们检测到的自然选择信号都与随时间恒定的自然选择一致,但在少数位置,我们能够看到自然选择发生反转或剧烈改变。它常常发生在 5000 到 2000 年前,也就是青铜时代和铁器时代之间。这是人口快速增长、许多技术被密集使用的时期,而这些技术以前并不是那样被使用的。

David Reich:一个例子是 TYK2 遗传变异,它是严重结核病的主要风险因素之一,而结核病是今天世界上最重要的传染病杀手。如果你看这个结核病主要风险变异,它的频率从 8000 或 6000 年前开始飙升,在这个地区达到大约 9% 或 10%。随后它在过去 3000 年里又急剧下降。两个阶段都有非常清楚的自然选择证据,第一阶段推动它升高,第二阶段推动它降低。一个可能原因是结核病传播。它也许在 2000 或 3000 年前在人群中成为地方性流行病。这可能与病原体序列数据和其他证据线一致。也许这个变异在此前保护人们免受某种东西影响,但结核病在那之后变得重要,而且太糟糕了,于是把选择方向推向相反一边。

Dwarkesh Patel:它之前保护的是另一种疾病?

David Reich:也许。

Dwarkesh Patel:准备这期节目需要完整的文献综述。我需要理解为什么其他方法没能找到过去 1 万年中自然选择的证据。Reich 和 Akbari 到底做了什么不同的事情?老实说,这一点相当微妙,因为最关键的点分散在一堆不同论文里。和大语言模型聊这件事也很让人沮丧,因为它们总是被搞糊涂。一个模型无法理解某个关键症结,我就切到另一个模型,而那个模型又在下一个点上绊倒。最后我用 Cursor 同时启动了几个模型,事后比较它们的结果。我可以让一个模型批评另一个模型的回答。这非常有用,因为虽然我不是遗传学家,但我有足够的判断力知道:“这个答案说得通,那些不行。”我还让 Cursor 把这项工作转成闪卡,好让我保留学到的东西。Cursor 最初是一个编程工具,但我发现它非常适合这类研究。没有其他界面能让我一边在同一屏幕上读相关论文,一边从一堆彼此独立的 LLM 那里拿答案。去 cursor.com/dwarkesh 试试看。

Dwarkesh Patel:这篇论文给我的一个大收获就是:青铜时代发生了某种奇怪的事情。正如你所说,一个又一个性状上,选择在青铜时代增强。有些事情很说得通。例如,为什么我们会看到乳糖酶持续性,也就是成年人能处理牛奶,在这个时期增强?

David Reich:这是我们开始使用牛不仅作为肉类来源,也作为奶、羊毛和其他次级产品来源的时期。所以乳糖酶持续性为什么变得更重要,是说得通的。

Dwarkesh Patel:但还有一些东西似乎从农业黎明开始就应该相关。我忘了那个等位基因的确切名字,是 FADS1 吗?它帮助把植物脂肪酸转化为身体需要的长链脂肪酸。显然,当你从狩猎采集者的肉食饮食转向谷物饮食时,这就相关了。我想你们也发现它在 5000 到 3000 年前受到特别强的选择。那么到底发生了什么?为什么在你们观察到的所有这些不同性状中,青铜时代如此特殊?

David Reich:这个 FADS1/2 变异是一种素食/肉食适应。早在这项工作之前,2015 年和我一起工作的 Ian Mathieson 就已经把它识别为一个受到很强选择的变异。它其实很古老。你在古人类中也能看到它的拷贝。我们论文的另一个发现是 ABO 血型系统。你会被验出 A、B 或 O 型。B 变异以 A 为代价上升到了 10%,但此前工作显示,A 和 B 在人类、长臂猿和其他类人猿的祖先中就已经存在。其中一些突变在不同时间段里一直来回波动。

David Reich:但我们现在谈的是青铜时代的变化。结核病风险的 TYK2 变异,多发性硬化风险变异,都在青铜时代前发生拐点并频率上升,然后在 2000 或 3000 年前这一时期反转。北欧有差异,这个过程在那里非常强:很强的正选择,很强的负选择。而在南欧只有一点点,甚至负选择也不很强。血色病,也就是在欧洲造成问题的病理性铁积累,也在这一时期前后发生了反转。至于我们稍后也许会谈到的一些复杂性状,它们同样有自然选择强化的时期。

David Reich:例如去色素化:欧洲人在过去 1 万年里皮肤变浅了。你可以在我们的数据中看到。最强的去色素化时期大约在 4000 到 2000 年前,之后就弱得多。这似乎是一个非常有影响、事件密集、重要的时期,我们看到的很多过程在这里变得非常有力。按第一性原理想,这很令人惊讶。进入遗传数据之前,你可能会以为大的变化会是开始种植作物,也许还有饲养家畜。那发生在新石器时代,始于 10000 到 12000 年前,并在 8500 年前以后传播到欧洲。但实际上,强化发生在 5000 年前、4000 年前。这真的很有意思。这个拐点告诉我们:至少在世界的这一部分,人类是在什么时候被猛然拉入一种与狩猎采集祖先生活如此不同的生活方式,以至于机体必须非常强烈地适应。也许进入青铜时代所带来的撕扯,在质上大于最初转向种植作物所带来的撕扯。这令人惊讶,因为我们卡通式的图像是:大转变就是农业。但生物学读数告诉我们,我们的基因组对 5000 年前发生的事件反应强烈得多。

Dwarkesh Patel:你在 2014 年和 Bhatia 以及许多其他同事做过一项工作,研究今天两三万名非裔美国人的基因组。你们说:“看,这里有 80% 西非 DNA,20% 欧洲 DNA。我们能不能看他们今天的基因组,看看他们的等位基因频率是否与这种混合所预期的很不一样?”如果我没记错,你们发现并没有。也就是说,在 200 或 300 年极端剧烈的环境变化中,从动产奴隶制到一个全新环境,没有自然选择效应。所以我们确实看到过一些阶段没有自然选择。但青铜时代显然必须有更强效应,也就是环境变化甚至比非洲人从非洲被迁到新世界、在奴隶制下生活更强。

David Reich:可能是这样。也可能那个时期太短,看不到多少效应。在 Bhatia 等人的论文中,我们看了大约 3 万名非裔美国人,想知道在平均约 80% 西非祖源之外,DNA 中是否有些地方显著高于 80%,或显著低于 80%。如果某个来自欧洲人或非洲人的遗传变异受到自然选择,你就会预期看到这种情况。我们没有看到任何 DNA 位置显著偏离偶然预期。一个可能解释只是,只有很少几代,也许五代,让自然选择发挥作用。所以如果选择强度是每代 2%,你仍然只能看到约 10% 的复合效应,时间不足以检测。但青铜时代不是 300 年,而是 3000 年。这就是复利的力量,你有足够时间开始看到强效应。

David Reich:这确实看起来是人类历史上非常非常有影响的时期,你可以在我们的复杂性状里看到。例如色素沉着,这是我们数据集中复杂性状中最强的选择信号。你看已知会影响色素沉着的遗传突变,把它们在整个 DNA 中的效应加总,有几十个或几百个。你看自然选择什么时候最强,时间段确实是 2000 到 4000 年前。其他一些性状也一样,你再次看到选择最强的时期是 2000 到 4000 年前。

David Reich:比如,如果你看影响认知表现测量的遗传变异,例如今天英国白人在智力测验上的表现。当然,把这种性状拿到过去测量非常奇怪,因为过去没有智力测验,也没有学校。但它今天是一种预测因子,你可以看它在过去如何变化。我们看到,对这组遗传变异有很强的自然选择;它预测人们在 IQ 测验上的表现,也与受教育年限或家庭财富的预测因子高度相关。对过去而言,这些都是很荒诞的性状,因为过去没有今天意义上的财富,也没有学校。但如果你看今天的预测因子,就会看到一个系统方向上的强烈移动,效应很大,大约相当于现代变异尺度上的一个标准差。

David Reich:我们可以用一个技巧,看看自然选择在某些时期是否更强或更弱。我们在数据中拖动一个 2000 年窗口,重复整个分析,不是分析 18000 年,而只分析短短 2000 年窗口。我们可以测量每个 2000 年窗口中的选择强度。当你看“智力”时,会看到它在青铜时代达到峰值,大约在 5000 到 2000 年前。过去 2000 年的影响几乎为零。完全没有自然选择证据。你进入这个问题时的偏见,也许也是我的偏见,可能是如果这个性状上有任何自然选择信号,它应该在过去 2000 年特别强。也许这是工业化时代,也许这是对这种特殊性状需求更高的时代。但事实上,过去 2000 年完全没有自然选择证据。在 2000 到 4000 年前,有非常强的证据。那段时间平均来看,不是一个标准差的选择强度,而是两个标准差。

Dwarkesh Patel:这里的标准差,是指这个性状本身的多基因评分移动了多少?

David Reich:是指在祖源保持恒定的人群中,这个性状的多基因评分在 1 万年期间移动了多少。我们实际做的是,在数据集中观察一个异质的人群。有南欧人、北欧人、狩猎采集者和农民。在过去不同时间,这些群体的代表性不同。Ali Akbari 开发的方法论的全部力量就在于,它校正了随时间变化的祖源。真正问的问题是:我们把整个数据集划分成时空中不同地点的小人群群岛。我们在每个时空点问:4000 年前到 3500 年前英国的一小群人、匈牙利的一小群人、2000 年前到 1500 年前意大利的一小群人,在每个这样的地方,当祖源相对相似、没有在短时间里被迁徙过分扰动时,我们观察遗传变化是否都朝同一个方向吹。我们是在校正已发生的大规模群体变化之后,测量每个时间点的选择强度。

Dwarkesh Patel:那这里的效应就很大了。高于中位数一个标准差,大概就是第 85 百分位。你是在说,选择效应如此强,以至于比较 1 万年前和现在,中位数已经移动到第 85 百分位。对类似智力,或者预测家庭收入的东西而言,这是过去 1 万年里的巨大效应。尤其考虑到这只占等位基因频率变化的 2%,另外 98% 来自迁徙。如果光这个就能推动这些品质产生一个标准差的变化,至少在我们今天世界上看到的那种变异范围内,那么迁徙的影响有多大,想起来真令人震惊。

David Reich:你可以在数据中看到迁徙影响巨大。例如,如果你看认知表现测量的轨迹,也就是今天英国白人的智力测验分数;但你看古代人中这个预测因子的估计值,欧洲狩猎采集者比现代均值低三个标准差。这是巨大的差异。然后你看到从他们到农民的巨大跳跃,农民在均值处,也就是零。这是迁徙。你看到的是,这两个群体对这些性状有不同的设定点。然后草原牧民的设定值较低。你会看到这个性状预测因子随时间发生巨大波动。这并不证明选择,那只是迁徙。但我们的测试告诉你的是:除迁徙造成的那些波动之外,是否存在一个一致的自然选择效应,把这个性状在所有地点和所有时间朝同一个方向吹?这就是我们检测到的东西。

Dwarkesh Patel:有一个理论叫集体智能假说,意思是对智力的选择其实朝相反方向发展。随着社会发展,专业化增加;如果专业化更多,每个人只需要理解世界中越来越小的一部分。因此古人其实比我们聪明得多,而我们在智力上向下演化了。你们的结果似乎指向相反方向。虽然过去 2000 年随着社会更复杂并没有选择,但至少在社会开始时,对今天预测智力的那类东西有更多需求。令人惊讶的是,如果你想到狩猎采集者,读你同事 Joseph Henrich 的书,他们需要掌握和评估的信息量非常大:如何处理食物,如何搭建住所,火,等等。相比之下,在我的世界里,我只需要知道如何架麦克风和问问题。祖先环境对智力的要求似乎应该高得多。所以文明初期竟然提高了对智力的选择,这很令人惊讶。

David Reich:这就是数据的力量。我想,如果在这项工作之前问 Joe,狩猎采集者身上的选择会是什么样,他们在这个特定性状上的设定点会在哪里,他可能不会做非常强的预测,但他会说:“也许你会预期这个性状的预测值较高,因为这些人确实必须做很多事、想明白很多东西。也许一旦有了更复杂的社会,就会有更多集体大脑,也许会对这个性状产生反向选择。”实际上,在某些方面恰恰相反。这就是数据的力量。它不是你预期的。数据的价值就在于帮助你理解这些事情。这很有趣。

David Reich:智力的遗传预测因子有很多令人困惑的地方,所以值得谈谈。或者说,受教育年限的遗传预测因子,它与智力高度相关,而且测量得更好。如果你看受教育年限的遗传预测因子,冰岛一个团队在 2017 年做过另一项惊人的研究。他们看了冰岛过去 100 年里这个指标,比较较年长者和更近出生的年轻人。估计在一个世纪内,智力遗传预测因子下降了 0.1 个标准差。这在短时间内是一个绝对巨大的效应。这是对受教育年限的反向选择。如果我刚才说成智力,那不是我的意思。它是对受教育年限遗传预测因子的反向选择。

David Reich:一种可能解释,当然很手挥,是这里测到的并不是对受教育年限或真实智力的选择,而是完全另一个与二者相关的性状。例如,受教育年限的预测因子与女性生第一个孩子的年龄非常强相关。如果控制这个因素,所有受教育年限的信号都会消失。所以也许你测到的是女性何时决定生孩子。如果你更早生孩子,就没那么多上学时间。如果你更晚生孩子,就上学更多。也许这是某种延迟满足、推迟事情或规划的测量。同一性状还与体重指数、肥胖和步行速度相关。所以,这真的是我们所理解的智力吗?还是别的东西,只是在过去不同时期以不同方式表现出来?

Dwarkesh Patel:显然,像受教育年限这样的性状,在过去本身并不是有意义的东西。但它背后的东西似乎受到了强烈选择。基因组中那些预测受教育年限的东西似乎受到了强选择。我们该怎么理解?基因组中实际变化的到底是什么?

David Reich:你需要同时考虑两件事。受教育年限在遗传上与许多其他东西相关。如果你看受教育年限的遗传预测因子,这个性状现在已经在数百万人中测量过,它与一些非常意外的东西相关。它与女性生第一个孩子的年龄相关,与肥胖相关,与步行速度相关,与家庭财富相关,还与其他各种看起来很不一样的性状相关。如果你以为自己测量的确实是智力的遗传预测,或真实的好学程度,那你应该重新想想,因为它和很多东西相关。

David Reich:似乎存在某种一般性性状,你也许可以把它想成执行功能,或者延迟满足的倾向,我只是在打手势。这个性状处在选择之下。它把所有这些性状朝同一个方向推,在过去不同时间,它有时有利,有时不利。当我们发现这个“更倾向于上更多年学”的遗传信号时,也就是它在今天英国白人中的表现,我们难以置信。这怎么可能?也许这是个问题。所以我们做了几个测试,试图弄清它是否真实。

David Reich:其中一个测试是,我们找了一项不是在欧洲人中,而是在中国人中测量受教育年限的研究。我们看许多变异对中国受教育年限的效应大小,然后看它们是否与这些相同遗传变异在过去 1 万年欧洲的轨迹相关。中国和欧洲是两个基本完全断开的世界人口区域。按偶然来说,过去 1 万年欧洲的轨迹不可能与今天中国受教育年限的效应有任何关系。但实际上存在巨大的统计相关性:今天中国受教育年限的变异效应大小,与欧洲轨迹之间有五到六个标准差的相关。事实上,它和欧洲变异对受教育年限的效应大小与欧洲轨迹之间的相关一样强。我们实在看不出这怎么可能偶然发生。看到这个之后,我们相当确信这是一个真实信号,也就是说,确实发生过自然选择,增加了那些今天表现为预测更长受教育年限的遗传变化。

Dwarkesh Patel:我确认一下我是否理解。你们看欧洲的古 DNA,发现它似乎能预测现代欧洲人的受教育年限,或者至少古 DNA 上的选择似乎预测了现代欧洲更高受教育年限。你们还发现,同样的变异也预测中国人的更高受教育年限。所以这不只是欧洲 GWAS 做法中的某种奇怪伪影。基因组中的这些部分似乎稳健地预测了某种今天确实会导致更多受教育年限的东西。

David Reich:正确。

Dwarkesh Patel:Jane Street 很神秘,但我了解到一个内部机制,能说明他们的文化有多高信任、多奇特。研究员不会被分配算力额度。相反,Jane Streeter 使用一种叫“hive bucks”的内部货币,在实时拍卖中竞价算力。每个人都可以花任意多的 hive bucks。但你的 hive buck 出价应该代表你想运行的实验的真实美元价值。尤其值得注意的是,在拍卖过程中,任何人都可以修改任何其他人的出价。拍卖结束后,人们甚至可以杀掉彼此的任务。大家只是相互信任,相信彼此会以有利于整个公司的方式做这件事。因此,Jane Street 的分配反映了对最高优先级算力用途的近实时共识。正如他们的一位机器学习工程师 Axel 所说:“我觉得 Jane Street 在这方面相当自下而上,我们有很多不同研究员都在训练自己的模型、序列模型,以及各种奇怪又精彩的东西。”顺便说一句,随着他们新的算力协议,他们刚刚向内部经济注入了 60 亿美元的 hive buck 刺激。Jane Street 正在招聘研究员、工程师和实习生。去 janestreet.com/dwarkesh 了解更多。

Dwarkesh Patel:退一步说,我想理解这告诉我们过去 18000 年里环境到底发生了什么变化。我们刚才谈了一点青铜时代之后发生的事,也在集体智能那部分谈到了。让我惊讶的是,像智力,或者缺少精神分裂症这样看起来稳健地好的东西,并没有在青铜时代之前达到最大化。不同人群之间的多样性如此之大,以至于欧洲狩猎采集者在如果存在智力测验时的预测分数上低了三个标准差。但他们生活在真实世界里,在一个智力很重要的地方。怎么会这样?你只要看人体,或者任何动物,进化都已经如此强烈地作用于它,让它适合要做的事情。而这个看起来如此相关的东西,尤其是对人类狩猎采集者需要做的事情,并不像在中石器时代或旧石器时代受到那么强的选择?

David Reich:我觉得这是一个很好的问题。正如我们之前谈到的,选择非常有效。如果某个方向在特定环境中有适应性,它可以在几百年或几千年里把性状均值朝一个方向或另一个方向移动。所以你也许会想,智力难道不是在所有情境和所有时间地点都好吗?

David Reich:有几种方式可以思考。首先,我们是从一个高度重视这个特定性状的社会角度发言,也就是在 IQ 测验或类似测试中得高分、或者上很久学的能力。我认为,生活在这样的时代在人类历史上是前所未有的。如果你看希伯来圣经和基督教圣经,看智力被重视到什么程度,基本上完全没有。

Dwarkesh Patel:但圣经被写下时,尤其是《旧约》,正是智力选择似乎达到历史最高点的时候。

David Reich:没错。但在那里,重要的是力量、勇气或宗教虔诚。那些才是价值。如果你读荷马,或其他宗教文本,重点不是智力,而是美和其他东西。这种高度聚焦聪明的价值体系,并不显然是过去常见的性状价值。你也许会认为,在某些社群里,人们会重视更接近受教育年限的东西。但非常广泛地说,它并不是人群中的高价值。

Dwarkesh Patel:显然,我们关心的不是 IQ 测试上的直接表现,尤其在过去不是。我想更好理解的是更广义的智力。也许 IQ 测试智力和“这里是一个新世界环境,去弄清楚如何在那里处理食物、建住所和其他一切”并没有那么相关。像 Joseph Henrich 这样的同事谈过,现代人低估了和一小群人一起做这些事情的难度。也许那不是 IQ 测试智力,所以我们看不到这个东西上有很强选择效应。但直觉上,不管价值体系如何,把这个性状最大化似乎都非常有价值。

David Reich:我这很投机。让我给你两个例子,说明我如何思考。当然我并不是这些事情的特别权威。正如我提到的,很多看似相当不同的性状彼此高度相关。肥胖、受教育年限、步行速度、IQ 测试表现、家庭财富,所有这些疯狂的性状,似乎在很大程度上由一组共享的遗传变异控制。我们想想这可能意味着什么。

David Reich:在过去 100 年的冰岛,对这组变异存在反向选择。一种可能解释是,它基本上是在选择两种投资子女的方式:生很多孩子但不投入太多,或者少生孩子并对他们投入更多。如果你投资于推迟生孩子、拥有更多财富、更多资源,并把更多东西投入每个孩子,你的生育率会更低,孩子更少。这会导致较低生育率,但那些孩子可能存活得更多,也在社会中过得更好。另一种方式是尽可能多生孩子,减少对每个孩子的投入。他们个体上也许结果没那么好,但在一个丰裕时期,也许 20 世纪的冰岛就是这样,多生孩子、少投入可能更有意义。这里有一个开关:更多孩子和更少投入,或者更少孩子和更多投入,让他们以不同方式出类拔萃。你可以想象,在不同时间和地点……生态学里有不同方式。哺乳动物通常在怀孕和少量孩子上投入很多,而鱼会把大量后代产进河里,绝大多数都会被吃掉。但在某些条件下,这也是一种有效产生后代的方式。所以,根据环境条件,可能会在大量后代、低投入,与少量后代、高投入之间来回切换。也许我们看到的只是这种切换在不同地点和时间移动。

David Reich:同样,对精神分裂症和双相障碍来说,这怎么可能有利?也许我们在这些疾病上看到的是某种性状谱系的读数,而它在某些情境中可能有利。也许焦虑、想象力丰富或神经质,在重视幻象或创造力的萨满传统或宗教传统中可能有帮助。也许这些是精神分裂症或双相障碍的亚临床版本,在某些时期可能有利,在另一些时期可能不利。你可能只是看到不同类型的创造力或其他思维方式受到选择,而它们在不同语境中可能有价值。我在这里很手挥,但我的感觉是,这些复杂性状并没有始终朝一个方向推动,因为光谱两端都有优势,而且这些不同性状有多维影响。

Dwarkesh Patel:Julian Jaynes 在《二分心智崩塌中的意识起源》里有个著名理论。我可能在糟蹋这个理论,但我基本理解是,直到荷马之前,几乎每个人都是精神分裂的。人们真的以为神是你正在交流的真实人物。他的说法是,古代文本似乎显示人们就是这样行动的。你被要求相信异象。即使在今天,一些宗教社群仍然重视与上帝沟通、拥有异象、发生超自然共融。所以我不知道。但我认为,追问为什么某些性状并不总是有利,真的很有意思。

David Reich:对精神分裂症和双相障碍来说,从某种意义上说,大多数突变是不利的。我们可以从变异模式中看到这一点:风险因素变异往往频率低,效应也小。

Dwarkesh Patel:你们发现处在选择下的另一个性状,是农业革命以来远离体脂的趋势。为什么会这样?

David Reich:你看到的是一组遗传突变的减少,它们让你更容易有肥胖、体重指数升高,以及与之非常相关的更高脂肪量、更高腰臀比和更高 2 型糖尿病风险。在世界的这一部分,过去 1 万年里,这些性状在现代变异尺度上大约降低了一个标准差,有清楚的选择。这里可能发生了什么?为什么此前没有对这组性状的选择?

David Reich:有一个长期存在的观点叫节俭基因假说。意思是,当狩猎采集群体进入一个食物充足的农业环境后,为了在压力时期存活而积累体脂的需求不再像以前那么大,因为食物储备更稳定。因此,一旦进入农业环境和食物丰裕时期,就会有自然选择反对体脂。也许你看到的是,过去 1 万年欧洲和中东这群人进入了食物相对更稳定的时期,储存脂肪不再那么有利,于是对这组性状产生了反向选择。欧洲人在遗传上其实相对更能抵御 2 型糖尿病,相比世界上一些其他人群,比如非裔美国人和美洲原住民,他们也许接触农业的时间没有那么长。所以你也许看到的是更长时间暴露于更稳定食物可及性的效果。

Dwarkesh Patel:这也是数据反驳常见叙事的另一种方式。常见叙事是,狩猎采集者其实饮食更稳定,因为他们饮食更多样,不依赖单一谷物或作物作为热量来源。如果一种猎物消失,他们还有其他东西可以寻找。他们也能更容易移动地点,因为没有被土地拴住。所以他们的食物更稳定。但如果存在对储存体脂的反向选择,这就提示,尽管农业社会不稳定、饥荒常见,它至少比狩猎采集者更稳定。

David Reich:这里有一个时间尺度问题。你完全说得对。按我的理解,我不是人类学家,在传统社会或狩猎社群里,当一次狩猎成功时,人们常常会大吃一顿,吃很多,建立短期脂肪储备,然后在下一次狩猎前连续多天吃不到肉。获得高价值营养存在这种繁荣-萧条节奏,而农业社群没有到同样程度。另一方面,饥荒更常发生在农业社会,但它们的时间尺度和节奏与狩猎节奏非常不同。也许每三年发生一次饥荒。确实,如果你看至少某些社群的农民骨骼,会看到更多压力痕迹,也许来自每三年或每五年一次的饥荒。但选择可能并不作用在三年这个时间段。你最近一次狩猎储存的脂肪,撑不到三年后的饥荒。熬过饥荒与积累体脂以活过两周后,是不同的事情。

Dwarkesh Patel:我有个随机问题。你提到,与祖先环境中更关乎适合度的其他东西相比,尤其是青铜时代之后的免疫系统,这些其他东西比智力重要得多,承受的选择压力也大得多。这让人好奇,智力上方是否还有大得多的空间。如果人类被特别针对智力选择,我们本可以聪明得多。这之所以相关,是因为我们现在正在构建 人工智能系统,并试图让它们尽可能聪明。事实上,训练过程的唯一目标就是智力。我们不需要同时担心让它们的免疫系统强大……

David Reich:我们有很多能量可以花在上面。

Dwarkesh Patel:同时也不用确保它们不会精神分裂。好吧,我猜我们某种程度上确实担心。但如果在过去 1 万、2 万或 10 万年里,智力不是人类受到选择的主导性状,这是否意味着这个性状的上方还有更多空间?

David Reich:我认为很多性状的上方都有更多空间。你可以把身高极端地朝一个方向推动,远超过今天。你也可以把任何这些性状极端地朝另一个方向推动。这样做很可能有非常强的负面影响。你可能在牺牲其他东西,存在权衡。但如果自然选择把任何这些性状比现在更强地朝某个方向推,均值很可能会移动。

Dwarkesh Patel:所以,“走出非洲”以来的所有这些演化,都是作用于上一期我们谈过的第一批人类变异池中已经存在的等位基因。那个群体大约 1 万人,从非洲爆发式扩张。令人惊讶吗?从认知画像到抗病能力再到身高,所有这些不同性状,一个人群池中竟然包含如此多潜在变异,足以提供足够的弹性来适应你们现在研究的所有这些不同性状?

David Reich:这是一个丰富的问题。我认为,人类群体内部对复杂性状有巨量变异。影响身高的变异非常多。影响体重指数的变异也非常多。如果你把所有这些突变都设成“高身高”变异,一个人会极其高,像高楼那么高。当然这永远不会发生。但如果你把所有影响精神分裂症风险的变异都指向同一个方向,就会有极端风险或极端保护。对由许多突变支撑的复杂性状而言,所有变异已经存在,可以把群体移动到其所处环境中最优的不同适应性设定点。如果你把群体推入新环境,几百年或几千年内,群体就能迅速移动到新的适应性设定点。

David Reich:有一些不寻常的性状,比如消化牛奶的能力,或者防护镰状细胞贫血的能力,需要一个尚未存在于群体中的非常重要的单一突变。你必须等这个突变在某些人身上出现。当群体相对较小,只有 1 万人时,可能要等几十代或几百代才会出现。但当群体很大时,就不再受突变限制。每一种可能发生的突变都会发生。世界上有 80 亿人。每代也许有 30 个新突变,所以每代有 2400 亿个新的点突变。基因组只有 30 亿个 DNA 碱基,所以每一种可能发生的突变,每代都会发生大约 100 次。我们不再受突变限制。突变可以再次出现,也确实会再次出现。但当人口只有 1 万时,有时你要等几十代或几百代,等新突变发生。

Dwarkesh Patel:青铜时代改变的东西,有多大可能只是人类人口足够大了?到公元前 3000 年,人口达到大约 5000 万。人口足够大,不同地区之间的基因流足够高,于是那些选择系数不是压倒性强、不是被进化压倒性偏爱的东西,终于对选择可见了。

David Reich:我认为这不太可能是真的,但这是一个非常有意思的想法。早在人口规模达到大约 100 万时,所有可能发生的突变都会在几代内发生。如果你看欧洲这样的地方,甚至其他地方,这远早于青铜时代;或者也许在青铜时代黎明或农业时期。你问的是,当人口较小时,自然选择是否可能无法有效运作。人们常说自然选择在小群体中不能有效运作,这是真的。因为在小群体里,突变频率会在每代之间随机摆动很多。如果人口规模是 1000,突变每代会以千分之一的频率摆动。如果选择系数低于这个值,就会淹没在遗传漂变造成的随机摆动中。但这已经是人口 1000 的情况。0.1% 的选择系数非常弱。我们说的是 1% 效应,那非常强。即使在 1000 或 1 万人的群体里也会很好地起作用。如果你谈的是那类只会在大群体中上升、而不会在小群体中上升的突变,那么它们的选择系数在万分之一或十万分之一量级。它们需要 1 万或 10 万代才会上升,也就是几十万年或几百万年。这在我们谈的时间尺度上不会产生作用。这里存在时间尺度问题。我们在这项研究中谈的是大约半个百分点或更高的强、可测量的选择系数。所有这些在小群体或大群体中都会起作用。它不会受到人口规模影响。

Dwarkesh Patel:有意思。你是说,更一般地讲,一旦达到某个人口阈值,主导因素就是时间跨度,而不是人口规模。

David Reich:正确。这很有意思,而且实际上并没有被广泛理解。

Dwarkesh Patel:说到数据反驳你本来可能假设的东西,你之前发给我的论文之一,Mallick 2016,发现 5 万年前现代人与古人类之间没有固定差异。我们知道,这是所谓认知革命发生、现代性开始、人们开始制作艺术的时期。这是否说明,并没有什么生物学变化让现代人成为现代人?发生的是某种文化变化?我们该如何理解这些数据告诉我们的东西?

David Reich:对。10 万到 5 万年前,文化变化的速度加快。你看到最早的大量具象艺术、珠项链、墙上绘画,以及人们使用工具类型的创新速度迅速提升。人们可能会想,人口中发生了某个重要的遗传开关,某种重要遗传变化,并扫到高频率,很快每个人都有了它,使人们能够做这些事。也许某些基因让人能够拥有复杂的、具象的语言。2016 年,在 Swapan Mallick 及同事的这篇论文中,我们做的一件事,就是在整个 DNA 中寻找可能符合这种模式的位置:今天几乎所有人都共享一个也许 10 万或 20 万年前的共同祖先。我们非常努力地寻找,在能看的所有 DNA 中,找不到任何比 40 万或 50 万年前更近的东西。这是一个疯狂的结果,因为它看起来说明,在这个物质文化记录中出现大量证据的重要时期,并没有发生对今天所有人共同祖先性的关键选择性扫荡。我们之前谈过欧洲人和东亚人之间没有选择性扫荡,但在这个非常重要的时期,甚至似乎没有所有人类共享的选择性扫荡。

David Reich:这段时期可能存在生物学适应,但它是多基因的。许多突变都朝同一方向移动,帮助群体移到新的设定点,但没有一个关键生物学变化在这段时间上升到高频。

Dwarkesh Patel:5 万年前的这个群体,是所有走出非洲者的祖先,还是也包括一些非洲人?

David Reich:这是 10 万到 5 万年前。这个群体是西非人、大多数东非人和所有非非洲人的祖先。非洲有少数群体拥有相当大比例来自更分化群体的祖源。例如南部非洲 Khoisan,或中非雨林狩猎采集者,有相当一部分祖源来自也许 20 万年前就与其他谱系分化的群体。但今天所有这些群体都能上大学,能做每个人能做的事情。没有证据表明某些群体缺少其他群体拥有的任何关键突变。

Dwarkesh Patel:我们在不同人群之间看到的差异,尤其如果 5 万到 10 万年前的这个群体人口规模很小……我想上一期我们讨论的是大约 1 万人。所以世界上几乎所有人,或者说今天不同人类之间的变异,都潜伏在这个群体中。我理解你的观点:如果你把基因组中不同东西叠加起来,确实会产生巨大效应。但很有意思的是,今天世界上有这么多不同群体,而所有多样性都来自一个很小的人口规模。

David Reich:我们许多人类遗传学家认为,我们的群体内部含有塑造几乎任何性状所需的黏土。根据环境条件或选择条件,这些性状的均值会朝不同方向移动。关于不同人类群体随时间发生了多少选择,这是一个经验问题。我们参与的这项新工作显示,至少在过去 18000 年里,在世界这一部分,至少若干重要性状发生了显著移动。我们看了 500 多种性状。大约 100 种复杂性状在这段时间里显示出系统方向上的显著移动。看起来人们生活的环境确实引发了回应,而且这种回应可能强于更早时期。

Dwarkesh Patel:Crusoe 有一个很棒的机器学习基础设施团队,一直在寻找聪明办法从硬件中榨出更多性能。例如,分词已经成为智能体工作负载的真正瓶颈。智能体提示往往非常长。它们通常有很高的 KV cache 命中率,这会缩小 GPU 的预填充工作量。这意味着传统上串行的分词步骤,在首 token 时间中占了更大比例。为了解决这个问题,Crusoe 构建了 fastokens,这是一个开源的、基于 Rust 的分词器,通过并行化来利用现代 CPU 上所有核心。Crusoe 在这里必须很有创造力,因为朴素方法行不通。例如,对预分词来说,你不能只是把文本拆成块然后跑正则,因为当一个词跨过切分点时会出问题。Crusoe 通过给每个线程一个权限区,并允许它向自己边界之外多读 1KB 来解决这个问题。这个 1KB 缓冲区保证你不会错误处理 token,而权限区保证不会出现重复。不需要跨线程协调。Crusoe 把这个优化和其他一些聪明调整结合起来,在真实生产工作负载上把首 token 时间提升到最多 40%。了解更多请访问 crusoe.ai/dwarkesh。

Dwarkesh Patel:我们之前谈到,3 万年前的人类和今天的人类之间没有固定差异。所以,如果没有遗传基础解释为什么人类能够有更多符号表征、农业等等,我想上次我们聊时我问过你这个问题,但在这个语境下尤其想问:为什么冰期之前没有农业?遗传上我们已经具备条件了。

David Reich:这是一个非常有意思的问题。遗传上我们具备条件。共同祖先群体在 5 万年前就拥有农业所需的所有成分。这些人分散到世界不同地方:15000 年前或类似时间到美洲,40000 年前到新几内亚,到东亚、欧洲、西非。农业在 11000 或 12000 年前之前没有发展出来。它只在过去 12000 年,也就是被称为全新世、冰期结束后的时期发展出来。如果你和气候科学家、考古学家谈,我每次遇到这方面专家都会问:农业怎么会在这么多地方发展起来?我们真的生活在这么不寻常的时代吗?

David Reich:人们告诉我,确实,在 200 万年尺度上,我们生活在一个非常不寻常的时代。也就是说,12000 年前,我们进入了一个不仅温暖,而且气候稳定的时期。很难相信我们生活在这么特殊的时代。但如果你看池塘底部的数据,通过同位素特征测量温度波动,显然我们处在一个年与年之间、10 年与 10 年之间、100 年与 100 年之间波动小得多的时期。我们奇迹般地生活在一个相对稳定时期。当这个相对稳定时期发生时,多个群体随之独立转向农业,尽管他们都有同一套在 5 万、10 万、20 万、30 万年前形成的遗传组成。这是一个疯狂的观察,人们只是接受了它,但它令人难以置信。

Dwarkesh Patel:哦,所以你把范围扩大了。你说 10 万、20 万、30 万年前。基于现代人与 30 万年前人之间的遗传差异,你基本认为他们在 30 万年前就是现代人了吗?

David Reich:我不知道。这正是我现在一直在思考的事情。30 万或 40 万年前,人类文化发生了巨大转变:Levallois 技术的发明,也就是用石核制作石器的能力。中石器时代革命,或者按非洲和欧亚不同叫法,中旧石器时代革命,是一种新的石器制作方式。尼安德特人和现代人都共享它,但东亚或南亚并不共享。这是一个重大变化,而且为了制造这种技术,想必涉及认知变化。然后到旧石器时代晚期或晚期石器时代,也许 10 万到 5 万年前,出现第二次转变,有一种新型工具制作,但它不像更早那次那么革命性。所以认知飞跃发生在什么时候并不清楚。通向今天活着的人群的谱系分化,比如南部非洲 Khoisan 和雨林狩猎采集者,都更多发生在 30 万或 20 万年的时间尺度上。所有这些人都能上大学并做所有事情。所以,认知工具包、行为工具包和遗传能力在 20 万或 30 万年前没有全部到位,甚至尼安德特人没有它们,并不是显然的。我就是不知道。你把这些源自 20 万或 30 万年前分化的人分布到世界不同地区,然后在 12000 年前之后,农业开始在不同地方冒出来。这是人类历史中的一个杰出谜题。我觉得我们生活在一个气候学上在 200 万年尺度上如此独特的时期,令人难以置信,但我的同事告诉我这是真的。

Dwarkesh Patel:考虑到农业是在很多不同环境中独立发展出来的,气候解释似乎令人惊讶。我理解,不同环境之间的方差可能下降了。如果它只在一个地方、一个时间发生,我可以接受这个解释。但他们在新世界种玉米,在旧世界种谷物,处在非常不同的环境里,所以这很令人惊讶。

David Reich:非常、非常令人惊讶。我们接受它,但这是一个普通人大多没有意识到的疯狂观察。基本上所有人都接受的一点是,除了雨林狩猎采集者和 Khoisan 之外,世界上几乎所有人的共同祖先群体大约在 7 万年前。所有人都接受,这些人已经具备农业革命和建设国家社会所必需的认知、行为和智力成分。因为当这些后代分散到西非、东非、美洲、欧洲、南亚、东亚、新几内亚等等,他们的后代全都做到了这件事。他们在这些世界不同地方独立、半独立,或者可证明完全独立地做到。完成这件事的认知资源一定早已到位,但这是一根很长的引信。在共同祖先群体分裂之后,它在所有这些不同地方延迟了 4 万或 6 万年,然后才点燃农业以及之后所有这些东西。这是一个疯狂的说法。然后你还可以争论真正的引信是不是 30 万年,从尼安德特人分离、现存现代人不同谱系分离时算起,这也同样合理。我们被要求相信的是一组疯狂的事情。

Dwarkesh Patel:有没有可能农业曾经存在,但你没有现代冶金或类似东西,不能让人口从公元前 5000 年开始随着青铜时代爆发式增长?从人口上看,公元前 10000 年到公元前 5000 年的早期新石器时代似乎没有发生太多事。有没有可能他们有农业,但没有铜或锡,而你需要去中东获得这些,才能发展出能大规模使用青铜的文明,所以他们只是从历史记录中消失了?

David Reich:我认为我们会看到他们的考古遗迹。美洲有非凡的发展,而且完全是石器时代。

Dwarkesh Patel:如果它们完全消失了,你今天也会看到?

David Reich:哦,会的。我们应该去一趟墨西哥的特奥蒂瓦坎。我 20 岁去那里的时候,它给我的震撼完全不亚于古埃及。它很巨大,非常庞大,而且没有金属。它甚至更令人印象深刻,因为不仅没有金属,也没有动物和轮子,这很疯狂。大理石就是在没有轮子的情况下拖运的。

Dwarkesh Patel:对。

David Reich:把任何有旧世界优越感的人带到这些地方,他们就不会再有那种优越感了。这些地方的东西非同寻常。这些人至少在 2 万年前就与东亚人祖先分离,在 4 万年前就与西欧亚人祖先分离。他们从那时起就拥有同样共享的生物和文化工具包,但直到所有这些事情发生之前,都有一个很长的引信延迟。这是惊人的事情,而我们并不质疑它。

Dwarkesh Patel:还有哪些问题是你现在正在研究,或者想要研究的?这些宏大的人类历史问题。

David Reich:我很困惑。不知道我们之前是否谈过,但我仍然对古人类和现代人之间的关系非常困惑。我们现在有生活在欧洲、西欧亚和中欧亚的古人类基因组序列,也就是尼安德特人。我们有这些神秘的丹尼索瓦人的古人类序列,自从上次谈话后,我们现在甚至有了他们的骨骼。现在有一个头骨被证明是丹尼索瓦人。我们有大量现代人的数据,而这些群体之间的关系有非常大的谜团。

David Reich:从遗传上看,丹尼索瓦人和尼安德特人是姊妹群。他们来自 50 万或 60 万年前的共同祖先群体。那个群体又在 70 万或 80 万年前与现代人的共同祖先分离。从遗传上看,全基因组数据说,尼安德特人和丹尼索瓦人是来自共同古老人类祖先群体的古人类。但尼安德特人和现代人之间共享很多东西,而这些东西似乎不与东亚人共享。他们都共享中石器时代石器,Levallois 技术,这种认知上独特的石器制作方式在东亚没有使用。他们都有相同的线粒体 DNA 和 Y 染色体序列。尼安德特人的 Y 染色体序列和线粒体 DNA,实际上是通过 20 万或 30 万年前的混血进入的现代人序列,然后升到 100% 频率。尼安德特人和现代人都是 30 万或 20 万年前古人类和现代人之间混合事件的产物,这一点可以通过古代和现代 DNA 的变异模式证明。感觉尼安德特人和现代人之间有某种共享的东西,而这东西不与丹尼索瓦人共享,尽管全基因组投票说丹尼索瓦人和尼安德特人相关。人们会想,是否有某种东西连接尼安德特人和现代人,使其不同于丹尼索瓦人,尽管全基因组上丹尼索瓦人和尼安德特人聚类在一起。这是我现在一直在思考的事情。

Dwarkesh Patel:连接他们的会是混血事件吗?或者他们曾在同一时间同一地点,而我们错过了?

David Reich:有一个已知混血事件,是通向现代人的谱系向尼安德特人输入基因,但据说只有 5%。我感兴趣的是,这 5% 也许实际上是某个影响大得多的东西的信号。某种意义上,尼安德特人也许在某些方面深度现代,尽管他们被古老基因淹没,但他们具有比我们想象中更大的现代影响。他们与现代人共享的中石器时代和中旧石器时代革命,从某种意义上说,也许比我们想象的更根本地构成了他们是谁。

Dwarkesh Patel:有意思。抱歉,这次混血事件是什么时候?

David Reich:30 万到 20 万年前。

Dwarkesh Patel:所以尼安德特人与今天大多数人的共同祖先,可能比今天所有活着的人之间的共同祖先还要近。

David Reich:哦,当然。

Dwarkesh Patel:这太疯狂了。

David Reich:嗯,与所有古人类,包括丹尼索瓦人的分化,都在人类变异范围之内。

Dwarkesh Patel:等等,什么?

David Reich:是的。任意两个人类基因的共同祖先平均时间是一两百万年前。如果你看你从母亲那里得到的 3 号染色体拷贝,以及从父亲那里得到的 3 号染色体拷贝,它们共享共同祖先的典型时间是一两百万年前。这早于尼安德特人和丹尼索瓦人的分裂。所以,在你的 DNA 中有许多位置,你在母亲一侧与尼安德特人的关系,比你与父亲的关系更近。

Dwarkesh Patel:我相信有个简单解释,但这是怎么回事?

David Reich:原因和如果你有一个姐姐,在 DNA 的某些位置你和她比和我更近,因为你们共享一个父母;但在另一些位置,你和我比和你姐姐更近,因为你和她刚好没有从父母那里共享同一段 DNA。道理一样。只是我们从共同祖先群体获得的 DNA,在 50 万、70 万、100 万年前就已经相当多样;我们中的一些人来自那些祖先中的一部分,另一些人来自另一些祖先。尼安德特人与我们的谱系分离,在人类进化时间尺度上非常接近,以至于在 DNA 的某些位置,我们与尼安德特人的关系比彼此之间更近。

Dwarkesh Patel:有意思。还有哪些大问题?

David Reich:这是我最近最常思考的主要问题。我也继续非常痴迷于人类群体如何扩散到世界各地,并试图用古 DNA 重建这件事。

Dwarkesh Patel:录制结束后,David 开始在房间白板上自发解释他正在研究的一个关于尼安德特人遗传学的新理论,我用 iPhone 录了下来。

David Reich:我最近经常思考的一件事是,也许我们对古人类和现代人关系的思考方式不对。标准模型是:丹尼索瓦人,也就是这些通过古 DNA 发现的古人类,和尼安德特人来自 50 万或 60 万年前的共同祖先群体;这两个群体又更早,也许 70 万到 80 万年前,与现代人的祖先,也就是像我们这样的人分离。这是 2010 年以来许多研究的大结果。但也有证据显示,在大约 20 万到 30 万年前发生过一次混血事件,导致现代人向尼安德特人的祖先贡献了 DNA。所以也许尼安德特人 5% 的 DNA 来自这次混血事件,许多研究都显示了这一点。

David Reich:我对这件事很感兴趣,因为从考古记录看,尼安德特人和现代人彼此非常相似,远比他们中许多人与丹尼索瓦人,也就是东亚这些古人类,相似得多。在很长历史里,人们认为尼安德特人是我们的姊妹群。但 2010 年丹尼索瓦人基因组测序之后,人们非常清楚地看到,平均而言,丹尼索瓦人与尼安德特人比与现代人更近。这是一个非常令人困惑的结果。现在多数人认为,尼安德特人和丹尼索瓦人来自一个共同祖先群体,而这个群体更早从现代人祖先中分离出去。我感兴趣的是,是否应该把尼安德特人理解为某种文化上的现代人,尽管遗传上他们主要是丹尼索瓦人那一侧。

David Reich:我正在思考的模型,是受到一个考古现象启发,也就是中石器时代革命。如果这里是非洲,这里是欧洲,我们知道一种新的石器制作方式开始被使用,时间是 30 万或 40 万年前,最早出现在高加索,比如今天格鲁吉亚一带,或者东非。这种方式用石核制造石器,石核来自离使用地点很远的地方,并且是精心开采的,使用燧石等高质量石材。这种石器制作方式相当革命性。它在欧洲被称为中旧石器时代,在非洲被称为中石器时代,并与更广泛地使用火,以及把石头移动到比以前远得多的距离有关。我感兴趣的是,这也许是现代人和尼安德特人共享的东西。某种共享的文化特征在东亚缺席,而它可能与遗传数据有关,并以某种方式与这 5% 的 DNA 相关。

David Reich:我感兴趣的想法是,也许这里有一个人群发明了中石器时代和中旧石器时代,有时叫 Levallois 技术。来自这个人群的人扩张到欧洲,与当地古人类混合。这就是那次 5% 的混血事件。它发生在 20 万到 30 万年前。它产生了一个群体;这个群体随着在欧洲这片景观上扩张,主要吸收当地 DNA,在遗传上变得主要是古老人类,但保留了现代人文化,也就是制作石器的方法和一些传统。

David Reich:非常有意思的一点是,如果你真的看遗传学,全基因组上尼安德特人和丹尼索瓦人聚类在一起。但如果你看线粒体 DNA,也就是人类和尼安德特人从母亲那里得到的 DNA,尼安德特人和现代人聚类在一起。如果你看线粒体 DNA,丹尼索瓦人和现代人共享的祖先远早于 70 万或 80 万年前,正如历史所预期的。如果你看从父亲那里得到的 Y 染色体,丹尼索瓦人和现代人共享的祖先也超过 70 万或 80 万年前,这与这段历史一致。但如果你看尼安德特人的线粒体 DNA,它只有 30 万到 45 万年。如果你看 Y 染色体,也只有 30 万到 45 万年。

David Reich:当前遗传学工作要求我们相信:虽然这只占全基因组的 5%,却引入了线粒体 DNA 和 Y 染色体,并且它们升到 100% 频率。这是一个有点疯狂的说法,因为这种事情偶然发生的概率很低,也许是 5% 乘以 5%,是一个非常小的数。我们实际上都相信它,但这是一个非常令人惊讶的事件。它不知怎么逐渐累积到文献里的所有发现中,以至于我们让自己相信它;但从第一性原理看,只有 5% 却同时引入 Y 染色体和线粒体 DNA,似乎不太可能。而它看起来确实是这样。西班牙有一个叫 Sima de los Huesos 的遗址,年代在 30 万到 40 万年前,数据惊人。他们的核基因组在大多数基因组上看起来像尼安德特人,但线粒体 DNA 和 Y 染色体像丹尼索瓦人。所以看起来确实有一个与现代人相关的人群推进到类似 Sima de los Huesos 的人群中,替换了其线粒体 DNA 和 Y 染色体,但保留了其余基因组。真的看起来发生过这样的事情。我正在玩味的想法,也许是错的,谁知道,是存在这样一片景观……

David Reich:这是欧洲,你可以把它分成大约一百个 deme,也就是小区域。现代人从右下角引入,在中东或某个地方,然后扩散进欧洲。随着这个人群扩散,有一个扩张波前,他们与当地古人类互动。来自模拟和对哺乳动物、鸟类等不同物种研究的理论显示,即使只有少量混血,当一个群体入侵或扩张到另一个群体占据的领土时,也会发生大规模的当地基因渐渗。波前的先锋有时会与当地人群混血。周围当地人太多,他们的 DNA 会被当地群体淹没,所以等他们抵达另一边时,他们在很大程度上已经是当地的了。也许这就是我们看到的东西。

David Reich:你有一个现代人群体,例如母系制,其中这种制作石器方式的传递从母亲到孩子发生。这就是为什么他们保留了线粒体 DNA,但等他们到达欧洲另一端时,他们主要已经是当地古人类。你最终得到一个 95% 的群体替代。这会解释为什么线粒体 DNA 在尼安德特人和现代人之间共享,也解释为什么混合比例只有 5%。

David Reich:真正有意思的是,现代人研究还有其他证据显示,现代人也是混合的。正确的思考方式是,现代人是两个群体的混合体,它们也许在 150 万年前分化,然后在 20 万到 30 万年前汇合,其中也许 20% 祖源来自这个古老非洲群体,80% 祖源来自这个早期现代谱系。然后同一个群体又与尼安德特人混合,结果是 5% 现代、95% 当地。所以你实际上有一个关键人群,它制造了中石器时代或 Levallois 技术。它在 20 万到 30 万年前出现并向所有方向扩张,进入欧洲和非洲,带来这项技术、新观念,也许还有一些遗传适应。它扩张到欧洲古人类中,与当地人群混合,并被 95% 替换,但仍保留了它的文化特征,也许还有一些遗传特征。它也扩张到非洲,但这里不是被 95% 替换,而只是被 20% 替换。原因很可能是,这个群体分化程度更大。它们分化了 150 万年,而不是 70 万到 80 万年。因此有更多遗传不相容和基因流障碍。但仍然有很多混合,也许 20%,而且我们有证据表明这是一次大的混合事件。

David Reich:所以你实际看到的是一次现代人扩张,同时进入欧洲和非洲。在一个地方,它形成尼安德特人。在另一个地方,它形成今天所有人的祖先。但所有这些群体都源自这里发生的关键革命事件。我们常谈 5 万到 10 万年前的革命事件,更多符号行为等等,它最早出现在非洲和中东并向外传播。但还有这个更早的事件,而且它与今天非洲不同群体的分裂同时发生,比如 Khoisan 南部非洲人和中非雨林狩猎采集者。人们不禁想,这是否是一个同样重要的形成性事件。如果这是真的,它会让你把尼安德特人看作某种意义上的表亲。他们共享 Y 染色体,共享线粒体 DNA,共享这个 20 万或 30 万年前事件的形成过程,也共享工具包。虽然基因组告诉我们他们是丹尼索瓦人的表亲,但从一个重要意义上看,正确理解他们的方式也许是现代人的近亲。

Dwarkesh Patel:我有太多问题了。你还有 15 分钟吗?首先,150 万年前这群古老非洲人到底是什么情况?他们在非洲哪里?那些没有形成现代人的部分后来发生了什么?他们存活下来了吗?

David Reich:这不是来自古 DNA,而是来自对今天不同人的现代 DNA 分析,主要是非洲人,但也包括非非洲人。多项研究,至少有三项,也许我知道的有四五项,观察了今天人的变异模式,并说今天现代人中的数据,包括非洲人,不符合一个同质群体。它看起来像是一个群体在一百多万年前分裂成多个群体,至少两个,也许很多,然后在几十万年前汇合。不同论文拟合了不同模型,但它们都有这个特征:一百多万年前的分裂,然后在几十万年前左右重新汇合和再混合,形成解剖学现代人的祖先。

Dwarkesh Patel:这包括 Khoisan 和其他所有群体?

David Reich:是的。所有这些群体都有这个,只是比例可能略有不同。你问这些人住在哪里?谁知道。在这个情境中,80% 来自高加索或东北非,也就是中石器时代形成的地方。中石器时代来自这个人群。他们与当地群体混合,至于当地群体在哪里,谁知道:南部非洲、西部非洲、中部非洲、东部非洲。我们没有任何古 DNA,但这是一个非常丰富的环境。人们至少在那里生活了 700 万年,各处都会有不同人群。它可能不只是两个群体,可能更多。这里的重要主题是,有证据显示存在超过一百万年历史的亚结构。这里本来会是一片充满古老人的景观,他们与这些扩张者有不同亲缘关系,并在扩张者经过时与之混合。

Dwarkesh Patel:所以对尼安德特人来说,第一次大约 30 万年前,我们的祖先与他们共享文化。他们共享中石器时代技术,但没有替代人口。技术基本上通过文化传播。

David Reich:也通过基因传播。如果你看印度的 Yamnaya,印度几乎没有 Yamnaya 祖源。它一路被稀释了。Yamnaya 扩张到中亚和欧洲时,形成了绳纹器文化。这里有 25% 的稀释。它再扩张回中亚,穿过兴都库什,进入南亚北部。它与当地人进一步混合。今天你在印度看到的最高 Yamnaya 祖源也就是 20% 或 10%。多数人低于 10% 或 5%。一路上发生了大量混合,但它是示踪染料。它追踪印欧语系语言,印欧文化的重要方面通过 Yamnaya 传递。所以如果你知道该看哪里,那种示踪染料在某些群体中只有 10%、5% 或 2%。但正是人们说的语言,以及重要的共享文化元素,把他们和印欧语世界另一端的人连接起来。所以这 5%,你不应该轻视。它在这个模型中追踪的是重要东西。

Dwarkesh Patel:我理解如果东西更多通过女性传递……抱歉,我退一步。我不理解为什么母系线粒体 DNA 和 Y 染色体会在扩散发生时受到特别优待。你能解释一下吗?

David Reich:我谈到这些母系或父系扩张,是因为我真的被一个事实困扰,而且多年来一直被困扰,尤其是过去三四年:线粒体 DNA 和 Y 染色体把尼安德特人和现代人聚类在一起,但基因组其余部分把尼安德特人和丹尼索瓦人聚类在一起。这是一个在任何其他物种中都没有看到的疯狂结果。我非常感兴趣的是能解释它的模式。

David Reich:如果你假设曾有母系或父系扩张,两者都可能,那么现代人在欧洲景观中扩张时,就沿着其中一条谱系保留了他们的身份。如果是母系,当他们吸纳当地社群的男性时,男性被带入社群,孩子根据母亲的文化被抚养。如果是父系扩张,他们吸纳社群中的女性时,女性会在父亲文化中生活。如果发生这种事,它保证这两部分基因组中的一部分会呈现我们看到的样子,因为这是一次现代人扩张。如果是父系,它会保留 Y 染色体。如果是母系,它会保留线粒体 DNA。所以它会解决你的两个问题之一。但不是两个都解决。另一个还需要解决。你可以用自然选择解决,也可以用社会选择解决。

David Reich:顺便说一句,父系制和母系制在人类社群中是常态,而不是例外。通常社群沿男性或女性谱系保持连续性。通常是父系制,有时是母系制。你也可以有社会选择这类现象。比如,如果某个孩子的父亲来自外部社群,会发生什么?通常在大多数社群里,女性都会繁殖。今天也典型如此。如果可以,女性通常会有孩子。但在传统社会中,男性的繁殖成功差异非常大。很大一部分男性从未有孩子。然后有一部分男性与许多女性有许多孩子。男性之间存在生育竞争。在这种男性争夺接触女性机会的语境中,女性择偶开始成为重要过程。于是会出现一种现象:如果你的父亲是古老人类男性,那么相较于父亲是非古老人类男性,你在争夺当地女性时可能没那么成功。某种简单的社会现象就能解释数据,而且我们在人类社会中确实看到这种现象。例如,如果我没记错,在中非雨林狩猎采集者中,根据父亲或母亲属于哪个群体,对男孩和女孩会有不同对待。

Dwarkesh Patel:我想我不明白母系……这个群体扩散,到达下一个前沿。他们有孩子。刚进入的人类生的孩子,会有人类的线粒体 DNA。但现有的人,也会有古人类线粒体 DNA。为什么拥有古人类线粒体 DNA 的人没有存活下来?

David Reich:这是个问题。有多个可能解释,但解释这一点比同时解释线粒体 DNA 和 Y 染色体要容易得多。一种可能是古人类线粒体 DNA 生物适合度较低。另一种可能是,人们基于父母是否为古老人类而受到社会歧视,这在人类语境中一点也不令人惊讶。这是这个论证中最薄弱的环节。这个论证可能是错的,但我只是在告诉你我在想什么。

Dwarkesh Patel:好,尼安德特人。所以 30 万年前我们的谱系与他们互动,但主要是他们的谱系存活,并发生文化和遗传扩散。然后我们再次互动是在 7 万年前吗?

David Reich:是的。而他们没有存活。遗传祖源没有存活。

Dwarkesh Patel:遗传祖源没有存活。想必在 30 万年前和 7 万年前之间也有其他接触。

David Reich:很可能。但这些是我们目前能检测到的。

Dwarkesh Patel:一次是这种扩散,大多数古老基因组存活下来;另一次是完全替代。这只是偶然吗?

David Reich:考虑到语境,这一点完全不令人惊讶。如果你想这个模型,这里是 70 万或 80 万年前。这里是 30 万年前。所以分离了 40 万年。你之前和我谈到 Bhatia 论文。那是两个分离 7 万年的人群。西非人与欧洲人之间没有生物学不相容,没有反对生物学不相容的自然选择。我们知道,尼安德特人与现代人相遇并混合时,存在生物学不相容。那是 70 万年前。随着群体距离更远,生物学不相容会快速发展,很可能近似按分离距离的平方增长,因为你需要相互作用的基因对。这里,这个谱系和那个谱系之间也许只分离了 40 万年。但这里是 120 万年。那非常长。这些人接近无法生育孩子的边缘。他们是相当不同的人类。实际上这三者的距离是那边的三倍。如果你看今天人类混合,南部非洲有一些混合人群的距离只有这一半。比如 Khoisan 和 Bantu 人在南部非洲混合,像 Nelson Mandela 所属的 Xhosa,这些群体分离了接近 20 万年,是这里的一半。完全兼容。你看到的是一个在遗传上几乎完全可渗透的群体。另一个几乎肯定有相当大的生物不相容。

David Reich:因为 20 万或 30 万年后,我们看到尼安德特人与现代人,或者丹尼索瓦人与现代人之间的混血,那时已有清楚的不相容证据。但这里会更大。你会预期,当这个群体扩散时,他们会进入一片充满古老人类的领土。会有一些混血,但孩子适合度不高。他们会死掉。会有很多不育。基因流和混血的障碍会更大。对我来说,完全不奇怪的是,当这个群体进入欧亚时,你有欧亚古人类,也就是丹尼索瓦人的祖先,他们与这里这些人只分化了 40 万年。然后你有非洲古人类,他们分化了 120 万年。他们就不会混血那么多,也不会有那么多基因流。

David Reich:但关键是时机。是同一时间。它真的像是一群人从某个地方爆发,和这里的人互动,也和那里的人互动的印记。同一个文化或技术革命影响了这个地方和那个地方,并创造出受这场文化革命影响的人群;我们知道这一点,因为他们共享同样的工具包。有些人认为 Levallois 技术是独立发明的。但它非常相似,而这个模型可以解释它如何拥有同一起源。所以有一条共享文化线索,这个共享工具包。有一条线粒体 DNA 和 Y 染色体线索。还有一条共享时间线索,也就是二者都由混合形成。否则你就必须相信尼安德特人独立发展出了石器时代工具。

Dwarkesh Patel:是的,这并非不可想象。但这有点像相信农业在世界多个地方独立发展。

David Reich:对。但它确实独立发展了。所以正如我说的,这可能是错的。我试图告诉你的是,我们并不真正了解自己生活的世界。这个模型并非显然错误。事实上,对我来说,它比我们现在写下来的模型更合理。它可能是错的,但更合理。它解释了多得多的东西,而且并不更复杂。

Dwarkesh Patel:有意思。你想重述一下你刚才说的托勒密和本轮类比吗?我觉得那很有意思。

David Reich:我认为我们集体拼起来的古人类与现代人关系模型,是随着时间逐渐堆积出来的。起初有这样一个想法:现代人是独特的,而尼安德特人和丹尼索瓦人彼此是姊妹群。随着时间推移,我们检测到更多混合事件,比如现代人向尼安德特人的输入,还有我甚至没谈的其他事件,比如一个极度分化谱系进入丹尼索瓦人,以及其他所有这些东西。我们仍然说:“哦,全基因组说尼安德特人和丹尼索瓦人是姊妹群,所以那就是事实。”我们把所有东西拼补在一起,让它运转起来。你看线粒体 DNA 和 Y 染色体,它们有这种奇怪模式,而且概率很低,但如果我们调用自然选择等东西,也能让它成立。你把它全补起来。

David Reich:这让人想起古代世界发生的事情。当时有一个想法:太阳绕地球转,但它并不能很好解释行星运动。为了让行星运动对得上,托勒密和天文学家提出本轮,这些特殊的额外旋转和运动,让一切大致成立。那是一个如此盘根错节的模型。当哥白尼和同事提出,实际上万物都绕太阳转时,事情简化了太多。发生的事情是,随着天文信息积累,它不断与标准模型矛盾,但每次都可以通过提出另一个复杂项、再一个复杂项、再一个复杂项来让它成立。这里并没有提出“万物绕太阳而不是绕地球”那么惊人,但它简单得多,而且确实解释了很多东西。

Dwarkesh Patel:这个替代模型里,反直觉、出乎意料或难以接受的地方是什么?人们犹豫采用它的原因是什么?

David Reich:我不知道。现在没人真正思考这个模型。它对我来说显然是一个非常自然的模型。

Dwarkesh Patel:我这样问的原因是,古希腊的 Aristarchus 曾提出日心说,因为他推断出了地球到太阳的距离,并注意到其他事情。但它没有被采纳,因为他的雅典同胞会说:“看,如果我们相信地球绕太阳转,而我们又看不到恒星相对于地球的相对运动,那么唯一可能的解释就是恒星远到不可理解、不可置信。”所以日心说被驳回了。我想问的是,这里对应的“要让这个理论成立,恒星必须远到不可想象;但实际上恒星确实远到不可想象”的东西是什么?也许我们应该接受这个理论给出的那个看似不可信的推论。

David Reich:这是个很棒的问题。我认为我们必须假设,这一时期非洲和欧亚的文化转型之间存在联系,而这不是学界真正把它和遗传数据放在一起的东西。遗传学里有一条关于非洲人亚结构的线索,然后还有一个完全基于古 DNA 的世界,讨论古人类与现代人的关系。它们从未被放在一起。没人把现在关于现代人亚结构的大量工作,和基于古 DNA 的古人类与现代人关系的大量工作放在一起。如果你把它们放在一起,就会意识到它们在亚结构形成时间上对齐。我不知道这是否不太可能。对我来说它很简约。

David Reich:在这个时间,不同人类群体有能力采纳石器时代技术,这似乎也很重要。一旦一个群体弄清楚了它,不同人类谱系之间的遗传差异并没有大到你不能教人如何使用石器。谁知道呢?这可能是遗传驱动的。我们之前谈到人类基因共同祖先的时间。在 10 万或 15 万年处没有什么,但在 40 万或 50 万年处有很多。如果发生的是这个,而在高加索、中东某处或东北非出现了一个突变,就可能有关键遗传突变让人能够做这件事。然后这个人群扩张。当它进入欧洲时,会被当地基因淹没,但随着扩张,也可能通过选择保留那些基因。也许你看到的是遗传发展。大多数讨论都集中在 5 万到 10 万年前的事件,也就是解剖学现代人行为。但很多考古学家认为,这在许多方面同样深刻重要,甚至更重要。为什么这不应该是我们谈论的事件?

Dwarkesh Patel:你谈到现代人与 5 万年前人类之间没有固定差异。我们知道 5 万年前的人和 30 万年前的人之间有固定差异吗?

David Reich:我认为有。显然除了这些混血之外。如果你看回溯到 30 万或 40 万年前的遗传变异,确实开始出现所有现代人共享共同祖源的位置。换句话说,在那个时间深度开始出现固定差异的迹象。那就是你开始看到可能固定差异证据的时间。如果每个人在 40 万或 50 万年前共享一个共同祖先,这意味着那时有一个单一祖先。如果把它与另一个群体比较,他们会来自不同谱系,所以任何发生在这个单一祖先之前的突变都会成为固定差异。这是你开始看到固定差异的时间。

David Reich:但在我们与这些古老非洲群体或尼安德特人混血之前,解剖学现代、认知现代的人类已经在中石器时代开始时存在了。解剖学现代人正是在这里出现的。就是同一个时刻。他们就是在这里出现。具有像我们一样骨骼特征的人,以及尼安德特人,大约也在这个时候出现。这就是一切发生的时间。

Dwarkesh Patel:这里存在一个断裂:骨骼记录中的解剖学现代人,与 5 万到 10 万年前的行为现代人之间的断裂。解剖学现代人在这个时候出现,可识别的尼安德特人也大致在这个时候出现。有意思。但我们不知道在 20 万年前到 5 万年前之间到底发生了什么,或者是否发生了什么,使人从解剖现代性走向行为现代性。

David Reich:我的理解是没有。他们忙着像尼安德特人一样制作 Levallois 石器长达 20 万年,而且据我理解,他们并不明显比尼安德特人更令人印象深刻。然后在考古记录中,行为特征开始加速,这可能完全不是遗传的,也可能是遗传的。对此有很多争论。我们之前在谈话中痴迷于智力。人们痴迷于艺术和这些对我们来说似乎重要的东西,但谁知道什么才重要?

Dwarkesh Patel:有意思。酷,谢谢你这段岔开的话题。

David Reich:我参与的工作一再显示,我带着偏见进入研究时是错的,而这几乎让我受到创伤。一次又一次,我带着某种关于数据会显示什么的猜测进入项目,然后数据并不显示那个。例如,当我参与尼安德特人基因组项目,帮助分析数据,看古老尼安德特人与现代人如何相关时,我曾属于一群科学家。我们已经确立,非非洲人只是非洲变异的一个简单子集,没有任何证据显示尼安德特人向现代人祖先输入基因,也没有其他古老混血。我和许多其他人做的不同分析,都让非非洲变异看起来只是非洲变异的一个子集,一个小样本,而这完全可以解释数据。所以当我参与分析尼安德特人 DNA 序列时,我发现了非常强的证据,表明尼安德特人与非非洲人的关系比与非洲人更近。这非常令人惊讶,我以为一定是错误。我相当难以置信。我认为它不太可能是真的,因为此前发现的其他证据似乎指向相反方向。所以我花了几年时间试图让这些结果消失,我的同事们也是,但我们就是无法让结果消失。它们只是越来越强。

David Reich:这次关于自然选择的经历也一样。我们确信的是,在过去几十万年里,我们物种中的自然选择相当静止。因此,如果我们看今天非非洲人,或者任何今天人群的变异模式,我们应该看到没有太多选择在发生。确实,最早的古 DNA 研究,从 2015 年我们与 Ian Mathieson 及同事参与的那篇论文开始,似乎显示与自然选择相关的遗传位置数量相对较少。2015 年,我们分析了大约 200 名欧洲人和中东人的数据,试图理解频率如何随时间变化。我们把那些作为现代欧洲人来源的古人与今天欧洲人比较,寻找过于极端、不能由偶然解释的频率差异。我们非常兴奋地发现了 12 个位置,我们确信它们在今天欧洲人与我们基于自己和他人识别出的历史所预期之间,有高度频率差异。其中一些已知,一些未知,这非常令人兴奋。我们希望随着样本数量增加、分辨率提高,能够更好理解频率随时间的差异,也许能检测到更多。

David Reich:随后十年令人失望的是,这没有发生。例如,2024 年哥本哈根一个团队做了这类研究中最大的一项,分析的数据比我们 2015 年好得多,却只找到 21 个在时间中高度频率差异的位置。虽然这很令人兴奋,几乎是我们 2015 年发现数量的两倍,但从很多方面说也令人失望,因为样本量和数据质量提升了这么多,却只找到这些。这提示我们可能碰到了渐近线,可能无法超越当前水平。这种从理论上很有前景的学习生物学的方法,也许不会产生高收益。也许自然选择是静止的,而我们看到这么少变化的原因,就是适应性定向选择并不多。

David Reich:这是我们几年前在研究组中由 Ali Akbari 领导开展这项研究之前所处的状况。我们做的是部署几个创新来提高检测自然选择的能力。其中之一只是把大量数据泵进系统,把数据量增加了大约 14 倍。我们这项研究的主要内容,是报告约 1 万个个体的新数据。这是文献中数据量的巨大增加。过去 18000 年分布的古代个体总数据集规模约为 16000 人。这是一个大数据集。它比此前可能的数据集大得多;当你有更多数据时,就能更细致地估计频率变化。

David Reich:数据只来自世界的一个部分,也就是欧洲和中东。它并不是比其他地方更重要,但出于历史原因,迄今古 DNA 文献中也许 70% 到 80% 的数据来自这里。它给我们提供了一个自然实验室,让我们可以看到,在一个地方,随着环境变化,基因组随时间发生什么。想象在世界其他地区做这类分析非常有意思,比较分析也极其重要且有趣,但这项研究现在讨论的是世界上这个拥有特别出色数据的地方。

David Reich:我们做的另一件事,是开发一种此前从未在这个领域使用过的全新方法。这个方法基于一种为在医学研究中寻找疾病风险因素而开发的技术。简单解释就是,我们问:如何根据一个人与其他人的亲缘关系模式,预测他在遗传上的类型?我们有大约 16000 名古代人的数据集,如果包括现代人则有 22000 人。然后我们看这 22000 人彼此之间的亲缘关系有多近,并基于与其他 22000 人的亲缘关系模式,在 DNA 中每个位置,也就是 1000 万个位置上预测遗传类型。然后我们问:如果自然选择在所有地理地点和所有时间都把突变频率朝同一个方向吹,它是否比只知道数据库中其他样本的亲缘关系更好地预测数据一点点。我们只是问,另一个假设,也就是选择始终朝同一个方向吹,是否更好地解释数据。这是一个笨假设,因为当然真实情况是,自然选择的频率会随时间改变。但我们只是问最简单的问题:假设一个恒定选择率,是否比不这样做更能解释数据。

Dwarkesh Patel:我总结一下,确认我理解了。你们试图做一个模型预测等位基因频率随时间的变化。里面有两个不同部分。一个是遗传亲缘关系矩阵,它捕捉不同基因组彼此有多相似。这应该捕捉不同瓶颈、漂变、群体混合以及所有影响整个基因组的东西。然后你们有另一个东西:如果我们看具体位置,能不能说:“哦,这个位置在一段时间里以某个系数受到选择”?如果加上某个系数,是否比只从另一个伪影中,也就是只看“从全基因组看,这些人是否相同、是否经历了同样瓶颈、是否经历了同样漂变”等,更容易预测等位基因频率变化?

David Reich:完全正确。

Dwarkesh Patel:好,我们学到了什么?

David Reich:当我们这样分析数据时,我们看了这 22000 人中 DNA 的 1000 万个位置,其中 16000 人是古代人。我们看是否存在比偶然预期更多的、随时间持续朝同一方向的变化。分析数据时,我们发现 DNA 中有许多百个位置,随时间变化太大,而且方向太一致,无法由偶然解释。要弄清到底有多少位置,有一个统计问题,因为它们密集地挤在一起,彼此接近并相互干扰。但当你试图把它们拆开,说“我们在 DNA 每个地方只数一个,把其他的遮住”,我们发现至少 479 个位置都在独立地以同样方式推动。我们有 99% 的把握认为这些位置是真实的。按另一个标准,也就是超过 50% 把握认为它们真实,我们认为大约 3800 个位置都在同一方向推动。

David Reich:考虑到我们之前和其他人的工作中,单次扫描最多只有几十个发现,这个结果数量非常疯狂。所以当我们得到这个结果时,非常惊讶。我们以为一定是错的,于是花了接下来几年试图让结果消失,但它们只是越来越强。我们想寻找某种独立证据,告诉我们这些位置是否真实。我们偶然发现了一种对此非常有力、以前没有这样使用过的东西。它依赖于我们有大量发现这一事实,数百个甚至数千个发现。

David Reich:我们拿了一个完全独立的数据集,也就是全基因组关联研究语料。这些研究在人群中做过,样本常常有数十万人,寻找某些遗传突变是否在高血压者中比低血压者中更常见,或类似问题。我们使用 UK Biobank,大约 50 万来自英国的人,他们被测量了数百种性状。这些人的全基因组都已测序。对于每种性状,我们都可以看这 1000 万个位置中的每一个是否以令人信服的方式与该性状相连。在 1000 万个位置中,大约 15%,也就是约 150 万个 DNA 位置,能预测这几百种性状中的至少一种。然后我们可以问一个问题:我们的自然选择信号、我们的统计量,是否与某个突变导致高血压或其他性状有关?

David Reich:我们把自然选择统计量向上滑动,到一、二、三、四、五。随着我们这样做,影响性状的遗传突变富集越来越高。当我们不使用选择统计量时,它只有 15%;当我们要求选择统计量高于大约五时,导致性状的突变大约有五倍富集。

Dwarkesh Patel:抱歉,什么是选择统计量?

David Reich:这是我们用来衡量一个突变是否随时间以显著非零方式变化的统计量。你可以近似把它理解成一个近似正态分布的统计量,也就是统计值距离零有多少个标准差;零表示没有自然选择。它不完全是这样,但很接近。如果统计量高于五,我们会看到影响性状的突变有大约五倍富集。随机突变中影响性状的比例是 15%,但当我们把统计量往上滑时,影响性状的比例达到 60% 或 70%。这提供了完全独立的证据,说明这些位点是真实的;当滑到五以上时,就不再有更多富集。我们对这些结果的解释,并且用计算机模拟过程验证了它合理,是一旦把统计量滑到五以上,基本所有自然选择信号都是真实的。

Dwarkesh Patel:好,我确认一下我理解。为了弄清哪些等位基因受到选择,你们的模型会分配一个统计量,说“为了解释为什么这个等位基因有某个具体频率,我们要给它一个选择统计量”。独立地,我们在现代人群中做这些研究,说“如果看身高、眼睛颜色、智力或任何性状,基因组中哪些部分与这个性状相关?”你们研究中为了用选择解释等位基因频率随时间变化而给出的统计量越高,该基因组区域越可能与某种我们能测量的功能性性状相关。

David Reich:完全正确。这是 Ali 的一个绝妙想法。它放弃了传统上给导致性状的突变分配统计显著性的方式,因为我们只是使用一个外部信息,也就是以完全不同方式测得的与性状的相关,来读出突变为真实的概率。我们可以问:在某个特定选择统计量下,真实信号有多少富集?如果它富集到平台的一半,我们就能显示正确解释是 50% 的突变真的受选择。如果它走向平台的四分之三,就有四分之三概率该突变是真实的。如果它走到平台的 99%,就有 99% 概率是真实的。这给了我们一个校准过的估计:某个具体位置真正处在自然选择之下的概率是多少。

David Reich:这里一个重大担忧是,我们实际看到的并不是这些突变真的受选择,而是与疾病的关联和我们的选择信号都来自某个第三因素。这个第三因素同时造成两者,它是一种选择,但不是我们要找的适应新环境的选择,而是所谓背景选择:反对新出现的有害突变的选择,这些突变会从群体中被移除,并且往往集中在基因中。基因也是基因组中往往与性状相关的部分。这个共同过程既造成性状信号富集,也造成我们观察到的选择信号富集。这是担忧所在。我们对此非常担心。所以我们做的是,在 DNA 的切片中重复这个富集分析,这些切片受背景选择,也就是这种略有害突变之雨,影响程度相同。我们得到完全一样的模式。我们也只使用频率相同的突变重复实验,因为不同频率下检测这些信号的统计功效不同。我们看到同样的模式:当选择统计量约高于五时,会出现平台。

Dwarkesh Patel:使你们生成序列数量增加两个数量级的变化,只是你们用来识别哪部分是人类 DNA 的统计方法吗?或者说,2014 年以来到底发生了什么变化?

David Reich:发生了一整串改进。最大的之一是测序成本巨大下降,这首先让生成古 DNA 成为可能。自 2000 年代末以来,成本下降了 100 万倍;从 2010 年到今天,又下降了大概一到两个数量级。这是一大变化。另一个变化是溶液内富集。它是一种方式:一个样本中人类 DNA 比例很小,但随后你创造一个流程,使你分析的大多数序列都对分析有用。

David Reich:我们使用的方法是,拿我们拥有的 DNA 样本,其中大多数人类 DNA 比例非常低,低于 10%,常常低于 1%。这个比例低到如果用当时可用技术直接暴力测序,成本高得令人无法承受。我们把这些样本洗过一套人工合成的短 DNA 片段,这些片段靶向我们感兴趣的 DNA 位置。它们超过 100 万个位置,都是在人群中高度可变的位置,我们还挑选了许多具有生物学意义的位置。我们有一整套已知生物学靶点,它们会影响全基因组关联研究中的性状,也就是人们用来查看现代人中特定遗传变异是否对表型和性状有影响的方法。所以我们把古代样本洗过这套人工合成的 DNA 片段,它就会结合我们靶向的 DNA 部分。我们生成的最终序列,就高度富集了基因组中对历史信息有用的部分。即使只有 10% 或 1% 的 DNA 是人类 DNA,最终也有很大一部分来自我们感兴趣的基因组部分,于是做这件事在经济上变得有效率。

Dwarkesh Patel:另外 99% 的 DNA 是什么?

David Reich:大多是微生物。来自人在死后殖民其身体的细菌和真菌。根据死亡方式,会有或多或少这样的细菌和真菌。当你通常从一个人身上测序 DNA 时,里面会充满微生物序列。有时微生物序列非常有意思;它可能是导致这个人死亡的病原体。例如,有很多了不起的工作,从人死时牙齿和身体其他部位中的病原体序列,获得了关于不同疟疾瘟疫、黑死病、乙型肝炎等的信息。但我们这里关注的是人类 DNA。

David Reich:这使得可生产的数据量从每年几十个变成每年几百个,然后我们进一步机器人化和工业化流程,达到每年许多百个甚至数千个。仅在我们实验室,我们每年就从 5000 多个个体生成基因组尺度数据。我知道世界上其他几个实验室现在也能做到。数据的巨大跃升,这种半指数甚至在某些情况下超指数跃升,使我们能够提出并回答问题。2010 年时,我们只有大约 10 个人类基因组序列;今年,已报告序列超过 2 万个。增加了几个数量级,我们 2014 年能问的问题和今天能问的问题已经完全不同。

Dwarkesh Patel:太好了。非常好。David,谢谢你的时间。

David Reich:谢谢你,Dwarkesh。

返回该播客 打开原文