#549. AI 芯片究竟如何工作？GPU/TPU 的底层设计

# #549. AI 芯片究竟如何工作？GPU/TPU 的底层设计

逐段整理

一凯：欢迎收听跨国串门计划。这是一档专注于让中文听众无障碍欣赏全球优质外语播客的节目。通过先进的AI生文克隆技术,我们不仅将内容翻译成中文,还完美保留了原主持人和嘉宾的独特声音,为您呈现全球顶尖的AI财经健康与科技领域精品内容。我是主播一凯一位热衷于AI领域的产品经理很荣幸能为您搭建这座跨越语言障碍的桥梁接下来让我为您简单介绍本期我们克隆的这档节目并分享几句非常精彩的原话本期我们克隆的是Dorcas Podcast的一期硬核技术对谈主持人Dorcas Patel继续请来Matex的CEO Rainer Pope 深入聊AI芯片到底怎样从逻辑门成家单元Systolic Array 一层层搭成真正的算力机器 Ryner既是芯片创业者也长期关注AI计算基础设施 Dorch则以刨根问底的方式把很多底层硬件问题问到最细节目里有几句原话很值得先听一听 AI芯片最想计算的主要功能是矩阵乘法光是把数据从register file移到logic unit 这部分工作就比logic unit本身贵很多很多倍这个问题在整个技术战从上到下都会出现你可以把芯片的吞吐量理解成两个东西的乘积每个clock cycle能做多少事再乘以每秒有多少个clock [00:00:00]

一凯：这些话背后是一整套关于计算通信和芯片取舍的底层逻辑那我们就一起来听听这期完整对话我又请来了Rainer Pope 他是MediaX的CEO MediaX是一家新的AI芯片公司上次我们聊的是数据中心内部会发生什么现在我想弄明白 AI芯片内部会发生什么芯片到底是怎么工作的 [00:01:31]

Reiner Pope：顺便先说明一下我是MediaX的天使投资人所以希望你们设计的是一颗好芯片我会先从芯片设计里最小最基础的单元讲起然后我们再一层一层往上搭看看一颗真正量产的芯片整体上有哪些部分组成在芯片最底层我们使用的基本单元是逻辑门它们是非常简单的东西比如AND OR NOT 这些逻辑门之间用导线连接导线在芯片上必须以金属走线的形式真实地铺出来 AI芯片最想计算的主要功能是矩阵乘法而在矩阵乘法里面最基础的原语其实是对一对数字做peltify accumulate 也就是先乘再累加所以我们会先手算一下这个计算长什么样然后再推断对应的电路应该是什么样为了讲起来最简单我会用一个4bit数乘以另一个4bit数来演示更准确地说最清楚的原语其实是peltify accumulate

Reiner Pope：也就是先把这两个项相乘得到它们的成绩然后再加上一个8bit数我能先问一个澄清问题吗为什么这会是计算机内部各种计算里很自然的原语这里有几个原因它会稍微更高效一些但它对AI芯片来说很自然原因在于如果你看矩阵乘法里发生了什么矩阵乘法简单说就是有一个over i over j over k的 for loop output ik 加等于input ij 乘以另一个input jk 所以在矩阵乘法的每一步都会发生pelt ply accumulate 另外还有一个观察是累加步骤里的精度几乎总是会比乘法步骤里的精度更高这可能是AI芯片特有的情况你乘的是低精度数字但累加的时候误差会很快积累所以这里需要更高的精度这就是为什么我们选择做4-bit乘法 [00:02:40]

Reiner Pope：再做8-bit加法我确认一下我有没有理解这里可以从两个角度理解 [00:03:22]

一凯：一个是结果的值会比输入更大另一个是如果它是伏点数情况可能是这样那部分对我来说没那么直观但也许是同一个原则它本质上确实是同一个原则

Reiner Pope：不过我想另一个单独的原则是当你在对这个数求和的时候你其实是在把一大堆数加起来所以会有很多舍入误差不断积累而在这个例子里那条链上只有一次乘法所以乘法里不会积累很多舍入误差为什么你是在把一大堆数加起来不就是两个数吗我的意思是这个求和会发生很多次会沿着j重复很多次所以任何误差都会积累我明白了那我们手算这个计算会怎么做作为人类我们可能会把它分成两步但也可以用数式乘法把它放在一起算先看乘法这一项我们要把这里这个4bit数分别乘以另一个4bit数里的每一个bit位置

Reiner Pope：我们把它写出来首先1001乘以这个bit位置这个结果就是这个数本身然后往左移一位我们现在乘以0 所以得到一个全0的数再往左多移一位去乘以这个1 我们得到1001 最后对于最后这个bit位置我们又得到一个全0的数这样我们就得到了一堆项接下来要把它们相加得到乘法的结果在做这个求和的时候我们也可以顺便把真正的累加项加进去所以我们直接把它复制过来所以这就是要算的总和它是一个五项相加的和首先为了得到这个中间步骤我们到底用了哪些逻辑门我们需要生成全部16个partial product 那我怎么生成其中一个partial product呢我们拿这里这个一举例它现在是1 那这个数是怎么来的 [00:04:16]

Reiner Pope：它是用这个数乘以那边这个1得到的我们其实可以用一个and gate 来生成它这个数为1 当且仅当这个bit是1 并且那个bit也是1 如果其中任何一个是0 那么0乘以任何东西都是0 所以为了生成所有这些东西我们最后用了16个and gate 更一般的说如果我要做一个Pb的数乘以一个Qb的数那么这里就会需要 P乘以Q给And gate 最后我把它们加起来其实大部分工作都会发生在求和这一步我先说一下这里用到的另一种Logic gate 它几乎是芯片上最简单的Logic gate 差不多也是最小的那种另一个极端是通常你会用到的最大Logic gate

Reiner Pope：叫Full adder 它的作用是做加法你如果从软件的角度看可能会以为Full adder 是把两个32bit的数加在一起但在这里它只是把三个单bit的数加在一起比如你可以理解成把011加起来这三个数加起来结果可能是012或者3 所以我只需要用两个bit 就能用二进制表示这个结果也就是说它的输入是三个bit 输出是两个bit 比如这里2的二进制就是10 所以它也叫322 Compressor 因为它拿三个bit作为输入铲除两个bit作为输出这两个输入是不是一个x一个a的值然后还有某个从前面传进来的carry 不是三个输入都是同一个bit位置上的bit 也就是这里同一列里的三个bit两个输出 [00:05:31]

Reiner Pope：我这里一个化成竖着的一个化成横着的是为了对应这里的纵向和横向布局这表示同一列里的东西在同一个bit位置上而相邻列里的东西 [00:06:11]

一凯：比如这个是carry out 另一个是sum 所以如果full adder的输入比如是1101 那输出还是10 如果输入是111 输出就是1 1 输入是000 输出就是00 输入是010

Reiner Pope：输出还是01 对本质上就是在数有多少个1 然后把这个数量用二进制表示出来所以这个电路其实可以表达我们人类在按列做加法时自然而然会做的事我可以演示一下用full adder来求和的一轮操作我们这里的求和方式对人来说会有点不自然人通常是按列相加然后记住carry 但这里我们不去记carry 而是把它明确写出来所以在这个例子里我们从最右边一列往左走最右边这一列我们把1和1相加得到这里的0 以及一个carry1 也就是说我们在这一对bit上用了一个full adder电路然后产出一对bit作为输出现在我们可以对这一列做同样的事这一列有1 2 3 4个数那我们可以先拿其中前三个送进一个full adder 输出得到0和0 也就是说这几个数的和是00 这就是把full adder用在这些bit上每当我用掉一些bit 我就把它们划掉表示我已经处理过了

Reiner Pope：我们再继续往下做一点我们到这里拿这三个数把它们相加得到1和0 这三个数就处理完了然后我再拿1 2 甚至我现在也可以拿这三个数来相加得到1和0 这些数也处理完了所以你应该这样看我有一整张需要相加的数字网格我会不断地把full adder用在这里的各个bit上每次从某一列里拿掉三个数然后写出两个数作为输出就这样一遍又一遍做下去直到最后这里大概只剩下一个单独的数出来大概就是这样当然这个和可能算错了我刚才描述的这种方法叫data multiplier 这基本上就是用full adder来做面积高效multiplier的标准方式我们试着量化一下这个电路的大小这样我们就能大概知道这些东西有多大后面也方便比较我用了多少个full adder [00:07:23]

Reiner Pope：一开始我有多少个数我有16个partial product 也就是这些项和那些项两两相乘得到的结果再加上这里要加进去的8个项所以一开始我有24个bit 最后输出会产出8个bit 每一步我都会划掉3个数然后写出两个数作为结果所以每用一次full adder 都会消掉这里的一个bit 那需要多少个full adder 一定是24-8 所以这个电路里有16个full adder 一般情况也是这样这个电路里会有PxQ个full adder [00:08:06]

一凯：我确认一下我有没有理解这个逻辑输入bit数是24 也就是P乘Q加P再加Q 对输出bit数就是P加Q 所以P乘Q加P加Q 再减掉P加Q就等于P乘Q 对

Reiner Pope：所以我觉得这解释了或者至少暗示了我们为什么选择做 peltify accumulate的第二个原因第一个原因是它确实会出现在矩阵乘法里第二个原因是它给了我们一个非常漂亮的 P乘Q代数形式非常简单所以我们刚才基本描述了整个流程我在这里做的每一个原子步骤都会变成一个logic gate 然后这些Gate之间用Wire连起来比如我有这三个输入用它们算出这两个输出如果把它映射到真实的物理设备上就会有一根Wire 把这三个东西接到一个Logic Gate里然后产生这个输出这就是AI芯片里面的主要Primitive 只是Bitwidth会不同接下来我们会从这里往上搭看怎么用它来跑

Reiner Pope：你可能需要的其他所有操作 [00:09:21]

一凯：现在问这个问题可能实际不对但NVIDIA每次说某个芯片能做多少FPP 或者一半数量的FP8 听起来好像这些电路是可以互换的不是专门分成FPP和FP8 可是按你现在画出来的方式如果它必须映射到logically 那似乎就需要一个专门的FPP multiply accumulate 再需要一个专门的FPP accumulate 它们能互换吗按现在画出来的样子

Reiner Pope：它们其实不太能互换这其实是设计芯片时必须做的主要选择之一我要放多少FP4多少FP8 有时候我会从客户需求的角度来考虑这个问题另一种角度是说在FP4和FP8之间怎么让Power Budget对齐

一凯：所以他们报这些数字的时候比如刚好是 FP负的数量是FP倍的两倍这是不是只是因为他们选择给所有Float Point单元差不多的Die Area 所以最后结果就变成这样 [00:10:01]

Reiner Pope：你是问为什么这个比例正好是2比1 对对没错其中一部分原因是它肯定不会真的刚好等于相同的Die Area 其实还有一个 Data Movement的原因等我们后面看数据怎么进出Memory的时候可能会再回到这一点从software的角度看有一件事很方便我可以把两个4倍的数字塞进一个8倍的数字同样大小的storage里所以当我把它存到 memory之类的地方时芯片内部那些bus的尺寸

一凯：刚好会让这件事配合得非常好我现在想起来它其实不只是两倍听起来它占用的area 是按平方增长的对实际上是平方关系跟bit length是平方关系所以更低的precision

Reiner Pope：比刚才说的还要有利这是一个很重要的原因实际上NVIDIA做过一个变化历史上在B200或B200之前每次Bit Precision减半Flop Count就翻倍这个比例正是因为你刚才说的平方Scaling 严格来说这个比例其实有点不对你应该得到更大的Speed Up NVIDIA的产品规格从B300以及之后开始算是承认了这一点那里FP4比FP8快3倍不过按理说应该是4倍对我这里展示的是最简单的Integer Multiply情况但你处理FP-和FP这种Float Point时还有另一项也就是Exponent 它会让这个计算变复杂所以我们现在已经能看出什么我觉得你刚才提到的关键观察是 bit-width存在这种平方scaling 这非常有效也是low-precision arithmetic 在neural net里这么好用的唯一原因但接下来我们还要比较真正画在multiplication本身上的area 和它周围所有circuitry画掉的area

Reiner Pope：所以我们稍微往回看一点看看TESAR出现以前的GPU是怎么工作的事实上它和CPU的工作方式一样问题就是我们把这个 multiplier accumulate unit放在哪里泛泛地说一个corder core或者一个CPU 会有一个register file里面存一些entry 可能是8个entry 在这个例子里我想这些是4bit数字但通常会是32bit数字之类的数所以在Cuda Core里面我会有一个有一定depth的register file 然后我会有我的multiply and accumulate circuit 也就是multiply and accumulate circuit 它要做的是从这个register file里任意取三个register 执行multiply and accumulate 然后再写回register file 比如它可能写到这个register 但它可以从这个还有另一个任意register里读所以它会像这样取三个输入 [00:11:42]

Reiner Pope：这就是很多processor的核心 data path 大多数Processor看起来都是这样你有一组Register 然后有一组Logic Unit或者ALU 我们想分析的是数据从Register File移到ALU 再移回来的成本最后一定会有某个Circuit来决定我不一定总是选这个我在任何时刻都可能选任意一个Register 所以第一个问题就是我怎么搭一个Circuit 我们要看的这个Circuit叫Mux 在这个例子里它会有8个输入 Register File里的每一项各有一个输入它会有一个输出也就是产生这个输出那这个东西的成本是多少我们能用来搭它的基本只有AND和OR 那怎么搭呢我们用最笨的办法先做一个mask 比如我们想读第三项 [00:12:23]

Reiner Pope：就根据是不是我们要读的那一项把每一项都和1或者0做AND 然后再把它们全部OR到一起我确认一下基础概念 Mux做的事情就是在选择对吧就是在选择就是选择一个输入对软件来说这是不可见的你只是说我要第三号输入这就意味着这里有一个Mux 那这个Mux的成本是多少一个有n个输入处理PB的Mux 我会有n行也就是这里的8行每一行的宽度是Pbit 我必须对每一个bit做ND 所以会有N乘以P个ND gate 对每一个输入我都要判断是不是要把它mask掉然后我要把它们全部OR到一起所以会有N-1再乘以P个OR gate 意思是我有这些不同的东西其中几乎全都是0 但我需要把它们折叠下来

Reiner Pope：从8个选项变成一个选项所以每一步我都要把一行OR 进一有的一行里明白了这其实挺有意思 [00:13:40]

一凯：你平时不会从硬件这个层面去想只会想我就选第三个元素但这么简单的一件事本身其实就是一个相当复杂的东西一个circuit 这就是那些隐藏的数据移动成本的第一步

Reiner Pope：我们接下来只是比较一下这个成本我必须付而且这里有一个mux 事实上对于multiplier accumulator操作的三个输入我还要再有两个这样的副本所以这里的成本大概是3乘以n乘以p个and gate 而真正做我关心的那件事的circuit 大概是p乘以q个gate 如果代入实际数字比如n等于8 那光数据移动这里就是24乘以p个gate 相比之下如果q等于4 那么在Faltify Adder里只有4乘以PKG 抱歉这里的3是从哪里来的这里有三个不同的输入我这里真正想提示的是所有这些工作都是随着Registered File的大小扩展的而且这还是一个非常小的Registered File 光是把数据从Registered File 移到Logic Unit这部分工作就比Logic Unit本身贵很多很多倍也许看一下Mux长什么样 [00:14:00]

Reiner Pope：会有帮助比如一个二维的或者四维的Mux 好我们取一些输入比如我们就做一个二维Mux 我们有两个不同的数字有这两个输入然后我们有一个selector 这个选择器的意思是它可以表示我要这个或者我要另一个所以这是one hot encoding 我们一开始拿到的就是这些然后我们想产生的输出先看这个例子也就是说这是我们实际拿到的输入我们只想把这个东西作为结果输出出来如果很机械的说我们会把这个bit 和这一整行都做and 这样就相当于把这个bit和这一行做and 同样地

Reiner Pope：我们把这个bit和这一行做and 结果就全是0 所以这里有4个and 这里也有4个and 最后我们把这两项作OR得到1 再把这两项作OR也得到1 把这两项作OR得到0 再把这两项作OR得到1 所以这里是4个OR 这最后看起来其实有点像加法事实上我们这里做的AND 和前面那套AND是完全一样的某种意义上我们把这些东西都加在一起了但最后收缩结果时不是用那些full adder电路而是用orgates 做了一个非常简单的收缩但我有点不明白这看起来不像是n乘以p 这里的例子是n等于2 也就是有两个输入一般情况下我们会有n行然后每一行有Pigabit 所以这就给了我们N乘以P个AND gates [00:15:15]

Reiner Pope：我刚才描述的这个电路几乎所有成本大概八分之七都是花在读写register file上只有很小一部分成本在logic unit本身所以这就是要解决的问题这基本上就是NVIDIA GPU 在Volta这一代之前的状态 Cuda cores里面大概就是这种东西这个问题也推动了TESAR cores的引入更通用的叫法是systolic arrays 如果我们想要怎么解决这个问题我们几乎把所有电路面积都花在了一个其实不关心的东西上而且这个东西对软件程序员来说还是隐藏的我们真正关心的部分反而不是面积的大头那目标就是以某种方式把真正关心的这部分做大同时让读写这部分保持同样大小演进过程大概是这样在这个阶段我们已经把这么多东西固化进硬件了这一行表示一次beltply accumulate 也就是成家操作这个单独的东西已经被固化进硬件 systolic array的想法是往上走两层loop 把外面这一整个loop固化进硬件也就是说如果我们有一个力度大得多的fixed function逻辑块

Reiner Pope：也许我们在输入和输出上付出的代价就会小很多 [00:16:48]

一凯：听起来你的意思是如果在Matrix Multiply的loop里往上走一步就能把权重更多的倾向compute 而不是communication 对大概是这样这里有两个效果我们会利用第一个是每次访问registered file之前

Reiner Pope：我们可以做更多事情另一个是在这个loop的某些部分里我们可以利用一些东西会保持不变这一点我们用图来看这个Matrix Multiplication loop的这一部分其实对应的是一次Matrix Vector Multiplication 我们会拿一个matrix乘以一个vector 那具体怎么做每一列都会和这个vector相乘然后求和也就是说我们会沿着列的方向求和所以0和3会分别乘以3和7 然后加起来 1和2也会分别乘以3和7 然后加起来因此对于matrix里的每一个entry 都会有一个对应的multiply accumulate 我们就把这四个multiply accumulate 画出来我确认一下我有没有理解为什么这里有四个 multiply accumulate [00:17:05]

一凯：如果输出vector里的每一个entry 对应的是一列的Dot Product 那在这个例子里就是两次乘法然后把这两次乘法的结果相加所以你是在做累加对加法本身

Reiner Pope：其实每个Dot Product只有一次但我们通常会从0开始也就是用0做初始化对我们的目标是让compute 变成平方级更多也就是说我们现在有 x乘以y倍的compute 比之前多这么多但我们希望communication 只增加到x倍思路就是这样我们想让优势项按y来增长我们已经把乘法单元铺好了要输入一个大小为Y的向量所以这一部分已经符合我们的通信目标没问题但我们还得想办法处理这个矩阵的通信量这个矩阵会超过我们X的预算所以在AI的场景里关键是这个矩阵其实会在很长一段时间里保持不变所以我们不想每次都从外面把它搬进来比如这边有一个register file 我们不希望从这个register file里读出来的数据量太大这个量在某种意义上是我们希望按X增长的那一项

Reiner Pope：我们不想每个cycle都从register file里把整个矩阵搬进来因为资源不够那会让从register file拉线的成本太高所以我们换一种做法关键技巧是这个矩阵可以本地存放在systolic array旁边比如把0 1 2 3这些数存到一种叫registered gate里它会在物理上保存这些数然后我们会一遍又一遍的附用这些数用在大量不同的向量上 [00:18:39]

一凯：所以这里的优化点是矩阵乘法本身有这个性质你可以把这个平方级的东西直接存到逻辑运算发生的地方它的维度比那些不断换进换出的输入更高或者说多了一维没错矩阵乘法的本质就是你要做很多次乘法最后得到一个值比如dot product 就是很多次乘法的结果所以这个优化意味着在得到某个输出值之前

Reiner Pope：你可以在里面塞进大量乘法对为了把这个图讲完整具体看起来是这样我这里把3和2换了一下 3和2这个0和3 会分别跟3和7相乘我们会沿着列来形成一个dot product 也就是说我们会以某种方式把3和7送进来它们会参与运算这个数会送进这个乘法也会送进另一个乘法同样 3也会送到这里也会送到那里然后我们会沿着这里求和比如从一列的顶部开始我们先位入0 最后从底部出来的就是结果所以从视觉上看这里发生的是沿着矩阵的列做.product 而这件事正好映射到这个systolic array里的空间结构上 [00:19:25]

Reiner Pope：这是一个.product 沿数值方向求和这里是第二个.product 也是在数值方向求和那么需要进出register file的数据是什么输出这边有x量级的数据出来输入这边也有来自输入向量的x量级数据进来所以至少对于输入向量和输出向量来说我们达成了目标进出register file的数据量只有X量级这就留下了另一个问题刚才说过 weight matrix是本地存放在systolic array里的那它一开始是怎么进去的某个时刻你总要启动芯片把这些数据填进去那这些数据从哪里来技巧就是我们非常慢地把它送进去非常慢地一点一点地灌进systolic array 最简单的策略是做一条daisy chain 先把一个数送到这里下一个clock cycle 它就移动到systolic array的下一个位置每一列都可以并行这样做

Reiner Pope：这样就会得到一种结构这一部分也会从这里进来也会带来大约X个单位的bandwidth 你能不能再把刚才那句话重复一遍我们知道矩阵里的这些数不会经常被送进来只是偶尔更新所以我们只需要想出任意一种结构让真正跨过Systolic Array边界的布线数量也就是这里这条边界上的线保持在X的量级我们不希望它变成X乘Y的量级一个特别简单的策略是把一个数送进Systolic Array的顶型这是一派Clock Cycle里能做的事然后接下来连续个clock cycle 我们每次都把顶型送进去同时把其他所有型都往下移一格这样一来需要从昂贵的register file 接出来的布线就只需要x这个量级而不是x乘y 我明白了 [00:20:42]

一凯：通信这件事里有两个问题一个是通信时间一个是通信带宽你是说因为我们只会把这个值加载进来一次所以要尽量降低带宽因为带宽就等于芯片面积所以我们就用更窄的通道慢慢把它加载进来因为这个值会在里面保留一段时间这很有意思上次我们聊很多芯片之间做inference的时候最高层要优化的事情是提高每单位内存带宽也就是每单位通信对应的计算量而这里我们也在提高真正的乘法加法相对于从register到logic传输信息的比例所以两种情况下都是在让计算相对于通信尽可能多 [00:21:22]

Reiner Pope：这个问题在整个技术站从上到下都会出现这里已经很接近底层了接近gate这一层还有一个版本可能更接近gate 就是你选择使用的数字格式精度我们也看到了同样的效果这里有点像平方和立方的关系或者说平方向和线性向的关系它既出现在这个ALU的精度里也出现在这个矩阵的大小里很有意思所以这个单元是我们刚才那个乘法电路之上的下一个更大的单元在它上面我们有一个相当大的Systolic Array 我刚才画成了2x2 但比如在一些更老的TPU里它们被描述成128x128 也就是由这里这种电路组成这个电路最后会变成 [00:22:02]

一凯：目前已知最有效的实现矩阵乘法的电路机制我明白了我们刚才聊到尽量让计算相对于通信更多这似乎是显而易见的那有哪些不那么显然的取舍会真的让你晚上睡不着

Reiner Pope：比如我们该做X还是该做Y 但答案并不明显我觉得芯片设计里的大多数决策都是尺寸怎么定的问题就拿我们目前画出来的东西来说 AI芯片都有这种电路它们有一个Systolic Array 然后在它附近有一个Register File 负责提供输入和输出即使只看这个范围你也会遇到两个尺寸问题我的Systolic Array应该做多大我的Register File应该做多大而且这两个问题其实是偶合在一起的一种理解方式是我先给数据移动分配一个芯片面积预算也就是说我想把芯片面积的百分之多少花在数据移动上比如我可以说我希望数据移动占10% Systolic Array占90% 然后我就可以决定Register File的大小更大的Register File更灵活能让我跑更多东西也能带来更多应用层面的性能但它也会占掉

Reiner Pope：本来可以给Systolic Array的面积这说得通芯片的clock cycle是从哪里来的它有什么决定还有芯片的clock cycle到底是什么我觉得先从最基本的点说起芯片本质上是极其并行的一个芯片里可能有1000亿个晶体管只要有这种大规模并行你就必须在不同的并行单元之间做同步在软件里通常会用一些代价很高的同步方法比如Mutis 一个线程做完自己的事之后会去拿一个存在内存里的锁然后通知另一个线程它已经完成了但在芯片里我们采用的是很不一样的办法大概每隔一纳秒芯片里的所有电路都会暂停一瞬间然后同步一次也就是说它差不多每一纳秒就同步一次这就是clock cycle 通常整个芯片会在同一瞬间以锁步的方式进入下一步操作从电路上看它通常会被画成这样可clock是通过register来协调的 [00:23:36]

Reiner Pope：register就是我们前面画过的那种存储器件你可以这样理解我有一块存储里面存着一个bit 可能是0也可能是1 然后我有一团逻辑电路可能是Systolic Array 也可能是Multiplier 或者别的东西这团逻辑会产生某个输出也就是说我有一堆输入进入这团逻辑过一段时间之后会有一个输出Register 逻辑的结果会写到这个Register里有一个全局Clock Signal 会驱动所有这些Register 它的意思是在某一个具体时刻当Clock到来的那一瞬间这根线上当时是什么值就把什么值存进去所以这里的挑战是我希望Clock Speed尽可能快因为如果我能跑到2GHz 那每秒能做的操作数就是1GHz的两倍但这也意味着 [00:24:25]

Reiner Pope：我会非常受这团逻辑延迟的影响因为这里面要发生的任何计算都必须在下一个clock cycle 到来之前完成所以对任何芯片来说一个很重要的优化点就是尽量把从这里经过逻辑到那里的延迟压到最短有意思 [00:25:03]

一凯：这里的约束看起来是如果你加了太多逻辑就可能赶不上clock cycle 没错但如果你加的不够又等于把潜在算力浪费掉了有没有这种情况你会接受一种概率性的风险

Reiner Pope：读某个计算能完成还是说不行要么它能在我的clock cycle里完成要么不能在标准芯片设计里你会流出margin 严格来说是有概率的但那个概率会被推到很多很多个标准差之外非常远所以从实际使用角度看它就是一个可靠部件它总是能赶上clock 当然也有一些奇怪的例外比如clock domain crossing 也就是从一个clock域跨到另一个clock域这时候你确实需要考虑这种概率问题但在主路径上你就是流出足够的margin 比如让它提前一个clock cycle的 25%左右到达这样出问题的可能性就非常低那在这个clock同步的位置

Reiner Pope：也就是register所在的位置这不是你作为芯片设计者 [00:26:05]

一凯：完全手动决定的对吧它更像是一个结果我想要某一串逻辑然后你用的软件把RTL转成要交给TSMC的东西这个软件会判断为了让它工作你得在这里这里放register

Reiner Pope：这样才能保证没有哪一步太长导致整个芯片的clock cycle 被迫拉得比必要的更长其实插入这些register是芯片设计里非常大的一部分工作它是手动和自动结合完成的我用一个很简单很笨的版本来说明你能做什么你可以把这团逻辑切成两半也就是说不是只有一大团逻辑而是变成两小团逻辑它们做的是同一件事但中间用一个register隔开输入像这样接进去如果你正好在中间把它切开就可以达到两倍的clock frequency 这很好你得到了两倍性能代价是多了这个额外的register也就是多了一些存储那我们退一步问为什么需要同步整个芯片

一凯：比如你想象在玩Factorial之类的游戏里面没有全局 clock cycle 事情做完就是做完了传送带上有铁你想拿就可以拿用你刚才那个类比来说需要注意的是如果有两条不同的路径穿过一些逻辑 [00:27:00]

Reiner Pope：比如这里要做一个计算F 然后这里做计算G 最后他们会在这里某个地方汇合做计算H 这里会有制造差异有些芯片上F可能会慢一点另一些芯片上G可能会慢一点所以如果有一个信号沿着这里传播F和G的结果又必须在H这里对齐那可能出问题的地方就是F先到了结果它遇到的是 G的上一个值或者G的下一个值之类的情况也就是说 H需要知道自己到底什么时候开始要知道下一轮迭代什么时候

一凯：真正准备好了这也解释了为什么同一个process node 同一种TSMC技术做出来的不同芯片 clock cycle可能不一样比如两个三纳米芯片 clock cycle可能不同取决于它们

Reiner Pope：有没有优化好确保不存在某一条critical path太长拖慢整颗芯片的clock cycle 没错我刚才展示的这个优化叫做pipeline register insertion 也就是插入pipeline register 我们是在pipeline中间插入了一个register 它本质上是在clock speed和面积之间做取舍这是简单的情况还有更难的情况这里我把它画成了一条逻辑pipeline 但在其他情况下可能有某个计算会反馈回自己它运行某个函数f 然后像这样写回到自己比如这可能是一个加法你有一个数每个clock cycle都往里面加一些东西所以这个地方可以是一个加号每个clock cycle都加进来一个数这个小电路本质上就是把不同clock cycle上输入的所有数字都加起来

Reiner Pope：挑战在于如果这个加号耗时太长我能怎么办如果我试着把它拆开在中间插入一个pipeline register 比如插在这里这会改变实际执行的计算它就不再是对这里来的所有数做running sum 而是会变成两个不同的running sum 最后会得到一个偶数项的running sum 和一个奇数项的running sum 所以一旦逻辑里有这种loop 而所有芯片在某些地方都会有这其实就是最难处理的问题也会决定clock cycle 我不太明白为什么这会是个问题或者说 [00:28:34]

一凯：我甚至不太确定在那里放一个register 到底是什么意思它是不是有点像 atomic operation Java其实并不是atomic 我觉得就像你刚才言迟的那样对做一次求和 [00:29:01]

Reiner Pope：其实需要很多步骤所以你可以先做前半部分工作然后在中间塞一个register 再做后半部分工作明白了我猜接下来就取决于TSMC TSMC会提供一个PDK 规定好

一凯：这些是我们能在芯片里提供给你的逻辑primitive 然后由他们来确定没有任何一个primitive会大到超过他们希望这个process node达到的clock cycle 但除此之外还能做什么进一步优化呢难道不能直接说这里是TSMC给的所有primitive 然后只要有需要就在这些primitive之间不断加register 直到达到你想要的clock cycle吗作为logic designer clock cycle是由芯片架构师设定的

Reiner Pope：举个例子 TSMC给你的Primitive 大概是Andigate或FullAdder这种级别这很大程度上取决于电压频率你选择的Library等等但一般来说在一个Clock Cycle里通常可以顺序放大约10个 20个或者30个这样的Primitive 所以这些Primitive非常快可能就是10匹秒之类的量级作为Logic Designer 原则上如果你真的只有一个Register 然后一个Andigate 再这样形成一个Loop 你可以得到极快的Clock Speed 比如超过4,5,6GHz之类但如果你看这个非常简单的电路再看这里花掉的面积这个大概是一个gate equivalent 也就是面积单位事宜而这个东西可能是面积单位8之类所以这里几乎所有成本又都花在了同步或者通信成本上而不是花在真正的逻辑上这就是一种走过头的情况

Reiner Pope：你把clock speed做得非常非常快但代价是几乎所有面积都花在了pipeline register上有意思你的意思是这里有一种动态关系你可以有非常快的clock speed [00:30:35]

一凯：但每个周期实际完成的工作并不多所以你可以有delatency 但bandwidth或者更准确的说 throughput会比较低事实上这会伤害吞吐量你可以把芯片的吞吐量理解成两个东西的成绩

Reiner Pope：每个clock cycle能做多少事也就是前面说的面积效率再乘以每秒有多少个clock 这其实很像我们上次聊batch size batch size d的时候单个用户可以很快拿到下一个token

一凯：但比如一小时内处理的token总数就会比本来能达到的水平低对没错如果你把clock speed拉高实际能用到的并行性就会更少我记得之前和Jane Street的一位FPGA工程师聊过他还帮我准备过我们上一次访谈他当时解释了他们为什么用FPGA 我想对于高频交易来说吞吐量没有延迟那么重要所以最关键的是能以确定性的方式非常精细地控制clock cycle 也许可以聊聊为什么不能直接在ASC里做到这一点或者说为什么在高频交易这种场景里你会用FPGA来获得确定性的clock cycle 先看FPGA和EAC的商业取舍 [00:31:11]

Reiner Pope：FPGA和EAC大体上使用同一种概念模型用AND或XOR这些很小的primitive组成一串gate 再用固定的clock cycle 把它们和wire连接起来运行所以任何你能在FPGA里表达的东西也都能在ACC里表达而且ACC大概会便宜一个数量级能效也会比FPGA更好代价是第一块FPGA可能只要你1万美元但你做出来的第一块ACC可能要花3000万美元因为它需要完整tape out 所以FPGA的商业使用场景是我想要非常确定的延迟很快的运行时间和高并行度但我会非常频繁的改它比如每个月都改一次要做的事情这样我就不想每次都付一次Tape Out的成本那FPGA到底是怎么实现的它有点像是在一块固定硬件上模拟ASA的编程模型那这件事具体怎么做呢它最底层有我们刚才讲过的两个组件一个是Register作为存储设备另一个叫UT也就是Lookup Table 它们实际提供所有的Gate

Reiner Pope：然后我们还会看到第三个组件它有一大群Register和UT 所有这些东西都可以用然后它们通过一大组Mux连接起来在每一个组件前面都有类似这样的Mux 它会从其他所有地方里选一个输入也就是从这些不同的东西里做选择有很多不同的选项会输入到这些组件里所以这允许我在编程FPGA的时候说我要拿这些组件在上面叠加出一套特定的Wiring 比如信号先经过这个LUT再输入到那个LUT 然后到这个Register再输入到另一个LUT 类似这样我用橙色画出来的就是FPGA里的Field Programming Gate Array里被现场编程出来的部分橙色代表在field里被编成的东西白色则是FPGA里必须本来就存在的所有wire 只有这样这个device才能先被制造出来 programmed in the field是什么意思就是说device已经部署在数据中心里了它就在实际使用现场然后你可以过去给它编成这里的field是electric field 那种field吗不是 [00:32:39]

一凯：是部署到外面真实环境里的field 明白了那我看这里field programming是从第一个lookup table 出来进到第二个lookup table 它是怎么做到的你是问让这件事发生的那些线在哪里对吧 [00:33:33]

Reiner Pope：我这里画的有点偷懒这里每一个device前面其实都有一个Mux Mux可以从附近所有可用的电路里选择输入所以FPGA的实际configuration 本质上就是Mux control 比如这个Mux里有data input 然后有control来选择用哪一路所以每一个这样的Mux旁边都会有一个小的存储单元它会说你的输入要从这里来明白了所以所谓programming 就是配置这些Mux里的每一个这样就说得通了那lookup table里面发生了什么 lookup table的目的是它也会有一点control输入告诉它该做什么 lookup table的作用是可以被配置成一个end gate or gate xor gate 或者其他不同的gate 你可以有很多种方式来做这件事

Reiner Pope：传统FPGA里的做法是一个lookup table会支持 4个bit的输入一个bit的输出从4个bit到一个bit 一共有多少种不同的函数有16种不同的输入组合所以你其实可以直接把它列成一张表里面有16个值比如01 11 001 一直到16个entry 他做的事情就是这张表存储在这些蓝色的configuration bit里然后他把这四个bit当成二进制数去查表里对应的那一行再输出那一个bit 所以本质上这就是从truth table的角度来看lookup table 明白了所以lookup table 如果你想一个and gate or gate xor gate 它们都是接收输入的函数那些都是两个输入的函数有时候我们会有更复杂的比如三个输入的函数可以是three way xor 对吧 [00:34:23]

Reiner Pope：或者four way xor 在这个例子里有多少个输入就取决于它有多大对吧 Liotti的典型大小是四个输入这是一个比较合适的折中点这里也有计算和通信之间的权衡如果输入太少你就需要用更多Liotti [00:35:04]

一凯：如果输入太多也会有问题但基本上lookup table 就像一张truth table 有了truth table 你就可以把任何你想要的gate编进去对所以lookup table可以理解成一个可编程的gate

Reiner Pope：对这里有一件事可以看出来为什么会有一个经验法则说 FPGA大概比AC贵一个数量级你可以数一下 lookup table里面会有多少个Gate 我们可以把这个lookup table 本质上看成一个这样的Mux 它是一个Mux 要从16个不同的值里面选一个所以它是一个Mux N等于16个选项 P等于一个Bit 我们前面很早的时候看到过这个电路的成本大概是N乘以P个Gate 所以这里的成本大概就是N乘以P 也就是16个Andy Gate 另外还有16个OR 你说的这个电路是指Mux 对没错 Mux是核心是进入lookup table的那个Mux lookup table本身你可以把它想成一个大的mux

Reiner Pope：它从16行里选出一行最后得到一个输出明白了这就是lookup table 但你这里画的方式是先有一个mux 然后有一个lookup table 它是一层一层都是mux 我的意思是这里面还有第二个mux mux就是这里这个mux 明白 [00:36:08]

一凯：然后另一个mux是在说明它是从这一堆乱七八糟的门里哪来的是从这些gates来的对然后第二个mux的意思是现在你有了一个值但这个值还是一个4bit的值对

Reiner Pope：我是从这一锅东西里选出了4个bit 然后我用这4个bit去选择 lookup table里的哪一个entry要被使用对好我只是想确认一下假设第一个mux里有8个附近的输入

一凯：你是从8个附近的register里去输入那总共就是32个bit进来然后从里面出来4个bit 这4个bit进入第二个mux 也就是lookup table里面的那个mux 其实我会说在这个例子里

Reiner Pope：这些register是单bitregister 所以如果附近有8个register和lookup table 那附近总共进来的就是8个bit 我从8个值里选到4个不同的值所以实际上这里有4个不同的max 每个输入bit对应一个小max 每个小max都是在8个里面选一个那这8个是从哪来的来自附近的register 还有其他一些lookup table 而且每个register都是一个bit 对 [00:37:02]

一凯：所以我猜AMD或者制造这些FPGA的公司还是得对哪些register 应该连到哪些register有自己的取舍你可以编程决定实际的Gates 但他们得先把Wire和连接方式

Reiner Pope：也就是通信拓布定下来对吧对你在局部力度上会有灵活性也就是在附近的一小片范围里可以选择但更大范围更粗力度更长距离的连接他们就得先做设计取舍对那它慢十倍的原因是什么如果你看构建这个Lookup Table的成本大概是32个Gates 然后它能给我一个等价的东西这里有什么有意思的例子呢我可以做一个四输入Any Gate 也就是说我用32个Gates 组成的Lookup Table 去实现一个四输入AN 四输入AND是什么就是AN 再对AND的结果做AN 所以这是一个电路在AAC里我可以直接用这三个AN gates来实现

Reiner Pope：但用LUT也能实现只是它要用大概32个gates 而不是三个所以这个开销 [00:38:12]

一凯：真正来自lookup table和mux 也就是说对于一个truth table 其实有比列出所有可能输入组合更简洁的描述方式那就是直接写出这个 gate 对也就是直接把polysilicon 和wires放下去对有意思他跟我说过一个重要点就是他们更喜欢FPGA而不是CPU 原因是FPGA能给出确定性的clock cycles 他们知道一个packet什么时候进来什么时候出去

Reiner Pope：为什么在CPU上不能保证这一点其实你也可以设计出有确定性latency的CPU 而且很多AI芯片内部的processor 其实也有确定性latency Grogg就宣传过这一点 TPU的Core里也有难点在于你要同时获得确定性的latency和高速那么latency里的不确定性来自哪里非确定性的latency来自CPU里一些特定的设计选择其实可以去掉这些设计选择做出一个有确定性Latency的CPU 但这种CPU在市场上没有那么有吸引力所以现在人们不再做这种CPU了不过从某种意义上说确定性Latency 也许反而是一个更简单的设计起点后来一些芯片设计师加进了一些东西让它变得不确定举一个具体例子最重要的例子大概就是CPU本身的Cache

Reiner Pope：在CPU里你有CPU 这就是CPU die本身旁边有一块Memory 也就是旁边的DRM 然后里面有一个cache system 这里就是cache 难点在于同时做到确定性的延迟和高速度那么延迟里的不确定性来自哪里 CPU里的非确定性延迟来自一些具体的设计选择实际上你可以去掉这些设计选择做出一颗延迟确定的CPU 只是这种CPU在市场上不太有吸引力所以现在大家不再做了但从某种意义上说确定性延迟可能反而是一个更简单的设计起点后来一些chip designer往里面加了一些东西让它变得不确定举一个具体例子最重要的例子大概就是CPU上的Cache 在一颗CPU里你有CPU本身也就是这块CPU die 旁边还有内存也就是DDR memory 然后在CPU里面 [00:39:22]

Reiner Pope：有一套Cache system里面就是Cache Cache会记住最近访问过的DDR内容并把它们存下来所以当CPU执行指令时只要有一条指令要访问内存它会先检查Cache 它会看数据是不是已经存在Cache里如果不在才会去DDR里取这是一个巨大的优化 Cache大概要比DDR快两个数量级如果完全不用Cache 基本上所有程序都会慢100倍所以Cache的存在对CPU以合理速度运行来说是绝对必要的但你能不能命中cache 取决于CPU当时的整体环境比如还有哪些程序在运行最近运行过什么 cache system里的随机数生成器在做什么所以这是CPU运行时间里一个很大的不确定性来源这大概就是CPU的memory system 一个很大的不同做法是不让硬件先说我要读内存然后由硬件决定数据是不是来自cache [00:40:02]

Reiner Pope：你可以把这个决定写进软件里另一种设计思路是比如你在TPU里可能会看到这种做法 TPU这边我可以画同样的图但把它叫做 Scratchpad 主要区别是这里如果是TPU 旁边就是HBM而不是DDR 但它仍然是Off-chip memory 软件不再只是说先访问内存然后让硬件来决定你会有一些指令访问这里这是一类指令还有另一类完全不同的指令访问HBM 这种风格通常叫Scratchpad 而不是Cache 关键区别在于有一种指令会说读写Scratchpad 另一种完全不同的指令会说读写HBM

一凯：所以Scratchpad就是那个Cache 对这里的这个东西就是Scratchpad 我只想说清楚我们退回很早以前学计算机的时候大家会说计算机采用所谓John von Neumann architecture 也就是信息是串行处理的可能只是因为我们一直在聊并行accelerator 但我感觉FPGA是高度并行的这些AI accelerator也是高度并行的甚至CPU也高度并行如果你考虑它们有那么多core的话所以现代硬件到底在什么意义上还是von Neumann architecture 用这个说法来描述现代硬件真的公平吗我觉得用它描述CPU是公平的 [00:41:14]

Reiner Pope：CPU上的并行度大概是100个core乘以可能16路vector unit 所以在CPU上大概是1000路并行我的问题是CPU会用到一块die 如果thread更少那从transistor电压或者开关切换的角度看

一凯：是不是字面上只有一条control flow 也就是说die上只有一小块区域的电压在来回切换或者说如果core数没那么多 CPU到底是怎么把这块die面积占满的 [00:42:04]

Reiner Pope：你的意思是如果core这么少那里面到底在花什么面积这些Core本身要大得多也复杂得多我们可以比较一下一个CPU Core 可能占大约的1%到1% 而FPGA里的很多东西其实只是LT一些Gate之类的小单元所以很明显为什么FPGA里会有比CPU Core多得多的UT 但另一个问题可能是为什么比如CTA Core的数量会比CPU Core多这其实就变成了 CPU和GPU的区别是什么这会是一个很大的差别在CPU里面有一个很大的面积用途 CPU内部占面积最多的部分之一是Cache 真正属于ALU的面积其实很少主要占面积的其实是这些register file 而不是logic unit

Reiner Pope：这两类东西在GPU里也都有对应物所以这不是最大的区别但GPU里没有对应物的是branch predictor CPU里有一大块面积用来放一整套predictor 它们会预测下一次branch什么时候出现这个branch的目标地址在哪里所以把很多这种东西去掉再把这些register file做得更紧凑一些这在很大程度上就是GPU获得优势的来源 branch predictor的作用是什么是同时执行两个分支吗还是它具体做什么问题在于当我有一串instruction 比如instruction instruction instruction instruction 如果这里有一个branch 也就是这条instruction是branch 那么真正处理一条instruction的这个步骤其实要花很长时间可能要五纳秒左右也就是说你真正发现这里有一个branch 然后计算那个Belarian 看它是真是假再把program counter更新到新的目标地址然后从对应的instruction memory里读取内容

Reiner Pope：这整套流程可能真的要五纳秒才能完成所以在现实里这件事可能要到后面某个位置才会完成但我不想让clock speed被5纳秒限制住 5纳秒对应的是200MHz的clock speed 我希望跑在1到2GHz之类的速度上所以在branch还在被评估的时候我需要继续运行其他instruction 我其实就是想继续执行后面的那些instruction 但这可能是错的如果最后发现这个branch确实要跳转那我就得知道我不应该继续评估这些instruction 而应该跳到目标地址那边改为运行那里的instruction 所以branch predict的目的确实就是提前预测 [00:43:40]

一凯：甚至在你真正执行到这条instruction之前比如提前5个cycle 就预测这里会出现一个branch 如果我从一个很高的层面来比较大脑的工作方式和你刚才描述的这些东西差异可能在于这些accelerator里可以做structured sparsity 从而省下一些本来要给gate用的面积但大脑里是unstructured sparsity 任何neuron都可以连接到任何其他neuron 而不是必须按列对齐之类的方式连接另外还有一点 memory和compute 可以说是在同一个地方这在某种意义上正好就是memory的共制没错对也许这其实不是一个很大的区别另一个可能更大的区别是大脑的clock cycle比电脑慢得多这部分是为了节省能量 [00:44:14]

一凯：因为clock cycle越快电压就需要越高这样才能识别信号或者等信号稳定下来判断transistor出在什么状态对我不知道你对大脑可能在做什么和这些chip的工作方式相比还有没有其他高层次的看法我们先说clock speed这一点 chip上的clock speed相当高因为这会带来更高的throughput

Reiner Pope：比如我们看一个GPU跑某个workload 它可能是在跑batch size 1000之类的规模但大脑不是在跑batch size 1000 只有一个我所以你可以想象这样说拿一个GPU不要让它跑在一级赫兹而是让它跑在一兆赫兹之类的速度那它可能就会开始更像你说的大脑里那些对应的东西但按照Silicon的工作方式这并不会给你带来1000倍的能效优势最后看起来是这样你基本上只是让这个circuit运行一次直到稳定然后它会长时间空闲在那里它空闲的时候不会消耗很多能量因为大部分能量是在bit 从0切到1再切回来的过程中消耗的我们其实可以说一下这种circuit的能耗可以这样理解一个bit的存储你其实是在chip里的某个地方隐含的把一些电荷放进了一个capacitor 当它变成1的时候capacitor就被充电等它下一次变成0的时候它就被放电而这个给capacitor充电再把电荷倒到ground里的循环 [00:45:20]

Reiner Pope：就是能量被消耗的地方这叫dynamic power或者switching power 芯片的大部分能耗都来自这里还有一些能耗是因为绝缘体并不是完美绝缘体但我们先不算那部分大部分能耗其实就来自充电和放电也就是从0切到1 再从1切回0 所以如果你让一颗芯片跑得慢很多比如每1000个clock cycle才clock一次那transition的次数就少了1000倍左右能耗大概也会少1000倍但是从能效上看这并不是一个很大的优势你刚才从高层讲了TPU是怎么工作的那从高层看GPU和TPU的工作方式有什么区别我觉得有一个高层的组织原则不一样然后在Core内部也有不同不过我们先看外面看高层结构以GPU为例 GPU顶层的block结构大概是什么样如果把这个看成整颗芯片那GPU的组织方式 [00:46:10]

Reiner Pope：基本上是一堆几乎一样的单元也就是这些SM中间有一块alt memory 下面还有更多这样的SM 所以它大概是一个相当规则的Core网格相比之下如果看TPU 你会看到逻辑单元的力度要粗得多它可能会有一些数量比较少但很大的matrix unit 这些就是很大的systolic array 中间有一些Vector Unit 底部还有Matrix Unit 也就是说Matrix Unit 加上中间的Vector Unit 这差不多就是整颗TPU芯片你可以把这个东西缩小成一个很小的单元里面有更小的Matrix Unit 更小的Vector Unit 那大概就是一个SM 所以从非常高层的角度看 GPU就像是在整颗芯片上铺了很多个很小很小的TPU

一凯：有意思所以你是在说 Streaming SM Limited Tensor Core 和一个MXU是类似的非常非常像明白了所以如果工作负载结构没那么强有一堆小TPU就很合理但如果你基本上只有巨大的矩阵乘法那就会想为什么不避开MegaSM自己带register work schedulers这些东西的成本为什么不直接做一个很大的东西 [00:47:30]

Reiner Pope：把这些成本摊到整个东西上我觉得这会体现在你能把东西做多大我们前面也反复看到这个主题尤其是Systolic Array 更大的Systolic Array能更好地摊保register file的成本这种设计让你可以做更大的Systolic Array 而GPU那种设计会把你限制在每种东西都只能是小单元不过这里有一个取舍因为这些东西是按比较粗的力度分开的所以你需要把大量数据从Vector Unit移到Matrix Unit 也就是说你需要让很多数据穿过这里大概两条边界线但如果看GPU里对应的东西Vector Unit到处都有你需要让数据穿过这一条线这一条线这一条线一条一条地走所以在GPU里Vector Unit和Matrix Unit之间能搬的数据量其实比TPU里高得多因为在TPU里所有数据都要挤过这两条线而在GPU里数据是通过大概16条Wiring线路来搬的对不过你可能也需要跨越更小的面积这本身也是一种节省是能耗上的节省所以如果数据完全在一个SM里面处理

Reiner Pope：数据移动就小得多但一旦你想跨SM操作事情就会变得更复杂也更贵你可以不用评论 [00:48:48]

一凯：不过有人可能会猜Mate X也许会想做的一件事是采用GPU那种更小的结构也就是由SRAM围绕的Systolic Array 但同时又把SM里那些为了支持CTA Architecture

Reiner Pope：而需要却占很多面积的东西去掉我们公开聊过一个东西叫Splittable Systolic Array 某种意义上你可以把它理解成大的Systolic Array 同时也可以当小的Systolic Array用很好那我觉得用这个收尾不错 [00:49:06]

一凯：Rainer非常感谢谢谢你Drakush