E228｜谷歌TPU能撼动英伟达吗？前TPU工程师首次揭秘

By 硅谷101播客

Summary

## Key takeaways - **TPU矩阵计算流水线架构**: TPU针对机器学习矩阵计算设计成流水线架构，像接力赛，每个步骤专人负责，避免GPU多线程独立计算的闲置期，确保计算单元利用率更高。 [04:01], [05:17] - **TPU Pod系统级训练优势**: TPU主打TPU Pod，几千张卡协同训练，通过3D Taurus网络和ICI通信，让用户感觉像一张卡，训练效率高，成本更低，而GPU单卡强但网络弱。 [07:16], [07:43] - **XLA静态编译器黑盒优化**: XLA是静态编译器，在TPU Pod系统级做全局优化，如算子融合和内存管理，提高矩阵计算利用率，但调试难，对工程师硬件知识要求高。 [16:11], [17:13] - **TPU生产产能瓶颈**: TPU产能受HBM垄断供应、TSMC CoWoS封装和良率限制，因为TPU强调芯片间通信一致性，无法像GPU降级阉割，失败即报废。 [10:25], [13:55] - **Anthropic苹果用TPU关键**: Anthropic和苹果团队有谷歌背景，熟悉XLA生态，能深度优化TPU性能，而外部客户难独立debug，谷歌软件团队忙于支持他们。 [15:12], [20:05] - **TPU挑战GPU限定条件**: TPU在模型固定、大规模部署、高吞吐场景下TCO优于GPU，适合Gemini等海量用户推理，但不适单用户低延迟agent，需大batch打包矩阵计算。 [42:20], [44:39]

Topics Covered

TPU流水线架构碾压GPU多线程
TPU Pod系统级训练成本最低
HBM产能瓶颈卡死TPU起量
XLA黑盒编译器难调试高门槛
TPU仅大规模稳定模型胜GPU

Full Transcript

2025 年当谷歌的 Gemini 3 登顶 AI 性能排行榜的时候训练它的不是英伟达的 GPU 而是

谷歌自己的芯片 TPU 从搜索翻译到地图甚至是 Alph aFold 2TPU 它驱动了谷歌几乎所有的核心

产品而如今它正在向整个的 AI 产业渗透 2024 年 , 苹果发表论文 , Apple Inte llig ence

全部使用 TPU 训练。

2025 年 , Anse ropic 拿下 100 万颗 TPU 价值数百亿美元用来训练下一代的 Cloud 。

2026 年刚开年 , Meta 就签下了数十亿美元的协议租 TPU 来跑 LAMA 。过去

。过去我们说整个市场都认为 , 未来 AI 芯片的机会在于推理芯片 , 因为达在训练芯片的地位是

难以撼动的。但是

。但是我们看到现在在越来越多的顶级模型公司中谷歌的 TPU 正在成为英伟达的替代

方案你觉得现在谷歌的 TPU 可以挑战英伟达在 GPU 的垄断地位吗在某些限定的条件下 TPU 是完全

可以挑战 GPU 的很多人都在讨论 TPU 和 GPU 之间区别我数有数列未来肯定是两者

并存的哈喽大家好欢迎收看硅谷 101 我是红军今天我们来聊一聊谷歌的秘密武器 TPU

那今天跟我在一起的是谷歌前 TPU 的工程师 Henr yHello Henry 你好 Hello 红君你好首先给

大家自我介绍一下我的名字叫 Henry 很开心贵谷 111 的邀请然后我也是你们忠实的听众和粉丝我

之前上一份工作是在谷歌的 TPU 组然后我也深度参与了三代 TPU 的研发像最近发布的 Iron

wood V7 是我做的第二代 TPUV8 是我做的最后一代 TPU 在我立志之前很开心今天能

跟大家分享一下我对 TPU 的一些理解吧首先我想说就是 TPU 是一个上下有产业链非常非常复杂

的一个产品所以它是里面牵扯了很多软件硬件包括代工所以里面很多很多技术系细也是

非常复杂的也是一个非常庞大的一个工业体系所以我也希望我今天只是根据我的理解去帮助大家跟人家

解惑一下 TPU 这一层神秘的面纱吧你刚刚提到了你其实参与了 V7 跟 V8 的开发然后据我了解这个

其实是谷歌的 TPU 他们开始去适应大模型的这种预性链最核心的然后也是最有竞争力的这两代的

芯片也是最新的两代因为你刚刚提到了它可能涉及到软件硬件然后包括代工生产所以今天我

觉得我们可以从硬件软件生产环节每个环节都把它就是详细的剖析一遍包括现在

谷歌的 TPU 跟像 Anth erapic 像 Meta 这之间的合作我们可以看看它是如何影响到整个未来的

英伟达的生态的最开始啊就是第一个问题很多人他并不清楚我们说 TPU 跟英伟达现在的比如说

GB200 或者 H100 的 GPU 它有什么样的不一样我们可以先简单给听众介绍一下 TPU

跟 GPU 它的不同之处尤其是它在预训练方向的不同之处我觉得首先 TPU 和 GPU 本身它的架构

是完全不一样的然后 GPU 大家可能更加了解更加多一些因为它是最开始它是做游戏的显卡

所以它里面会用到一个数字叫 SIMT 它是一个 SIMT 的架构 Single Inst ruct ion Mult iple

Thre ading 它是个多线程单一指令的一个架构所以可以理解成一个厨房里面同时

安排着很多很多个大厨他们每个人都有自己独立的思考能力然后独立的去从冰箱里把东西拿出来

然后做完菜然后最后上菜他们可以独立完成这样一件事情所以你安排很多很多大厨

的话这样的话并行计算能力就会非常非常的强这个是 GPU 那如果我们同样用做菜来比喻 TPU

的话 , 你觉得它的流程跟 GPU 有什么不一样 ?

TPU 和 GPU 最大的区别就是 TPU 是一个针对机器学习的一个加速器我们知道机器

学习任何的算法 , 包括最开始的 CN 到现在的 Atte ntion 到 Tran sfor mer 到未来的架构里面

的核心就是矩阵计算。

我们知道矩阵计算这个东西是非常 comp uter bound 是一个 comp uter inte nsive 的一个

工作 TPU 的话就是针对这个矩阵计算专门做了一个定制的加速器所以你可以理解成做饭

的话我们是一个流水线我们知道今天要做哪道菜然后 TPU 的话相当于是把不用安排

那么多的大厨但是它会把大厨安排在每一个步骤上会把每一个步骤都告诉你具体做哪个步骤的火然后

你做完之后直接把你做完的比如说第一个人会从冰箱里把菜给取出来第二个人直接把第一个

人做完的部分的中间菜的结果做加工传到第三个人然后相当于中间每一步骤你可以理解成是

心脏的泵血然后你每泵一次它就会把血液传输到你身体的各个角落所以这样的话中间它会少很多的

调度少很多的调控所以这样的话它能保证每一个计算单元的使用率会更高一些所以我理解其实

就是 GPU 它是这种有点类似于并行的就是你每一个环节它是独立运行的然后 TPU 它是一场

接力赛那在模型的训练上这两种就是不同的架构它的各自的优势跟缺点是什么我觉得现在预训练 , 包括

后面的 Infe rence 我们现在慢慢地从一个计算 Comp ute Bound 变成 Memory Bound 所以我们

现在对内存的要求是非常非常高的 , 所以 CMD 它架构它有一个缺陷 , 就是因为你需要独立

地去做这样的计算的任务 , 所以你有时候会一直在等数据搬运过来的过程当中 , 你就会有一些

闲置的 Idle Period 所以这个过程当中的话就会导致它的那个矩阵计算的利用率没有那么的

高它的 util izat ion rate 就会有下降然后 TPU 就是根据这一个特点然后弥补

这样一个缺点吧我这么觉得然后它相当于是我们当然可以具体聊一下它软硬件的一个协同的一个

效应它会保证它是一个满公寓下的一个运行然后它不需要等待数据搬运的过程它要么利用

当体的缓存把一些提前搬运过来的数据重复去利用 , 或者说把我们的带宽跑满这样我们可以把

那个 memory util izat ion rate 也能达到一个峰值。

所以如果整体上我们用一句话来去做结论的话 , 你觉得 TPU 跟 GPU 他们在这个模型的训练上

就是谁更强然后能优化多少 ?

我觉得从预训练上来讲的话目前 GPU 和 TPU 最大的需求就是当 GPU 也现在也开始往那个

方向去发展因为 TPU 一直做一个 system level 它是一个大的计算机群而不是单卡单芯片

去做预训练 GPU 可能很长一段时间都是单张卡的性能非常非常的好但是它没有一个网络 TPU

一直是主打一个 TPU Pod 它是一个有几千张卡的一个协同的一个训练的一个状态它里面

牵扯到了很多通信我们当然可以具体聊一下就是 ICI 就 Inte rchip Conn ect 它芯片

与芯片的通信和和这个网络我们叫做 3D Taurus 一个拓扑的一个网络它可以让几千张卡

芯片它用户的感觉当中是一张卡的芯片它中间的训练效率是非常非常高的这样的话它的成本也是可以

打得下来因为我是看新闻报道说谷歌 V7 的就是你研发的这套 Iron Wood 它的芯片它在物理参数上

已经非常接近这个 GP200 了所以它如果在真实的这个工作中或者我们这样说就是我们同样是

训练一个 Gemini 的模型同样一代的模型同样的这个参数量那用 GPU 跟用谷歌的 TPU 谁更

省钱对我觉得这很好的问题我的理解是针对自家定制的大模型就谷歌的话就是 Gemini 将来

如果说谷歌给其他大公司 Fron tier 大模型工定制的话我觉得谷歌性价比是更高的性价比我指

的就是它的 TCO 就是 Total Cost All Owne rship 就是它的成本会更加有优势当你知道你的

work load 是什么的时候你就可以根据你的 work load 去做一些不管是物理的芯片层面的

一些定制或者说在软件层面去定制虽然说它可能有点黑河的感觉但是就是我知道相当于给出了

你所有的 assu mption 你所有的已知条件都确定下来那我觉得 TPU 在现实生活中现实条件下它的

训练效率还是 TCO 都是会比 TPU 更加强大的刚才我也提到这两点它的 util izat ion

rate 是更好的原因第一是它的一个 flops 它的 flops 我们指的就是单位时间内它做多少次浮点式

运算是对所以这样的话因为 TPU 它里面主要的架构就是矩阵计算所以它软件和硬件可以保证它

每次每个时间每个计算单元它都有活在做我们的软件相当于是帮助硬件说我不会让你闲下来

每个时间点你都给我做活但是你具体做什么活是我告诉你的你不需要去精准的去预测或者

怎么样所以它硬件层面说我们不会加很多的控制单元这跟 GPU 很大的区别就是我们不需要

任何的 pred iction 它 pred iction 那一层 level 相当于都是在软件层面去实现的对所以相当于你把

硬件变得更蠢了一点相当于是一个机械式的劳作软件那边帮你把所有的 comp lexity 都给处理掉

所以这样的话 Iron wood 主要有两大的进步一个进步就是它把它的 flop spea kflops 数值上

跟 GPU 更加接近了然后另外一个点我觉得非常非常重要就是它的 memory band width

也是有一个巨大的提升首先它肯定是用了更大的 HBM 保证了一定的带宽然后第二点就是

这个 HBM 的带宽它能被软件充分的去利用起来更高性能的 HBM 它现在在市场上从供应链的环节

它好找货吗 ? 非常

? 非常难找因为 HBM 的话首先它是一个非常非常有点垄断的一个感觉一共就三家公司

垄断这个生产应该是 SK Hynix 三星和 Micron 因为它一直是 HPM 最大的客户然后 TPU 的话

一直是相当于是一个 seco ndary 的一个 cust omer 所以你要跟那三家公司去确定一个订单

的话我觉得是需要一个良性的合作关系之前的话 TPU 一直没有办法获得那么好的

HBM 或者说那么大的订单那现在谷歌 TPU 它的产量是多少具体数据我不是非常清楚但我觉得

也是在一个慢慢的爬坡的过程当中谷歌 TPUV7 之前的话一直是有一个产能的问题我觉得也是一个

很多因素导致的因为毕竟 E7 之前我们一直没有一个对外的一个生态所以我们更

多的是针对内部的一个 deploy 和使用所以我们没有办法和 Brow con TSMC 或者刚才所说的

那几家 HBM 的厂商去锁定一个很大的一个订单因为产能都是提前一年或两年去锁定的当你没有

那么大的客户或没有那么大的需求的话就是你临时想去调整是比较困难的一件事情然后第二点我觉得

就是一个呃 CoOS 就是 CoOS 是 TSMC 的一个 capa city 我们可以理解成我们现在的芯片都

是跟以前完全不一样因为我们现在都做一个 code design 我们的 HBM 内存芯片和计算芯片是

两块独立的芯片通过一个 2.5 D stac king 的一个封装把它封装成一个计程芯片这个

的话 TPU Google 自己做不了 Broa dcoin 也做不了它只能依赖于 TSMC 所以 TSMC 给你分配

多少的产能你就能一年达成多少的产能所以 TSMC 它去分配产能的时候它也可能会看这个

谷歌它要的量是多少如果你的量大的话比如说像英伟达它的量就比较大它是不是可能会先去

做这个英伟达的量凭这个订单量说话然后你这个 Cowars 是指在它的整个的封装环节的一个部分

就是我们可以现在产能的瓶颈如果我们要去整体的总结一下就是你刚刚提到的 CoVe ase

跟 TSMC 这块是在封装上的一个产能然后还有一块就是 HBM 它是高带宽的内存供应

然后这个可能也是一个瓶颈就是由三大垄断巨头去把持所以主要是产能主要是这两块对卡在

这两块上对还有一点就是良率良率的话就意味着当你 TSMC 把一个 Wafer 就生产出来之后它

上面这一块 Wafer 上有多少是合格的芯片因为 GPU 和 TPU 它的制造理念是不太一样的

TPU 它更多是主打一个通信它是主打一个芯片与芯片之间的通信然后这样的话导致它的中间

的失败率会比 GPU 会更高一些然后一旦失败了因为它保证整个系统里每张芯片都是性能

大致是一样的是的如果有参差不齐的话它整个 system 跑起来的效率就不会有那么的高但 GPU 可能就

不存在太大的问题因为我们都知道 GPU 有自己阉割的版本就是 H100A 100 所以一旦良率

不好的话它可以往下降级对但是 TPU 不可以但你们也有之前比如说你现在有 V8 然后你有 V7 你还有

V6 它不可以降级吗很难因为是定制的芯片价格都会不太一样对比较难不是通用的芯片所以一旦你

良率不行的话就这一块芯片相当于报废了所以相当于你产能就没办法一下子提上来所以这个是

我们刚刚说到的就是生产环节中的然后生产环节取决于你的订单的量因为 Anth erapic

它其实是有跟谷歌说我要采购你 100 万的 TPU 100 万应该也是一个很大的量级吧因为达

现在它的比如说 GB200 或者 H100 这些可能也是一个百万级到千万级应该是千万级千万级

所以其实我觉得谷歌现在看起来这个 TPU 已经是在蚕食这一块的市场份额对我觉得 TPU

和 GPU 就很难是同一个维度的去考量吧或去评价我觉得 Anth orovic 这个订单确实是挺大

的一个订单我觉得第一有很多的因素吧第一我觉得 Anth orop ics Google 是一个相对于内循环因为

Anth orop ics 很多投资方也是 Google 所以我觉得 Anth orop ics Google 是一个深度合作的

一个关系相当于如果说是 Meta 或者其他的公司的话我不确定他的成本他的 TCO 到底能

不能压得下来然后第二点的话我觉得就是 Anth orop ics 他的工程师的技术能力还是非常

非常强的所以他们能去用 TPU 来部署他们自己的自家的模型然后就我们当然可以详细聊

一下为什么 TPU 的部署在一般 exte rnal third - party cust omer 上那么的难但我觉得

Anth erapic 目前来讲是有这样一个谷歌的生态的我是这么觉得所以 Anth erapic 拿下这个

订单我觉得也是有很多因素在里面那我们就顺着继续讲一下 Anth erapic 它是不是跟谷歌的整个

的软件生态有关系因为我们说在 TPU 上要搭一层软件然后我听说过这样一个说法就是说

因为 Anth erapic 他们的很多人最开始是在 Google 的所以他们其实是非常了解 TPU 上的这一套

软件生态的所以他们可以用 TPU 去训练模型回答这个问题之前我们可以先简单聊一下

XLA 吧因为 XLA 也是 Google 的一个你可以理解成黑盒也可以理解成是一个 secret sauce 对我

觉得 XLA 和 Kuda 最大区别 XLA 是一个静态的一个编译器然后静态编译器指的就是当

你的 work load 是已知的或者给定的话它可以在一个全局的 TPPOD 的一个 system level 它可以把它

做一个全局的优化优化分很多层面我知道就是他们会做很多内部的算子融合比如说你一个 kernel

里面有很多计算然后它会把一些计算合并到一个计算单元一个算子这样的话你能更好的

去利用你的 Hist olic Array 里面的矩阵计算的利用率然后你中间的中心态结果你不用反复的存进

内存存出来 XLA 会帮你自动做这样的优化然后它还会做很多的一些内存的管理怎么去更好的去分布

你的内存他知道 TPU 怎么喜欢怎么从内存里面去把数给读出来这些东西都是跟硬件

架构和一些具体的细节是非常非常相辅相成的所以 XLA 会通过一个黑盒帮你去优化这样的一件

事情但问题就是这个这个事情你是没办法去很好去 debug 和去控制对就开发者他很

难去用 XLA 这套系统对对然后一个是编程语言他们不会对吧对他用的是什么编程语言这样

XLA 它是一个编译器它上层是 Pyto uchJAX 和 Tens orFlow 相当于你的开发者你可以写任何

一样的语言然后他通过 XLA 可以把你转化成 TPU 的 Asse mbly Code 就是 TPU 的指令

所以他中间是做一个翻译的工作翻译加优化所以如果对应英伟达的话对应的就是 CUDA

的整个生态体系对那我们说就是我们刚刚提到其实 Anth eropic 他们是有工程师去懂 XLA

的这套体系的然后 Anth eropic 他现在应该已经是用谷歌的 TPA 去 train 了一些模型对不对

就已经有这样的一些成果了因为我们知道在 GPU 去训练模型的过程中工程师经常会遇到的问题就是说

它有一个 bug 然后我需要去解决它然后我需要在它的这个软件的编译器上比如说 Cuda 的生态

上去看看是哪个环节出了问题然后把它解决掉那现在如果是用谷歌的 TPU 出了问题刚刚你

也提到了 XLA 它是一个黑核那要怎么去解决呢是必须找谷歌的工程师来解决还是他们

自己就可以解决你可以理解成 XLA 是黑盒但是它里面有很多很多的帮助你去 debug 的一些工具和一些

func tion 但它问题就是你需要对硬件是有一些了解你才能更好的去分析它因为它 XLA 它会把

很多算子做融合然后内存做管理这样的话它是一个 graph 它不是一个单个的计算它是一个链条

一个图表所以相当于你这样 debug 起来它对工程师的要求会更它是可以 debug 但对工程师

的要求会更高一些所以 Anth erapic 找你们了在训练的过程中因为一旦发现 XLA 的 bug

你就必须让 Google 的工程师来去帮忙去分析去解决如果真的是个 bug 需要去解决就外部的

开发者很难独立去处理一个或 fix 一个 bug 不像 CUDA 的话是有一个很好的生态你可以去对

对对所以你们大概比如说因为有卖一些 TPU 给 Answ erRo dpick 你们会有多少人的一个

工程师团队去支持他们这个就是项目中遇到的各种 bag 的问题我是做硬件的嘛我们有很多

软件组专门去对接不同的客户像我们现在可能之前他们是有 Apple 有 Midj ourney 然后

Anth oropic 他们都是会有很多很多的 requ est 就是我离职之前的话也听说他们很多

组都是非常非常忙的是的我昨天听说就是用谷歌的 TPU 最大的团队其实不是 Answer

Raw Pick 虽然他们下了一个 100 万的订单之前模型上也有用过最大的团队其实是苹果对对 ,

然后苹果是因为就是庞若铭之前在这个 Google 然后他去苹果的时候 , 他就是相当于把谷歌的

一整套带过去了 , 然后又直接用的这个 TPU 去训练他们的这个大模型。

这我觉得也牵扯到一个软件债的迁移嘛 , 就是你要用 TP 的话 , 你必须要把原来的一套软件债

全部迁移到 JAXXLA 上 , 如果你不迁移的话 , 你当然可以去做它能跑但你就利用不到 TPU

那么好的性能和 TCO 。就要

。就要把它的性能榨干。

对 , 因为如果现在目前 TPU 它相比 GPU 它最大优势就是它成本控制的很好相比起芯片

它更多是依赖于软件。

那你觉得 Google 的这个 Gemini 它的模型 , 因为它现在应该是市场上最好的模型 , 它的训练出来跟

TPU 的关系有多大 ?

我觉得关系是很大的能占决定性因素吗还是算法其实是占决定性因素的一部分算法当然很重要

因为我觉得现在就是训练特别是 pre - trai ning 它 kpex 很大然后它算法我觉得 D

- mind 那边有非常非常前沿的算法 TPU 能帮你去做的一件事情当你有一个很好的

算法之后然后你提前跟 TPU 子沟通好我是怎么样的一个算法我怎么样的一个 work load 我给

你去定制这样的一个加速器这样的话我能帮助你在一个更短的时间更快的迭代去测试这样一套

算法我觉得这是一个很重要的一个事情就是如果说你的训练效率很差的话你需要花更长

周期去验证一套算法是否能 work 但 TP 如果能把你的时间打下来之后的话迭代速度会就会

更快一些对你们定制这样的一个芯片大概要多久六成对我觉得这是非常任何芯片公司的

一个痛点吧包括 TPU 包括 GPU 他们很多时候都是在预测未来市场的变化包括预测

未来模型的变化之前知道 MOE 的话也是很早有这样的一个想法 MOE 很长一段时间在 TPU

和 GPU 上跑的效果都不是特别好但是后来 TPU 增加了和软件一起增加针对 MOE 的优化

那是哪一年应该是 V4V5 V4V5 那好早 V4V5 应该是在模型刚刚开始出来的时候对对对具体是 2022

年 23 年 23 年那太早了可以详细介绍一下就是为什么之前 MOE 一直在 TPU 上跑不起来

的原因就是因为它是一个 2D tower 相当于你每个 TPU 芯片只能跟它的 neig hbor 相应 TPU

芯片做通信它不是一个 all to all 的一个 comm unic ation 这意味着如果说 MOE

的话它要有一个 rout ing 的一个 phase 它需要把它的 rout ing 给不同的专家它不同专家

分布在不同的芯片上所以如果说你没有一个 all to all 的 conn ection 的话你这样的话中间你

就相当于你要找一个朋友你中间要经过很多个环节经过很多这样的话有很多的浪费很多的拥堵

然后后来在 V4 的时候 TPU 推出了一个叫做 3D Taurus 他用了一个叫做 OCS 一个光纤的

一个交换机他相当于这是一个 soft ware prog ramm able 的 conf igured 的一个交换机

相当于的话你在一个 TPUPod 的一个节点你可以通过软件来更改你想通信的那个 TPU 集群的一个路径

这样的话就相当于一下子把 MOE 的一个痛点给去解决了然后之后的话 MOE 就在 TPU 上跑起来

效率就会明显比之前高很多所以我理解这个迭代是以年来计算的因为你设计出来了还要量产对吧对

对量产的节奏一般是多久啊半年半年打得下来吗打不下来对对我觉得看就是每家公司的 phil osophy

都不一样对像 TPU 的话一直都是主打说我一定要做一个旗舰的一个 trai ning chip 或旗舰

的 infe rence chip 一直以来都是这样的一个想法所以说这对快速迭代要求会非常非常高

因为你每一代新品都会塞很多很多样的 requ est 然后相当于整个流程当你设计完然后我们会

做验证然后再交给 Broa dcom 去做通信上面的那些设计然后在整个 pack age level

再做验证最后交给 GNSMC 我觉得整个流程最快最快也要两年到两年半三年所以我们今天

看到的就是你刚刚提到谷歌已经更新到 V7V8V8 的这一款了这一款我理解它在设计上它是两年

以前就做了但是我们说就是模型的更新包括模型里面大家核心的这个算法往哪个方向走

最近我觉得基本上是每六个月可能就会变化一次也就是说你要在两年前去预测两年以后的这个

模型它在往哪个方向走压对了吗目前来讲 V7 应该是压队了这个是为什么可以解释一下为什么

之前 TPU 芯片和 GPU 的纸面参数上是有一些挺大的距离的因为之前 TPU 的主要的 work

load 是内部的一些 reco mmen dation 和 rank ing system 的算法所以他可能没有想到 GPT

出来之后有这样一个大的需求和对算力上一个那么大的一个需求它针对 reco mmen dation rank

ing 是完全不一样的 work load 它里面我之前我参与也是设计了一道一个模块叫做 spot

core 吸收计算的一个模型它是专门针对一个 reco mmen dation 的一个 embe dding 它这个 layer

的一个一个算法做了一个特定的优化但那个优化里面它没有很稠密的矩阵计算它更多是一比较

稀疏的矩阵计算 , 所以我们针对它我们做了很多算法 , 所以它牺牲掉一些那个矩阵的那个算术的

密度 , 那时候我们发布出来之后感觉 GPU 好像做矩阵计算比 GPU 更好了一点 , 是 V 几的

版本 , 那时候应该是 V4V5 对它开始把它所有的这个核心性能往大模型的预训练上调是哪一代

然后是哪一年对应该就是 V6 吧 V6 开始的 V6 开始我记得应该是做了两个版本

一个是专门做训练一个专门做 Infe rence 对 , 训练和 Infe rence 其实本质上他们是用的是同

一套架构 Infe rence 可以理解成是训练芯片的一套字棋吧它可以有更小的运算单元它

可以有更小的内存因为相比 trai ning 的话 Infe rence 它不需要做 back prop agat ion

反向传播所以它不需要很多的那种中间不需要存储很多的一个副本差不多是在也是在两年

多两三年以前去开始调整这个方向的其实 GPT 它是在 2020 年它就有一个版本放

出来当时是 GPT3 嘛就谷歌那个时候它已经开始就是意识到这是一个 next big thing

然后它又去做这个芯片上的调整或者 TPU 上的调整对其实谷歌很早就开始因为 Tran sfor

mer 也是 Google 出来的嘛谷歌很早就开始知道 Tran sfor mer 这套架然后根据这套架构

我们芯片组我们也知道我们会去做这一套架构的一些去优化包括 Tens ion Kernel 啊就看到就

已经在内部里面你知道了你这样说我突然想起来就是我觉得谷歌的 TPU 到现在它能在整个的模型

预训练中性能表现非常的优秀也是因为 Tran sfor mer 这套架构是谷歌发明的然后从 TPU 的这个

诞生开始它就一直走的是这一条的路径所以我们其实也可以把 TPU 理解成一个针对于大模型

预训练或者推理的 ASIC 这样说是对的吧没问题没问题然后你这个 ASIC 就一定要压对方向他压到了

Tran sfor mer 没问题对因为我觉得有点 insi der news 的感觉我们知道 Tran sfor mer

大概模型什么价格比起行业外我们更大地知道这样的一手信息更大地知道它是怎么样

的一个 work load 所以我们相当于是有一个先发的优势但我们的问题就是本质上 ASIC 和

GPU 它就是一个是通用性好一个通用性不好就是说即使我们有一手的信息但是你一旦确定了 ASIC

它是没办法去改变的所以说 GPU 顺就顺在它因为现在模型迭代周期非常非常短都是

以月来做单位所以一旦你的芯片架构固定下来之后你一旦有个新的算法上的一个动态的

一个改变的话你在 GPU 上就很难去实现这样一件事情即使你有宣发优势但后面的竞争会

越来越激烈这样的话你的宣发优势可能也会慢慢被蚕食我觉得有一个阶段就是 GPU 因为它通用性

好所以它 GPU 上去跑模型的迭代速度会比 TPU 更快一些那现在是哪个阶段 ?

TPU 更快 ?

目前 V7 是感觉跟 GPU Blac kRaw 已经是旗鼓相当了 V8 呢 ?

V8 目前不能透露但是技术细节肯定是不能透露但是刚刚提到 MOE 这样一个架构

TPU 在芯片或通信层它去解决这样一个问题但是我担忧的一点就是这一套架构它的 scal

abil ity 到底有多强如果说将来有一个完全不同的一个范式完全不同的一个模型

然后你没办法在 TPU 上做这样的去优化对然后 GPU 上可以是的这样的话你定制芯片因为 TPU

团队跟 GPU 不是一个量级的你没办法做一个快速的迭代这样的话你的性能上差距可能就会被

拉打所以我觉得这个很难去评判现在我觉得就是可能是我对 GPU 的一个担忧吧就是万一

将来有一个不同的范式它怎么去跟上 GPU 的部分我们刚刚提到了就是如果整个大模型它的训练

范式变了然后就会影响到整个 TPU 它的销量你的这个范式指的是就是有多大的范式调整我可以

举个例子就比如说如果我们整个以 Tran sfor mer 为底层架构的这样的一个范式变了的话那我

理解 TPU 没用了对吧我可以这样说吗不完全准确 , 就是 Tran sfor mer 它核心还是矩阵

计算 , 对 , 矩阵计算的矩阵计算的如果这样的一个 , 但这样应该不会 , 应该不会 , 对 , 应该

不会 , 但是我们就是说如果出现了类似于不同一 Tran sfor mer 的新的架构那 TPU 它就

不一定有这个 GPU 它的表现好那如果是在模型层面 , 就像你刚刚说的 , 比如说有一些这种

MOE 的 , 一些新的方法的微调但它还是基于整个 Tran sfor mer 的这种你觉得 TPU 未来它

还是会持续的占优势吗包括大家现在很热的说我要用这个 RL 的方式去做 Agent 的训练或者去

做模型的训练就是 RL 对 TPU 的影响会大吗我觉得肯定是会会是不一样的 work load 的肯定是会

有影响就是我觉得像 TPU 这个策略就是把芯片变得更加的通用我觉得是在往这样一个方向去

发展相当于它矩阵单元它可以处理各种 work load 的矩阵计算然后它也有专门负责去处理

一些西出的矩阵计算的一些单元它可以理解成把很多硬件上的一些计算和内存模块化来适应将来

不同的那个方式所以从某种意义上来讲也是一个相通用性的一些妥协了解对我觉得之前以往几代

芯片可能设计的没有那么激进的原因也是有一部分的考量就是如果一旦你设计的非常激进你

可以在 GEMMA 上模型效率可以提升个 30% 到 40% 但万一有变化呢万一有变化那你回去的话你

就会非常非常的痛苦所以我觉得这是一种基于现实的一种 comp romise 我觉得然后我们

刚刚提到了就是整个在适应新的算法方向的从设计层面的调整那还有一个我觉得谷歌最近也比较

用力的就是在软件层让整个的中间的软件能够适应更多的开发者的调整我最近是看到一条新闻说这个

Google 跟 Meta 也有一个这样的 TPU 的采购协议然后谷歌向 Meta 提供这种 TPU 的托管

的服务但是呢就是他可能核心想做的就是把 PyTo uch 变成这个 TPU 的一个中间层类似于像谷歌

的库大生态这样的一个就是比如说大家在做编译器的时候可以用 PyTo uch 来编译我有了解

当然具体的细节还没有公开嘛所有的 Meta 都是用 PyTo uch 大家应该是众所周知所以但 PyTo

uch 刚才我有提到它跟 TPU 的生态其实不是特别的兼容所以它很难像 Anth orpe 那样它

也做一个深度的一个对 TPU 整个软硬件生态的一个使用目前来讲我觉得它可能更多是依托

于谷歌云谷歌 cloud 提供更多算力因为包括 Mihara 今年它其实股价不是那么好的原因也

是因为 kpax 太大了它对特别预训炼这块的成本支出实在是需求非常非常的大它已经把市面上

所有能买来的算力都都买来了去做这样一件事情所以我觉得 TPU 相当于目前来讲也是去帮它

去 offl oad 一些它这方面的一些压力软件态的话 PyTo uch 很早之前就跟 TPU 包括

Fair 那个团队也跟 TPU 都都有接洽就是说能不能在 TV 上更好去支持 Pyto uch 这样的话我们也

更好地去做一些 rese arch 的开发但目前来讲我觉得 Google 也是有在去做一些改变了离职

之前也知道有很多组在做 Pyto uch 和 XLA 的结合包括在 XLA 和 TPU 上支持很多

native 的一些 PyTo uch 的一些 libr ary 一些并行的 libr ary 和一些算子因为现在 PyTo

uch 的算子实在是太多了它可能有好几千个算子如果你不在硬件上原生的去支持这些算子的话你

的性能表现就会比较差一些那所以如果大家直接用谷歌云呢当然可以问题是什么问题就是

直接用谷歌语的话相当于你把你相当于脱管了你没办法做很多底层的去控制如果你想去

挖掘每一分的性能的话你从谷歌语就没办法去做这样的事情这是会有浪费会有浪费这个浪费

大概会在一个多少的百分比这很难说多少到多少一个大概的比例比如说 50% 它可能是一个非常大

的浪费 10% 它会稍微小一点对这就是我刚才说到就是那个 model util izat ion rate 如果说

你结合的非常好的话你能几乎满状态的达到一个 peak flops 或 peak memory band width 但是

如果你有谷歌语音来跑的话你很有可能就是可能用到只有 50% 60% 它的 util izat ion

rate 但是你还是要付同样的钱对吧那区别还是挺大的对所以现在 Meta 跟 Google 的合作反而我

是看新闻报道啊我觉得好像是在这个谷歌的谷歌云上跑对吧对对对目前我知道直接购买

TPU 机架的 REC 直接从 Broc kon 购买应该只有 Anth ropic 其他都还是目前还是谷歌云

所以苹果跟 Mate Jour ney 也是在谷歌云上跑的嗯那这样也简单就从谷歌招工程师

过去对对对人才的流动所以谷歌的工程师现在应该是就是还挺吃香的对我觉得如果将来有很多更

多的第三方加入的话特别是 Jaxx xLA 这其实是一个非常非常高技术壁垒的一个工作吧所以

特别是我觉得如果之前在谷歌有这样的经验的话能更好地迁移过去多长时间能学会一个工程师还是

挺难的挺难的因为你需要了解硬件也需要了解软件它是一个复合技能复合技能对然后我们

看到就是在今年就是包括就是之前就很多开发者他在调这个大模型的 API 接口的时候

其实我注意到谷歌的这个 API 接口的成本大概最开始是只有 OpenAI 跟 Azer opik 的十分之一

同时呢这个 Azer opik 他最近的 4.5 他的这个 API 接口大概是下降我

觉得 Google 它现在的推理芯片成本确实会比 GPU 要高不少它的原因就是刚刚所说它

是一个集群的一个推理它的 TCO 就能打得下来刚刚他们没有提到一点就是 GPU

的集群它用的是一种 NV Link 和 NV Switch 这样的一种通信协议这个其实很烧钱 , 你可以理解

成是一种 infr astr ucture 的一种 tax 所以你需要跟很多不同厂商去买这种交换机然后

部署在你的数据中心当中 , 这是一个很大的成本开支 Google 因为它用了它不一样的一个拓扑它

用了一个是芯片与视频片之间直接通信它用的是个铜它不用交换机然后它只有在某些节点

上用一些光学交换机但也比较少然后实现了同样的一个通信的一个效果所以它在一个成本

支出上就是会比 GPU 要好很多所以就是我理解在建数据中心的这一环成本已经拉开了

已经拉开了 NVIDIA 的主要成本是交换机嗯我了解到他们在搭的整个的这个芯片机群里面还要铺

很多的铜是不是是不是他们都是用这种铜的这个线来连接起来的对对对那谷歌的主要成本是什么呢

是夜冷呢夜冷是一块吧夜冷是一块然后其实跟英文达也差不太多它也主要成本也是它

的一些 3DX 它的那个我们会跟 Bloc kon 深度合作一些这种 3DX 就当于是把

信号从一个芯片准确无误地传输到另外一个芯片因为相比 GPU 的话 TPU 它更多依赖于

Curi dus 的一个稳定性所以它的那块质本支出还是很高的然后你们跟 Broc kham 的这个合作会

持续多久还是它是根据量来的如果量大了谷歌可能就自己做了对因为现在市面上有两家公司做

这样的代工一家是 Broc kham 另外一家是 Marvel 然后 Broc kham 和 Marvel 对大的区别就是

Broc kon 有点像 2B 它是一个 2B 的一个 busi ness 它就锁定几个最大的客户然后跟他们做

深度的合作和定制然后 Mavle 的话可能更多是跟一些中型或者一些 star tup 他们可能说

提供一个 IP 的一个 solu tion 它可能不会给你的模型去深度去定制一些硬件但它可能会做

一个量然后 Broc kon 它好处就是可以帮它最大的客户去争取最大的产能就是 CoOS TSMC 所以说

一直以来 TPU 都是跟 Brow con 去做这样一个合作也是目前我不觉得会有很大的改变

但这样导致的一个不好的问题就是 Brow con 的溢价钱会越来越大相当于你在中间 TPU

能赚的 margin 会越来越少如果你非常依赖 Brow con 然后你没有一个 backup 的话就像

有点像 TPU 和 GPU 的关系一直以来 TPU 是 GPU 的一个 back out 也是有溢价权

的考量在里面所以如果你没有一个 back out 的话 , 你在成本上就很难控制下来 , 所以我觉得这

也是将来可以关注的一个点。所以

。所以谷歌它能直接跟 Cowos 这一块来溢价吗 ?

决定的核心要素是什么 ?

Coward 主要还是那个 HBM 就是我们的那个内存的一个封装所以这样的话相当于我的理解是

Broa dcom 是一个中间的环节它会把所有的东西全部帮你铺设好 , 然后它交给 TSMC 去量产所以

我觉得第一你需要去拿到一个很高的很好的一个 HBM 的一个 capa city 再通过 Broa

dcon 去跟 TSMC 争取一个好的 coach 我听说现在整个 HBM 的这个 capa city 被英

伟达垄断了 , 基本上是垄断了 , 对 , 因为刚才有提到嘛因为 HBM 现在我们已经慢慢从

comp ute bound 名称 memory bound 特别是像现在的 atte ntion kernel 它其实核心就是

一个你怎么样去更快的从内存里把数据给搬运出来因为它的 KB cach ing 它里面有很多

数据的一些搬运嘛未来几年的方向可能就是 HBM 能决定着你的上限如果你还缺如果你买不到

好的 HBM 的话那你的清理效率就会所以博通的主要核心的作用是在这一块博通主要的

核心作用它是做很多的通信 ICI Inte rchip Conn ect 然后它会做很多的后端因为我们芯片

的话我们 TPU 团队主要设计它的前端比如说我们相当于是把一张图纸给打印出来然后

Broc kon 会把每个芯片芯片之间物理上去连接起来然后最后交付给 TSMC 在物理上去

生产出来所以 Broc kon 更多是做一个信号的连接怎么去布局这样一个托铺的一个

网络所以 Bloc kon 可能是在这一边也是挺核心的一个环节非常核心而且是一个技术壁垒

非常非常高的一个环节因为现在目前一旦信号里面有问题的话那整个机群就不能用了所以

这是一个你可以理解成脏活累活但你也可以理解成这是一个非常非常吃惊艳的也是

技术壁垒非常非常高的因为 Bloc kon 他们那边的话主要是一个一个复合的一个信号我们

TPU GPU 都是一个数字电路但那个是一个 mixed signal 是一个模拟电路加数字电路所以它对经营要求会

更高一些就是如果我们用一句话来总结你觉得现在谷歌的 TPU 可以挑战英伟达的在 GPU

的垄断地位吗或者说至少是我去阻挠一下这个英伟达在这个市场上绝对的定价权没有绝对答案但

我的结论是在某些限定的条件下如果一旦满足这些限定条件我觉得 TPU 是完全可以挑战

GPU 的限定条件就是一个大规模部署因为 TPU 它主打就是走量如果说 TPU 它其实不太

擅长做一件事情就是它没办法针对一个单用户比如说做 agent 它就不太适合因为它延迟会

比较高一些推理芯片也不行是吧现在的提升但是它比起像 Groke 比起因为它的它的可塑性就没有

那么强所以它必须在一个非常大的一个吞吐量下比如有很多很多用户同时去去调用这个接口很多很多

用户同时去用 Gamron 然后 HGPT 它才能把这个成本给分摊开来这样的话它能得到一个很好的

一个吞吐量所以在这种情况下大规模部署然后模型相对比较稳定它不需要很多的变动这样的话

它的整体的成本就相比 GPU 有很大的优势那我的总结就是当如果你的模型相对比较固定不需要

很多的改变然后它的形态也是比较静态的形态 TPU 是非常适合去大规模部署的比如说你已经

训练好了一套模型然后你只需要去做 Infe renc eTPU 它的一个 System Level 的优化能力软一键

协动能力能帮助你的这一套模型能把成本控制在一个非常好的一个范围之内这也是 TPU 最大的

优势但它有它的前提就是它必须是一个非常大的用户在用很多的用户在用它不太适合去做本地

的部署然后它很适合在语营上去用很适合比如说你 Gemini , JGPT , Cloud 这种每天都有

Mill ions of users 这样的话它会把成本分摊给每个 user 但如果它去做推理的话它的延迟

会有多少就是跟普通的这种 GPU 相关的这些 agent 来比大家可以去看它官方的 docu ment

ation 它的延迟做的也是非常非常不错的但它没有写的就是它需要有一个大用户它我们内部会有一个

batch 就是你可以理解成多少个 quev ers 多少个 requ est 你如果每一秒你没有很多足够多的用户

的话它 TPU 没办法软件把它打包成一个很大的一个矩阵计算然后就很好地去利用这个计算

计算的这个计算密度所以如果你只有你一个用户的话那你的成本就会很高了就是用户

规模数越大它反而越快即使在推理上也是这样就如果你是一个非常小的这种创业公司那大家可以

用谷歌语音接入然后我跟其他的就是 requ est 打包吗因为 Sruple 它其实有两个性能的指标 , 一个是

吞吐量就是 Sruple 你市面上比较讨论比较多的 Token per second 每秒产生多少个 Token

还有另外一个就是我们的那个尾部延迟 , 就 Crit ical Pass 的那个 Late ncy 它

可以保证一个非常快的响应速度然后每一个 Token 与 Token 之间 , 它的 Late ncy 都是

非常非常低延迟的所以我觉得这一块的话 , TPU 是不太适合去做这种非常非常快的响应速度

但它可以适合做就是它每秒成为 100T oken 但是有些用户可能稍微慢一点点然后有些

用户快一点它保持一个平均值这是它能做到的一件事情谷歌的 Gemini 它是不是所有的模型

全部是用 TPU 训的还是它也会有加入 GPU ? V7

? V7 的发布基本上是说 100% 是用 TPU 但是在 BG 之前 , GPU 一直是 TPU 的 backup 原因

也很简单 , XLA 加 GX 是一套非常复杂非常不稳定的一套软件生态 , 它很多时候会容易去报错 , 一旦

报错 , 特别是在 pre - trai ning 它的风险是很大的 , 现在我觉得这套系统已经

非常 steady 了 , 也非常成熟了在之前不成熟的时候 , 你就需要用 GPU 来做 backup 所以之前

一直是 GPU 和 TPU 混着 , 混用训练 , 并不意味着 TPU 训练效果没有 GPU 好 , 只是

意味着它的整个 system 它的稳定性还没有达到一个非常好的一个状态。

我听说现在谷歌内部的 Gemini 就是非常缺 TPU 因为我有时候用它模型的时候 , 它会说这个

请求过多 , 然后就挂刚刚我们提到了

其实它是有独立的这个训练芯片跟独立的推理芯片的哪个现在的量更大是这样就是我

其实就是如果不说具体数据也没有关系我其实是想给听众一个大概的印象就是想让大家

看一下这个训练跟推理他们各自的大概的一个比例跟综合情况是怎么样的 R5 其实它是一款主要

针对 Infr ent 推理芯片的一个性能上的一个优化的一个芯片它当然可以做训练但它里面很多的

一些核心的黑科技是针对我们现在当下的一个推理的一个应用的一个市场所以它比起训练它

要求的那些指标 RU 的更多是它要保证你一个低延迟保证你一个大的吞吐量保证你的 memory

band width 是足够大的这样的话你做 LM 特别在 DECO 那个环节你不会被内存那边卡住所以说

我觉得这也是一种信号就是说谷歌觉得未来包括整个市场我觉得未来对 Infl ame 这个

成长的潜力还是非常非常看好的但 pre - trai ning 也是非常重要的一个环节

因为谷歌作为少数几家做 fron tier 大模型的公司他们一直以来他们的 phil osophy 就是我

设计一款芯片首先是要把 trai ning 做好综上我们所有所说的呀我试着总结一下这个

TPU 跟 GPU 的优势跟劣势就是整体来看现在 TPU 它在性能上包括在模型的训练上就如果

你用的好的话你是可以把它跑满的它可能会达到这个 GPU 的性能甚至是比它就是然后在

数据中心的部署上它是更省成本的这个是它的一些核心优势同时就是用了它你的推理成本

可以降低那它的缺点就是首先我们说在这个软件的生态上 XLA 它还是一个比较难入门的这样的

一个核心门槛它没有英伟达的这个 CUDA 它的这个生态另外一点就是它在整个的起量上包括

对这个 HBM 它的供应链的控制上还是比较弱的还有一个核心如果大家使用了 TPU 但是你内部

没有特别懂的人它还是一个黑盒就是你没有办法用自己的工程师去把它调优然后把它的性能跑

满然后如果用谷歌云的话可能只能跑到这个 50% 到 60% 的性能在这种情况下它跟 GPU

谁的性能更好现在其实也是一个很难说的话题所以整体上我们看到是这样的一个趋势然后

TPU 最大的核心的问题就是说未来如果整个它在架构跟算法上有升级 , 它类似于一款专用的 ASIC

芯片 , 那通用的 GPU 是更有优势的 , 但是如果你们的算法读对了你们就是有核心优势的

。我

。我的总结准确吗 ? 我

? 我觉得非常进去。

那其实我们前面聊了这么多的 TPU 啊 , 就是你要不要跟大家再简单的回溯一下 , 就是谷歌它是

怎么样去发明这个 TPU 的 , 它的一个历史是什么 , 然后谁是中间的核心人物对我们最开始

TPU 的话主要是针对内部 CAM 这一大模型的一个加速器然后最开始第一代芯片它只是一款

Infe rence 芯片因为刚才我也提到 Infe rence 相比 Trai nings 更好做一些所以 Infe rence

相当于是一个 Test ing Chip 作为一个入口我们先把这个它里面的架构相对比较简单它就是一个

矩正计算机加内存没有其他更多的一些模块然后最开始的初衷就是大家发现我们内部有

很多的 online 的 reco mmen dation system 但它的 infe rence 都是用 CPU 来做 infe

rence 大家都知道 CPU 什么样的问题对它的并行效果是非常非常差的然后那时候也没办法用 GPU

因为今天那时候 GPU 它还没有加入它的那个矩针计算单元所以它更多是一个做显卡做一个

pixel 是的对所以那时候没有所以谷歌说为什么不自己开发一款只做举着计算的模型所以最开始

就是最开始初衷应该是 Jeff Dean 包括后来图灵奖的获得者 David Patt erson 也是深度

参与了第一代模型的架构所以设计出来性能非常非常的好我们有了第二代芯片第二代芯片它

就是一个非常旗舰的做做 trai ning 做训练的模型所以包括我们后来知道的 Alph aGo

包括 POM 包括 BUT 包括早期的 Early Tran sfor mer 包括后来 Tran sfor mer 都是

用了这一套架构去做的训练但那时候有一个比较大的问题就是那时候我们先有了硬件但是软件还

没有跟上来对包括一直在 VRV3V4 的时候就一直痛点就可能硬件上理论上我们性能是不错 , 但是具体能

部署多少 , 第一产能跟不上来 , 第二就是我们软件上那个协同效应还没有产生 , 所以一直在

做这样一个工作 , 中间我们也提出了这一个 system 的一个 level 的一个 tpu pod 的一个拓步的一个

网络 , 这是奠定了现在 tpu 那么好的性能的一个基础 , 然后在第四代的时候我们又针对推荐和 rank

ing 的一个算法我们加入了一个 spot score 系书式的计算单元这也很好的解决谷歌内部的

一些推荐的一些 work load 所以然后 V5 V6 的话就是开始进入大模型时代了进入

XGPT 的时代所以我们那时候就会针对 Tran sfor mer 做了很多很多的优化然后一直到我们中间还

推出了一个 Infe rence 的版本就是因为 Infe rence 的市场需求非常非常大直到现在的 V7In

fere nce 的版本是从什么时候开始应该是 V6 吧我觉得 V6 对我觉得那时候在 TPU

组里工作也挺有意思就是最开始那几年其实市场上没有那么大的需求相当于那时候还没有大模型

没有下 GPT 所以我们那时候工作还相对比较轻松一点因为只是针对自己家的 work

load 所以感觉就是只要满足内部需求就可以了对你是从哪一年开始在 Google 的我是从

18 年吧 18 年到 2424 那你基本上是完整的参与了好多代的 TPU 的开发最开始

我做的是另外一个 proj ect 但我是从第四代的时候加入第四代的加入第五代的时候那核心

的几代你基本上都有参与对对对我不能说是核心几代我只能说就是核心几代核心的肯定是

第一代和第二代因为他们是奠基者但后来我是可能经历了从模型快速迭代那个周期就你可以

可以想象的出就是最开始大家都在做训练但一下子哦现在推理市场一下子变那么火那我们要不要做

另外一个版本的芯片然后就像于 proj ect 一直在是一个非常 vola tile 非常变化非常

非常快的一个状态下关于整个 TPU 它刚刚诞生的时候还有一些特别好玩的故事当时 Jeff

Dean 他是谷歌的首席科学家嘛然后他其实是在一次整个内部的演示中去演示说深度学习网络

他会怎么样去在语音识别上有一个突破性的进展就是 2013 年左右的时候然后那个时候大家

其实就发现我们需要的是 GPU 而不是 CPU 然后后来呢就他们就开始在内部去 demo 这个

事情就是 Jona than Rose 现在应该也是 Grock 的一个他应该是 co - foun der 是吧

现在已经是英伟达的 VP 了对现在是英伟达的 VP 因为英伟达收购了 Groch 对他当时就给内部 demo

的时候他就他就放了两页 PPT 第一页是就是这个 GPU 他真的是工作了这是好消息然后

第二页就是这是一个坏消息我们付不起这个钱对就是他们当时是算了说成本对成本就是说如果

所有的用户他们给谷歌发三分钟的语音的话那么当时谷歌的整个的数据中心的成本会就是增加一倍大概是

数百亿美元是非常大的一个量这个其实也是他们就是开始去研究这个 TPU 的一个起点那接下来的故事

好像就是到了整个 1516 年就是那个 Alph aGo 击败对围棋冠军李世诗的时候这个时候其实

谷歌已经在用 TPU 了而且据说在他们的这个 AI 算法里面是放了四张 TPU 进去的那个

应该是第一代第二代对不对应该是第二代或第三代第二代跟第三代第一代是不做 trai

ning 对那比如说刚刚你提到了其实可能整个大模型出来以后它是从这个第六代开始的而且

前面它有一些是服务于谷歌的整个的搜索跟广告推荐的这些算法那第五代到第六代它相当于是一个

巨大的方向上的转变对我觉得方向上转变更多就是相当于你可以把重心根据 LM 现实中的 work

load 去做一些调配就其实理论上来讲就是 high level 上来讲就是你把你的计算资源需要

变得更大是对因为之前可能没有这样的 case 没有这样的 work case 对软件团队是什么时候

加入的你说 XLA 那边吗 ? 对

? 对他们从一开始就有这样的团队在了然后谁是这个 TPU 组的核心跟灵魂人物 ?

对 , 我觉得相比现在我觉得软件团队的规模已经大超过硬件的规模了因为软件组确实他现在

目前这个生态中扮演一个非常重要的一个位置就是他不仅需要跟内部的人内部的团队打交道

也需要跟外部团队打交道所以我觉得现在软件组的话语权会更加重一些吧嗯你觉得软件更大重

一些那灵魂人物呢就比如说 Jeff Dean 在推动这件事情他肯定是在就是支持跟推动早期推动

后期呢后期的话后期我觉得可能就我觉得现在肯定是 Jeff Dean 包括 Deep mind 那边是

一个深度的一个你可以理解成一个大脑吧他决定了下一代 TPU 往哪个方向去发展对他们决定

方向对具体的落实是落到硬件组就是落实是硬件组对硬件组那我们刚刚其实提到了 Jona than

Rose 我们要不要讲一下 Grock 因为英伟达其实也是把它收购了然后他在推理芯片端我记得他最

开始出来的时候他的整个性能表现啊然后包括他说的那些方案在业界还是就让很多人动心的

我觉得就我当初也跟他们内部团队人也聊过嘛然后目前他们被英伟达收购是采准了每一个时代的红利

采准了每一个很好的时间点第一时间点就是 Infe rence 然后第二时间点是 ASIC 第三时间点

就是今年是 Agent 的元年嘛 , 相当于有很多智能体的爆发然后 Growth 最好的一个应用 case 就是

Agent 智能体因为 Agent 智能体的话 , 它对延迟的要求是非常非常高的 , 如果说你的延迟做得很

差的话你整个帮你去做这一个任务的一个链条 , 就会被拉得无线长 , 这是对于单用户

来讲的话 , 是一个非常痛苦的一件事情 , 所以 Growth 就是能很好的去解决 , 或者说解决这样的

一个问题 , Growth 的芯片因为 John son Ross 最开始是 TPU 的 Comp iler Team

他是 TPUC ompi ler 那边的一个 VSuite Foun der 就相当于他是带着一套他非常成熟的

TPU 的那个 Comp iler XLA 的一些经验去 Cofo und 了 Grock 所以 Grock 你可以理解成他是

一家 Comp iler 的公司而不是一家芯片公司因为他的芯片更多是为他的软件 Comp iler

服务的他的硬件可能比 TPU 更加的单一或者说没那么的智能一些 , 它的 Comp iler 在某种程度

上决定了一切它 LPU 里面每一个时间点每一个计算单元里面去做哪些事情 , 它可以精准到

每一个 cycle 都是用 Comp iler 去确定好的一个非常确定性非常高的一个事情。

你刚刚提到他们精准的踩到了每一个就是时代的红利点啊 , 第一轮是 Infe rence ,

第二轮是 ASIC , 第三轮是 Agent 这三个时间点对芯片的要求有什么不一样吗 ?

Infe rence 的话就是因为 Groke 最开始它就做 Infe rence 它不做 Trai ning 它的

软件和硬件的架构决定是它做不了 trai ning 第二个 ASIC 的话就相当于 ASIC 它的成本更加

可控一些它是针对哪个方向的 ASIC 它是针对低延迟的 ASIC 主要是做低延迟所以现在 agent

它我可以理解比如说现在我们用 agent 觉得延迟很低了它还是有硬件层面的提升的对对对这

就是我刚才讨论的就是那个吞吐量的问题谷歌的它的 TCO 比较好的原因就是你有很多海量的客户

同时去用这样一个 Infe rence 的服务它的吞吐量就会很高但它不在乎它的尾部延时尾部

延时指的就是你单用户用的话它可能会有时候会快一点有时候会慢一点相信大家也都会

有这样的用户体验但是 Groker 你一旦去用的话它就会非常非常快它的原理就是因为它第一是

它的 SRAM 第二就是它是一个相当于你一个人它占用了非常非常多的 LPU 的资源而不是跟很多

人去共享 , 它就是这样一套逻辑。

Agent 跟 ASIC 的区别又是什么 ?

就我们再讲升到第三个逻辑 Agent 当然跟 Aseq 没有很多的关联但 Agent 主要就是 Grog 的一个

非常适合 Grog 去服务的一个场景这是他服务的一些客户对 Grog 服务适合 Grog 去服务的场景第一个

是 Agent 第二个是 real time 的一些 voice 然后还有一些高频的一些交易他对颜值要求会

更高一些所以现在 Grog 他的客户主要是以哪些客户为主比如说像你刚刚提到的高频

交易商然后还有直播对吧就是或者说跟大模型相关的这种实时的直播大家可以去 Google 一下

Grog 这一年他跟哪些人哪些哪些厂家签了订单一个他跟那个中东的一个数据中心然后另外他

也跟 IBM 他相当于是一个当地部署的一个计算集群他只针对本地人去用相当于在你家搭了

一个局域网的感觉一个私有的一个云然后你用起来会非常非常信息非常非常高所以它卖的是什么

就是你刚刚提到它是跟 IBM 签这种数据中心的合同我开始以为它是卖给 agent 的就是它是卖芯片

或者解决方案给这些 agent 的创业公司的但是它现在看起来它是在往这个上游去卖具体细节不是

非常清楚啊但我觉得它就是主打一个市场的差异化嘛就现在主流市场都是做这种大模型的

推理和训练它可能就是针对一些小的规模部署的一些计算机群做这样的一个低延迟的一个性能的

优化你觉得未来在整个 agent 的应用中就是推理芯片它是会是一个百花齐放的格局还是说它依然是以英

伟达的 GPU 为主导的我觉得自从就是去年 Deep seek 出来之后大家一下子发现就是在

推理端就是如果你成本打下来之后的话端册然后本地的部署它的推理的需求是非常非常大的所以

这样的话我觉得就是有很多不同 layers 的市场和不同 layers 的指标的需求当然 Google 和 TPU

肯定会占据最高层就是最大规模那些部署的包括预音啊包括那些大模型的推理然后中间和下面的

一层的话我觉得会有更多的玩家和更多的参与者进来然后这样好像 Groke 这块芯片

其实它如果是一个非常大参数量的模型的话它其实成本其实挺高的我觉得对如果说是一个

小规模部署的话它成本是可以控制的所以就是它未来就是整个芯片市场在推理端也会分层

然后分应用场景对对对可能最大量的需求还是这些大的巨头可能就是相当于你要是做 star

tup 创业公司的话你没办法说我要做下一家英伟达你基本做不到因为它已经护身核实在太

深太深了你只能做一些尾端的一些客户很多人都在讨论 TP 和 GPU 之间区别我数有数列但

我觉得未来肯定是两者并存的包括现在所有很多大厂都在自研自己家的芯片不管是推理还是

训练我觉得你不能说 GPU 将来会一统江山和 TV 会一统江山我觉得这个生态我觉得是一个非常

健康的生态有定制的环节也有通用的环节有通用场景也有定制的场景也有锤泪的场景所以我觉得将来

的话是百花齐放的一个格局所以一旦产能各方面供应链都解决问题之后我觉得对用户来讲都是一件

好事情我觉得对一下子把成本下来之后的话你能做的事情就有无限的可能大家都需要有一个

人能出来打破垄断对对对我觉得目前 TPU 可能是一个很好的一个挑战者是是是对对然后

我们看一下它这个生态到底能布局到什么样的一个阶段吧如果它能把一个软件生态也像 Cuda

一样搭起来的话我觉得对 Cuda 和 GPU 也是一件好事情也能我觉得需要同行的激励和鞭策

而且我觉得其实今天这个话题可能有很多方的人都会关注比如说从华尔街的视角他们会

非常关注未来整个谷歌的 TPU 它能抢走这个英伟达多少的市场份额这绝对是他们就是来去计算

估值的这样的一个非常重要的点同时我觉得对很多的这种大模型厂商来说其实像不仅仅是我们刚刚

提到的 Answ eropic 跟 Meta 我看像 XAI 甚至是 OpenAI 都表达出说未来可能会跟谷歌去进行

TPU 的合作我觉得从模型厂商这可能也是他们怎么样去提高自己的模型的能力同时降低自己数据中心

的成本的一个非常重要的决策那我们再往下就是细到这个 TPU 它的整个的供应链环节包括

我们刚刚说到的这个 HBM 包括夜冷然后包括数据中心它的布局有什么不同我觉得谷歌它

的 TPU 的位置未来会影响到很多的这个产业链中的各个小的环节跟厂商对所以还是很感谢 Henry

今天来我们的这样一期播客跟我们聊了很多的这个技术细节我觉得对大家这个做决策会有很多的参考价值

不够成投资金对对对那必须做一个声明啊就是今天我们所有的观点应该都是你的个人言论对

对对不代表公司观点同时我们所有的这些言论也不够不构成任何的投资建议对最后

补充一点就是因为确实很多 TPU 的布局都是发展在高层就是它具体想把 TPU 打造成

怎样的一款产品我觉得相当于底下工程师是了解是比较少的所以我觉得我一直从我在 Google 的工作

的经历当中去播放和同事聊天的过程当中去了解一些直言片语吧然后把它拼凑成一篇故事好的谢谢

Henry 好那谢谢 Henry 感谢大家收听我们这一期的播客如果大家对 TPU 有什么样的想法

可以给我们写评论写留言如果大家对我们的播客感兴趣可以通过苹果播客 Spot ify 还有小

宇宙来关注我们如果大家喜欢我们这种视频播客的形式也可以在 B 站还有 YouT ube

上搜索硅谷 101 播客关注我们我是红军感谢大家的收听

Loading...

Loading video analysis...