LongCut logo

E228|谷歌TPU能撼动英伟达吗?前TPU工程师首次揭秘

By 硅谷101播客

Summary

## Key takeaways - **TPU矩阵计算流水线架构**: TPU针对机器学习矩阵计算设计成流水线架构,像接力赛,每个步骤专人负责,避免GPU多线程独立计算的闲置期,确保计算单元利用率更高。 [04:01], [05:17] - **TPU Pod系统级训练优势**: TPU主打TPU Pod,几千张卡协同训练,通过3D Taurus网络和ICI通信,让用户感觉像一张卡,训练效率高,成本更低,而GPU单卡强但网络弱。 [07:16], [07:43] - **XLA静态编译器黑盒优化**: XLA是静态编译器,在TPU Pod系统级做全局优化,如算子融合和内存管理,提高矩阵计算利用率,但调试难,对工程师硬件知识要求高。 [16:11], [17:13] - **TPU生产产能瓶颈**: TPU产能受HBM垄断供应、TSMC CoWoS封装和良率限制,因为TPU强调芯片间通信一致性,无法像GPU降级阉割,失败即报废。 [10:25], [13:55] - **Anthropic苹果用TPU关键**: Anthropic和苹果团队有谷歌背景,熟悉XLA生态,能深度优化TPU性能,而外部客户难独立debug,谷歌软件团队忙于支持他们。 [15:12], [20:05] - **TPU挑战GPU限定条件**: TPU在模型固定、大规模部署、高吞吐场景下TCO优于GPU,适合Gemini等海量用户推理,但不适单用户低延迟agent,需大batch打包矩阵计算。 [42:20], [44:39]

Topics Covered

  • TPU流水线架构碾压GPU多线程
  • TPU Pod系统级训练成本最低
  • HBM产能瓶颈卡死TPU起量
  • XLA黑盒编译器难调试高门槛
  • TPU仅大规模稳定模型胜GPU

Full Transcript

2025 年 当谷歌 的 Gemini 3 登顶 AI 性能 排行榜 的 时候 训练 它 的 不是 英 伟达 的 GPU 而是

谷歌 自己 的 芯片 TPU 从 搜索 翻译 到 地图 甚至 是 Alph aFold 2TPU 它 驱动 了 谷歌 几乎 所有 的 核心

产品 而 如今 它 正在 向 整个 的 AI 产业 渗透 2024 年 , 苹果 发表 论文 , Apple Inte llig ence

全部 使用 TPU 训练 。

2025 年 , Anse ropic 拿下 100 万颗 TPU 价值 数百亿美元 用来 训练 下一代 的 Cloud 。

2026 年刚 开年 , Meta 就 签下 了 数十亿美元 的 协议 租 TPU 来 跑 LAMA 。 过去

。 过去 我们 说 整个 市场 都 认为 , 未来 AI 芯片 的 机会 在于 推理 芯片 , 因为 达 在 训练 芯片 的 地位 是

难以 撼动 的 。 但是

。 但是 我们 看到 现在 在 越来越 多 的 顶级 模型 公司 中谷歌 的 TPU 正在 成为 英 伟达 的 替代

方案 你 觉得 现在 谷歌 的 TPU 可以 挑战 英 伟达 在 GPU 的 垄断 地位 吗 在 某些 限定 的 条件 下 TPU 是 完全

可以 挑战 GPU 的 很多 人 都 在 讨论 TPU 和 GPU 之间 区别 我数 有 数列 未来 肯定 是 两者

并存 的 哈 喽 大家 好 欢迎 收看 硅谷 101 我 是 红军 今天 我们 来聊 一聊 谷歌 的 秘密武器 TPU

那 今天 跟 我 在 一起 的 是 谷 歌前 TPU 的 工程师 Henr yHello Henry 你好 Hello 红君 你好 首先 给

大家 自我介绍 一下 我 的 名字 叫 Henry 很 开心 贵谷 111 的 邀请 然后 我 也 是 你们 忠实 的 听众 和 粉丝 我

之前 上 一份 工作 是 在 谷歌 的 TPU 组 然后 我 也 深度 参与 了 三代 TPU 的 研发 像 最近 发布 的 Iron

wood V7 是 我 做 的 第二代 TPUV8 是 我 做 的 最后 一代 TPU 在 我 立志 之前 很 开心 今天 能

跟 大家 分享 一下 我 对 TPU 的 一些 理解 吧 首先 我 想 说 就是 TPU 是 一个 上下 有 产业链 非常 非常复杂

的 一个 产品 所以 它 是 里面 牵扯 了 很多 软件 硬件 包括 代工 所以 里面 很多很多 技术 系细 也 是

非常复杂 的 也 是 一个 非常 庞大 的 一个 工业体系 所以 我 也 希望 我 今天 只是 根据 我 的 理解 去 帮助 大家 跟 人家

解惑 一下 TPU 这 一层 神秘 的 面纱 吧 你 刚刚 提到 了 你 其实 参与 了 V7 跟 V8 的 开发 然后 据 我 了解 这个

其实 是 谷歌 的 TPU 他们 开始 去 适应 大 模型 的 这种 预性 链 最 核心 的 然后 也 是 最 有 竞争力 的 这 两代 的

芯片 也 是 最新 的 两代 因为 你 刚刚 提到 了 它 可能 涉及 到 软件 硬件 然后 包括 代工 生产 所以 今天 我

觉得 我们 可以 从 硬件 软件 生产 环节 每个 环节 都 把 它 就是 详细 的 剖析 一遍 包括 现在

谷歌 的 TPU 跟 像 Anth erapic 像 Meta 这 之间 的 合作 我们 可以 看看 它 是 如何 影响 到 整个 未来 的

英 伟达 的 生态 的 最 开始 啊 就是 第一个 问题 很多 人 他 并 不 清楚 我们 说 TPU 跟英 伟达 现在 的 比如说

GB200 或者 H100 的 GPU 它 有 什么样 的 不 一样 我们 可以 先 简单 给 听众 介绍 一下 TPU

跟 GPU 它 的 不同之处 尤其 是 它 在 预 训练 方向 的 不同之处 我 觉得 首先 TPU 和 GPU 本身 它 的 架构

是 完全 不 一样 的 然后 GPU 大家 可能 更加 了解 更加 多一些 因为 它 是 最 开始 它 是 做 游戏 的 显卡

所以 它 里面 会 用到 一个 数字 叫 SIMT 它 是 一个 SIMT 的 架构 Single Inst ruct ion Mult iple

Thre ading 它 是 个 多线程 单一 指令 的 一个 架构 所以 可以 理解 成 一个 厨房 里面 同时

安排 着 很多很多 个 大厨 他们 每个 人 都 有 自己 独立 的 思考 能力 然后 独立 的 去 从 冰箱 里 把 东西 拿 出来

然后 做 完菜 然后 最后 上菜 他们 可以 独立 完成 这样 一件 事情 所以 你 安排 很多很多 大厨

的话 这样的话 并行计算 能力 就 会 非常 非常 的 强 这个 是 GPU 那 如果 我们 同样 用 做菜 来 比喻 TPU

的话 , 你 觉得 它 的 流程 跟 GPU 有 什么 不 一样 ?

TPU 和 GPU 最大 的 区别 就是 TPU 是 一个 针对 机器 学习 的 一个 加速器 我们 知道 机器

学习 任何 的 算法 , 包括 最 开始 的 CN 到 现在 的 Atte ntion 到 Tran sfor mer 到 未来 的 架构 里面

的 核心 就是 矩阵 计算 。

我们 知道 矩阵 计算 这个 东西 是 非常 comp uter bound 是 一个 comp uter inte nsive 的 一个

工作 TPU 的话 就是 针对 这个 矩阵 计算 专门 做 了 一个 定制 的 加速器 所以 你 可以 理解 成 做饭

的话 我们 是 一个 流水线 我们 知道 今天 要 做 哪 道菜 然后 TPU 的话 相当于 是 把 不用 安排

那么 多 的 大厨 但是 它会 把 大厨 安排 在 每 一个 步骤 上会 把 每 一个 步骤 都 告诉 你 具体 做 哪个 步骤 的 火 然后

你 做 完 之后 直接 把 你 做 完 的 比如说 第一个 人会 从 冰箱 里 把 菜 给 取出 来 第二个 人 直接 把 第一个

人 做 完 的 部分 的 中间 菜 的 结果 做 加工 传到 第三个 人 然后 相当于 中间 每一 步骤 你 可以 理解 成是

心脏 的 泵 血 然后 你 每泵 一次 它 就 会 把 血液 传输 到 你 身体 的 各个 角落 所以 这样的话 中间 它会少 很多 的

调度 少 很多 的 调控 所以 这样的话 它 能 保证 每 一个 计算 单元 的 使用率 会 更 高 一些 所以 我 理解 其实

就是 GPU 它 是 这种 有点 类似 于 并行 的 就是 你 每 一个 环节 它 是 独立 运行 的 然后 TPU 它 是 一场

接力赛 那 在 模型 的 训练 上 这 两种 就是 不同 的 架构 它 的 各自 的 优势 跟 缺点 是 什么 我 觉得 现在 预 训练 , 包括

后面 的 Infe rence 我们 现在 慢慢 地 从 一个 计算 Comp ute Bound 变成 Memory Bound 所以 我们

现在 对 内存 的 要求 是 非常 非常 高 的 , 所以 CMD 它 架构 它 有 一个 缺陷 , 就是 因为 你 需要 独立

地去 做 这样 的 计算 的 任务 , 所以 你 有时候 会 一直 在 等 数据 搬运 过来 的 过程 当中 , 你 就 会 有 一些

闲置 的 Idle Period 所以 这个 过程 当中 的话 就 会 导致 它 的 那个 矩阵 计算 的 利用率 没有 那么 的

高 它 的 util izat ion rate 就 会 有 下降 然后 TPU 就是 根据 这 一个 特点 然后 弥补

这样 一个 缺点 吧 我 这么 觉得 然后 它 相当于 是 我们 当然 可以 具体 聊 一下 它 软硬件 的 一个 协同 的 一个

效应 它会 保证 它 是 一个 满 公寓 下 的 一个 运行 然后 它 不 需要 等待 数据 搬运 的 过程 它 要么 利用

当体 的 缓存 把 一些 提前 搬运 过来 的 数据 重复 去 利用 , 或者说 把 我们 的 带宽 跑 满 这样 我们 可以 把

那个 memory util izat ion rate 也 能 达到 一个 峰值 。

所以 如果 整体 上 我们 用 一句 话 来 去 做 结论 的话 , 你 觉得 TPU 跟 GPU 他们 在 这个 模型 的 训练 上

就是 谁 更 强 然后 能 优化 多少 ?

我 觉得 从预 训练 上 来讲 的话 目前 GPU 和 TPU 最大 的 需求 就是 当 GPU 也 现在 也 开始 往 那个

方向 去 发展 因为 TPU 一直 做 一个 system level 它 是 一个 大 的 计算机 群而 不是 单卡 单芯片

去 做 预 训练 GPU 可能 很长 一段时间 都 是 单张 卡 的 性能 非常 非常 的 好 但是 它 没有 一个 网络 TPU

一直 是 主打 一个 TPU Pod 它 是 一个 有 几千 张卡 的 一个 协同 的 一个 训练 的 一个 状态 它 里面

牵扯 到 了 很多 通信 我们 当然 可以 具体 聊 一下 就是 ICI 就 Inte rchip Conn ect 它 芯片

与 芯片 的 通信 和 和 这个 网络 我们 叫做 3D Taurus 一个 拓扑 的 一个 网络 它 可以 让 几千 张卡

芯片 它 用户 的 感觉 当中 是 一张 卡 的 芯片 它 中间 的 训练 效率 是 非常 非常 高 的 这样的话 它 的 成本 也 是 可以

打 得 下来 因为 我 是 看 新闻报道 说谷歌 V7 的 就是 你 研发 的 这套 Iron Wood 它 的 芯片 它 在 物理 参数 上

已经 非常 接近 这个 GP200 了 所以 它 如果 在 真实 的 这个 工作 中 或者 我们 这样 说 就是 我们 同样 是

训练 一个 Gemini 的 模型 同样 一代 的 模型 同样 的 这个 参 数量 那用 GPU 跟用 谷歌 的 TPU 谁 更

省钱 对 我 觉得 这 很 好 的 问题 我 的 理解 是 针对 自家 定制 的 大 模型 就 谷歌 的话 就是 Gemini 将来

如果说 谷歌 给 其他 大 公司 Fron tier 大 模型 工 定制 的话 我 觉得 谷歌 性价比 是 更 高 的 性价比 我 指

的 就是 它 的 TCO 就是 Total Cost All Owne rship 就是 它 的 成本 会 更加 有 优势 当 你 知道 你 的

work load 是 什么 的 时候 你 就 可以 根据 你 的 work load 去 做 一些 不管 是 物理 的 芯片 层面 的

一些 定制 或者说 在 软件 层面 去 定制 虽然 说 它 可能 有点 黑河 的 感觉 但是 就是 我 知道 相当于 给出 了

你 所有 的 assu mption 你 所有 的 已知 条件 都 确定 下来 那 我 觉得 TPU 在 现实生活 中 现实 条件 下 它 的

训练 效率 还是 TCO 都 是 会 比 TPU 更加 强大 的 刚才 我 也 提到 这两点 它 的 util izat ion

rate 是 更好 的 原因 第一 是 它 的 一个 flops 它 的 flops 我们 指 的 就是 单位 时间 内 它 做 多少 次 浮点 式

运算 是 对 所以 这样的话 因为 TPU 它 里面 主要 的 架构 就是 矩阵 计算 所以 它 软件 和 硬件 可以 保证 它

每次 每个 时间 每个 计算 单元 它 都 有活 在 做 我们 的 软件 相当于 是 帮助 硬件 说 我 不会 让 你 闲下来

每个 时间 点 你 都 给 我 做活 但是 你 具体 做 什么 活是 我 告诉 你 的 你 不 需要 去 精准 的 去 预测 或者

怎么样 所以 它 硬件 层面 说 我们 不会 加 很多 的 控制 单元 这 跟 GPU 很大 的 区别 就是 我们 不 需要

任何 的 pred iction 它 pred iction 那 一层 level 相当于 都 是 在 软件 层面 去 实现 的 对 所以 相当于 你 把

硬件 变得 更蠢 了 一点 相当于 是 一个 机械式 的 劳作 软件 那边 帮 你 把 所有 的 comp lexity 都 给 处理 掉

所以 这样的话 Iron wood 主要 有 两大 的 进步 一个 进步 就是 它 把 它 的 flop spea kflops 数值 上

跟 GPU 更加 接近 了 然后 另外 一个点 我 觉得 非常 非常 重要 就是 它 的 memory band width

也 是 有 一个 巨大 的 提升 首先 它 肯定 是 用 了 更 大 的 HBM 保证 了 一定 的 带宽 然后 第二点 就是

这个 HBM 的 带宽 它 能 被 软件 充分 的 去 利用 起来 更 高性能 的 HBM 它 现在 在 市场 上 从 供应链 的 环节

它 好找 货 吗 ? 非常

? 非常 难 找 因为 HBM 的话 首先 它 是 一个 非常 非常 有点 垄断 的 一个 感觉 一共 就 三家 公司

垄断 这个 生产 应该 是 SK Hynix 三星 和 Micron 因为 它 一直 是 HPM 最大 的 客户 然后 TPU 的话

一直 是 相当于 是 一个 seco ndary 的 一个 cust omer 所以 你 要 跟 那 三家 公司 去 确定 一个 订单

的话 我 觉得 是 需要 一个 良性 的 合作 关系 之前 的话 TPU 一直 没有 办法 获得 那么 好 的

HBM 或者说 那么 大 的 订单 那 现在 谷歌 TPU 它 的 产量 是 多少 具体 数据 我 不是 非常 清楚 但 我 觉得

也 是 在 一个 慢慢 的 爬坡 的 过程 当中 谷歌 TPUV7 之前 的话 一直 是 有 一个 产能 的 问题 我 觉得 也 是 一个

很多 因素 导致 的 因为 毕竟 E7 之前 我们 一直 没有 一个 对外 的 一个 生态 所以 我们 更

多 的 是 针对 内部 的 一个 deploy 和 使用 所以 我们 没有 办法 和 Brow con TSMC 或者 刚才 所说 的

那 几家 HBM 的 厂商 去 锁定 一个 很大 的 一个 订单 因为 产能 都 是 提前 一年 或 两年 去 锁定 的 当 你 没有

那么 大 的 客户 或 没有 那么 大 的 需求 的话 就是 你 临时 想 去 调整 是 比较 困难 的 一件 事情 然后 第二点 我 觉得

就是 一个 呃 CoOS 就是 CoOS 是 TSMC 的 一个 capa city 我们 可以 理解 成 我们 现在 的 芯片 都

是 跟 以前 完全 不 一样 因为 我们 现在 都 做 一个 code design 我们 的 HBM 内存 芯片 和 计算 芯片 是

两块 独立 的 芯片 通过 一个 2.5 D stac king 的 一个 封装 把 它 封装 成 一个 计程 芯片 这个

的话 TPU Google 自己 做不了 Broa dcoin 也 做不了 它 只能 依赖于 TSMC 所以 TSMC 给 你 分配

多少 的 产能 你 就 能 一年 达成 多少 的 产能 所以 TSMC 它 去 分配 产能 的 时候 它 也 可能 会 看 这个

谷歌 它 要 的 量 是 多少 如果 你 的 量 大 的话 比如说 像 英 伟达 它 的 量 就 比较 大 它 是不是 可能 会先 去

做 这个 英 伟达 的 量 凭 这个 订单 量 说话 然后 你 这个 Cowars 是 指 在 它 的 整个 的 封装 环节 的 一个 部分

就是 我们 可以 现在 产能 的 瓶颈 如果 我们 要 去 整体 的 总结 一下 就是 你 刚刚 提到 的 CoVe ase

跟 TSMC 这块 是 在 封装 上 的 一个 产能 然后 还有 一块 就是 HBM 它 是 高带宽 的 内存 供应

然后 这个 可能 也 是 一个 瓶颈 就是 由三大 垄断 巨头 去 把持 所以 主要 是 产能 主要 是 这两块 对卡 在

这两块 上 对 还有 一点 就是 良率 良率 的话 就 意味着 当 你 TSMC 把 一个 Wafer 就 生产 出来 之后 它

上面 这 一块 Wafer 上 有 多少 是 合格 的 芯片 因为 GPU 和 TPU 它 的 制造 理念 是 不 太 一样 的

TPU 它 更 多 是 主打 一个 通信 它 是 主打 一个 芯片 与 芯片 之间 的 通信 然后 这样的话 导致 它 的 中间

的 失败率 会 比 GPU 会 更 高 一些 然后 一旦 失败 了 因为 它 保证 整个 系统 里 每张 芯片 都 是 性能

大致 是 一样 的 是 的 如果 有 参差不齐 的话 它 整个 system 跑 起来 的 效率 就 不会 有 那么 的 高 但 GPU 可能 就

不 存在 太大 的 问题 因为 我们 都 知道 GPU 有 自己 阉割 的 版本 就是 H100A 100 所以 一旦 良率

不好 的话 它 可以 往 下降 级 对 但是 TPU 不 可以 但 你们 也 有 之前 比如说 你 现在 有 V8 然后 你 有 V7 你 还有

V6 它 不 可以 降级 吗 很 难 因为 是 定制 的 芯片 价格 都 会 不 太 一样 对 比较 难 不是 通用 的 芯片 所以 一旦 你

良率 不行 的话 就 这 一块 芯片 相当于 报废 了 所以 相当于 你 产能 就 没 办法 一下子 提上来 所以 这个 是

我们 刚刚 说 到 的 就是 生产 环节 中 的 然后 生产 环节 取决于 你 的 订单 的 量 因为 Anth erapic

它 其实 是 有 跟 谷歌 说 我 要 采购 你 100 万 的 TPU 100 万 应该 也 是 一个 很大 的 量级 吧 因为 达

现在 它 的 比如说 GB200 或者 H100 这些 可能 也 是 一个 百万 级 到 千万级 应该 是 千万级 千万级

所以 其实 我 觉得 谷歌 现在 看起来 这个 TPU 已经 是 在 蚕食 这 一块 的 市场份额 对 我 觉得 TPU

和 GPU 就 很 难 是 同一个 维度 的 去 考量 吧 或 去 评价 我 觉得 Anth orovic 这个 订单 确实 是 挺 大

的 一个 订单 我 觉得 第一 有 很多 的 因素 吧 第一 我 觉得 Anth orop ics Google 是 一个 相对 于 内 循环 因为

Anth orop ics 很多 投资方 也 是 Google 所以 我 觉得 Anth orop ics Google 是 一个 深度 合作 的

一个 关系 相当于 如果说 是 Meta 或者 其他 的 公司 的话 我 不 确定 他 的 成本 他 的 TCO 到底 能

不能 压 得 下来 然后 第二点 的话 我 觉得 就是 Anth orop ics 他 的 工程师 的 技术 能力 还是 非常

非常 强 的 所以 他们 能 去 用 TPU 来 部署 他们 自己 的 自家 的 模型 然后 就 我们 当然 可以 详细 聊

一下 为什么 TPU 的 部署 在 一般 exte rnal third - party cust omer 上 那么 的 难 但 我 觉得

Anth erapic 目前 来讲 是 有 这样 一个 谷歌 的 生态 的 我 是 这么 觉得 所以 Anth erapic 拿下 这个

订单 我 觉得 也 是 有 很多 因素 在 里面 那 我们 就 顺着 继续 讲 一下 Anth erapic 它 是不是 跟 谷歌 的 整个

的 软件 生态 有 关系 因为 我们 说 在 TPU 上要 搭 一层 软件 然后 我 听说 过 这样 一个 说法 就是说

因为 Anth erapic 他们 的 很多 人 最 开始 是 在 Google 的 所以 他们 其实 是 非常 了解 TPU 上 的 这 一套

软件 生态 的 所以 他们 可以 用 TPU 去 训练 模型 回答 这个 问题 之前 我们 可以 先 简单 聊 一下

XLA 吧 因为 XLA 也 是 Google 的 一个 你 可以 理解 成 黑盒 也 可以 理解 成是 一个 secret sauce 对 我

觉得 XLA 和 Kuda 最大 区别 XLA 是 一个 静态 的 一个 编译器 然后 静态 编译器 指 的 就是 当

你 的 work load 是 已知 的 或者 给定 的话 它 可以 在 一个 全局 的 TPPOD 的 一个 system level 它 可以 把 它

做 一个 全局 的 优化 优化 分 很多 层面 我 知道 就是 他们 会 做 很多 内部 的 算子 融合 比如说 你 一个 kernel

里面 有 很多 计算 然后 它会 把 一些 计算 合并 到 一个 计算 单元 一个 算子 这样的话 你 能 更好 的

去 利用 你 的 Hist olic Array 里面 的 矩阵 计算 的 利用率 然后 你 中间 的 中 心态 结果 你 不用 反复 的 存进

内存 存 出来 XLA 会 帮 你 自动 做 这样 的 优化 然后 它 还 会 做 很多 的 一些 内存 的 管理 怎么 去 更好 的 去 分布

你 的 内存 他 知道 TPU 怎么 喜欢 怎么 从 内存 里面 去 把 数 给 读出来 这些 东西 都 是 跟 硬件

架构 和 一些 具体 的 细节 是 非常 非常 相辅相成 的 所以 XLA 会 通过 一个 黑盒 帮 你 去 优化 这样 的 一件

事情 但 问题 就是 这个 这个 事情 你 是 没 办法 去 很 好 去 debug 和 去 控制 对 就 开发者 他 很

难 去 用 XLA 这套 系统对 对 然后 一个 是 编程语言 他们 不会 对 吧 对 他 用 的 是 什么 编程语言 这样

XLA 它 是 一个 编译器 它 上层 是 Pyto uchJAX 和 Tens orFlow 相当于 你 的 开发者 你 可以 写 任何

一样 的 语言 然后 他 通过 XLA 可以 把 你 转化成 TPU 的 Asse mbly Code 就是 TPU 的 指令

所以 他 中间 是 做 一个 翻译 的 工作 翻译 加 优化 所以 如果 对应 英 伟达 的话 对应 的 就是 CUDA

的 整个 生态 体系 对 那 我们 说 就是 我们 刚刚 提到 其实 Anth eropic 他们 是 有 工程师 去 懂 XLA

的 这套 体系 的 然后 Anth eropic 他 现在 应该 已经 是 用 谷歌 的 TPA 去 train 了 一些 模型 对 不 对

就 已经 有 这样 的 一些 成果 了 因为 我们 知道 在 GPU 去 训练 模型 的 过程 中 工程师 经常 会 遇到 的 问题 就是说

它 有 一个 bug 然后 我 需要 去 解决 它 然后 我 需要 在 它 的 这个 软件 的 编译器 上 比如说 Cuda 的 生态

上去 看看 是 哪个 环节 出 了 问题 然后 把 它 解决 掉 那 现在 如果 是 用 谷歌 的 TPU 出 了 问题 刚刚 你

也 提到 了 XLA 它 是 一个 黑核 那要 怎么 去 解决 呢 是 必须 找谷歌 的 工程师 来 解决 还是 他们

自己 就 可以 解决 你 可以 理解 成 XLA 是 黑盒 但是 它 里面 有 很多很多 的 帮助 你 去 debug 的 一些 工具 和 一些

func tion 但 它 问题 就是 你 需要 对 硬件 是 有 一些 了解 你 才能 更好 的 去 分析 它 因为 它 XLA 它会 把

很多 算子 做 融合 然后 内存 做 管理 这样的话 它 是 一个 graph 它 不是 一个 单个 的 计算 它 是 一个 链条

一个 图表 所以 相当于 你 这样 debug 起来 它 对 工程师 的 要求 会 更 它 是 可以 debug 但 对 工程师

的 要求 会 更 高 一些 所以 Anth erapic 找 你们 了 在 训练 的 过程 中 因为 一旦 发现 XLA 的 bug

你 就 必须 让 Google 的 工程师 来 去 帮忙 去 分析 去 解决 如果 真的 是 个 bug 需要 去 解决 就 外部 的

开发者 很难 独立 去 处理 一个 或 fix 一个 bug 不像 CUDA 的话 是 有 一个 很 好 的 生态 你 可以 去 对

对 对 所以 你们 大概 比如说 因为 有 卖 一些 TPU 给 Answ erRo dpick 你们 会 有 多少 人 的 一个

工程师 团队 去 支持 他们 这个 就是 项目 中 遇到 的 各种 bag 的 问题 我 是 做 硬件 的 嘛 我们 有 很多

软件 组 专门 去 对接 不同 的 客户 像 我们 现在 可能 之前 他们 是 有 Apple 有 Midj ourney 然后

Anth oropic 他们 都 是 会 有 很多很多 的 requ est 就是 我 离职 之前 的话 也 听说 他们 很多

组都 是 非常 非常 忙 的 是 的 我 昨天 听说 就是 用谷歌 的 TPU 最大 的 团队 其实 不是 Answer

Raw Pick 虽然 他们 下 了 一个 100 万 的 订单 之前 模型 上 也 有用 过 最大 的 团队 其实 是 苹果 对 对 ,

然后 苹果 是因为 就是 庞若铭 之前 在 这个 Google 然后 他 去 苹果 的 时候 , 他 就是 相当于 把 谷歌 的

一整套 带 过去 了 , 然后 又 直接 用 的 这个 TPU 去 训练 他们 的 这个 大 模型 。

这 我 觉得 也 牵扯 到 一个 软件 债 的 迁移 嘛 , 就是 你 要 用 TP 的话 , 你 必须 要 把 原来 的 一套 软件 债

全部 迁移 到 JAXXLA 上 , 如果 你 不 迁移 的话 , 你 当然 可以 去 做 它 能 跑 但 你 就 利用 不到 TPU

那么 好 的 性能 和 TCO 。 就要

。 就要 把 它 的 性能 榨干 。

对 , 因为 如果 现在 目前 TPU 它 相比 GPU 它 最大 优势 就是 它 成本 控制 的 很 好 相比 起 芯片

它 更 多 是 依赖于 软件 。

那 你 觉得 Google 的 这个 Gemini 它 的 模型 , 因为 它 现在 应该 是 市场 上 最好 的 模型 , 它 的 训练 出来 跟

TPU 的 关系 有 多 大 ?

我 觉得 关系 是 很大 的 能 占 决定性 因素 吗 还是 算法 其实 是 占 决定性 因素 的 一部分 算法 当然 很 重要

因为 我 觉得 现在 就是 训练 特别 是 pre - trai ning 它 kpex 很大 然后 它 算法 我 觉得 D

- mind 那边 有 非常 非常 前沿 的 算法 TPU 能 帮 你 去 做 的 一件 事情 当 你 有 一个 很 好 的

算法 之后 然后 你 提前 跟 TPU 子 沟通 好 我 是 怎么样 的 一个 算法 我 怎么样 的 一个 work load 我 给

你 去 定制 这样 的 一个 加速器 这样的话 我能 帮助 你 在 一个 更 短 的 时间 更快 的 迭代 去 测试 这样 一套

算法 我 觉得 这是 一个 很 重要 的 一个 事情 就是 如果说 你 的 训练 效率 很差 的话 你 需要 花 更长

周期 去 验证 一套 算法 是否 能 work 但 TP 如果 能 把 你 的 时间 打 下来 之后 的话 迭代 速度 会 就 会

更 快 一些 对 你们 定制 这样 的 一个 芯片 大概 要 多久 六成 对 我 觉得 这是 非常 任何 芯片 公司 的

一个 痛点 吧 包括 TPU 包括 GPU 他们 很多 时候 都 是 在 预测 未来 市场 的 变化 包括 预测

未来 模型 的 变化 之前 知道 MOE 的话 也 是 很早 有 这样 的 一个 想法 MOE 很长 一段时间 在 TPU

和 GPU 上 跑 的 效果 都 不是 特别 好 但是 后来 TPU 增加 了 和 软件 一起 增加 针对 MOE 的 优化

那 是 哪一年 应该 是 V4V5 V4V5 那好 早 V4V5 应该 是 在 模型 刚刚开始 出来 的 时候 对 对 对 具体 是 2022

年 23 年 23 年 那太早 了 可以 详细 介绍 一下 就是 为什么 之前 MOE 一直 在 TPU 上 跑 不 起来

的 原因 就是 因为 它 是 一个 2D tower 相当于 你 每个 TPU 芯片 只能 跟 它 的 neig hbor 相应 TPU

芯片 做 通信 它 不是 一个 all to all 的 一个 comm unic ation 这 意味着 如果说 MOE

的话 它 要 有 一个 rout ing 的 一个 phase 它 需要 把 它 的 rout ing 给 不同 的 专家 它 不同 专家

分布 在 不同 的 芯片 上 所以 如果说 你 没有 一个 all to all 的 conn ection 的话 你 这样的话 中间 你

就 相当于 你 要 找 一个 朋友 你 中间 要 经过 很多 个 环节 经过 很多 这样的话 有 很多 的 浪费 很多 的 拥堵

然后 后来 在 V4 的 时候 TPU 推出 了 一个 叫做 3D Taurus 他用 了 一个 叫做 OCS 一个 光纤 的

一个 交换机 他 相当于 这是 一个 soft ware prog ramm able 的 conf igured 的 一个 交换机

相当于 的话 你 在 一个 TPUPod 的 一个 节点 你 可以 通过 软件 来 更改 你 想 通信 的 那个 TPU 集群 的 一个 路径

这样的话 就 相当于 一下子把 MOE 的 一个 痛点 给 去 解决 了 然后 之后 的话 MOE 就 在 TPU 上 跑 起来

效率 就 会 明显 比 之前 高 很多 所以 我 理解 这个 迭代 是 以 年 来 计算 的 因为 你 设计 出来 了 还要 量产 对 吧 对

对 量产 的 节奏 一般 是 多久 啊 半年 半年 打 得 下来 吗 打 不 下来 对 对 我 觉得 看 就是 每家 公司 的 phil osophy

都 不 一样 对 像 TPU 的话 一直 都 是 主打 说 我 一定 要 做 一个 旗舰 的 一个 trai ning chip 或 旗舰

的 infe rence chip 一直 以来 都 是 这样 的 一个 想法 所以 说 这 对 快速 迭代 要求 会 非常 非常 高

因为 你 每 一代 新品 都 会 塞 很多很多 样 的 requ est 然后 相当于 整个 流程 当 你 设计 完 然后 我们 会

做 验证 然后 再 交给 Broa dcom 去 做 通信 上面 的 那些 设计 然后 在 整个 pack age level

再 做 验证 最后 交给 GNSMC 我 觉得 整个 流程 最快 最快 也 要 两年 到 两年 半 三年 所以 我们 今天

看到 的 就是 你 刚刚 提到 谷歌 已经 更新 到 V7V8V8 的 这 一款 了 这 一款 我 理解 它 在 设计 上 它 是 两年

以前 就 做 了 但是 我们 说 就是 模型 的 更新 包括 模型 里面 大家 核心 的 这个 算法 往 哪个 方向 走

最近 我 觉得 基本上 是 每 六个月 可能 就 会 变化 一次 也就是说 你 要 在 两年 前去 预测 两年 以后 的 这个

模型 它 在 往 哪个 方向 走压 对 了 吗 目前 来讲 V7 应该 是 压队 了 这个 是 为什么 可以 解释一下 为什么

之前 TPU 芯片 和 GPU 的 纸面 参数 上 是 有 一些 挺大 的 距离 的 因为 之前 TPU 的 主要 的 work

load 是 内部 的 一些 reco mmen dation 和 rank ing system 的 算法 所以 他 可能 没有 想到 GPT

出来 之后 有 这样 一个 大 的 需求 和 对算力 上 一个 那么 大 的 一个 需求 它 针对 reco mmen dation rank

ing 是 完全 不 一样 的 work load 它 里面 我 之前 我 参与 也 是 设计 了 一道 一个 模块 叫做 spot

core 吸收 计算 的 一个 模型 它 是 专门 针对 一个 reco mmen dation 的 一个 embe dding 它 这个 layer

的 一个 一个 算法 做 了 一个 特定 的 优化 但 那个 优化 里面 它 没有 很 稠密 的 矩阵 计算 它 更 多 是 一 比较

稀疏 的 矩阵 计算 , 所以 我们 针对 它 我们 做 了 很多 算法 , 所以 它 牺牲 掉 一些 那个 矩阵 的 那个 算术 的

密度 , 那 时候 我们 发布 出来 之后 感觉 GPU 好像 做 矩阵 计算 比 GPU 更好 了 一点 , 是 V 几 的

版本 , 那 时候 应该 是 V4V5 对 它 开始 把 它 所有 的 这个 核心 性能 往大 模型 的 预 训练 上调 是 哪 一代

然后 是 哪一年 对 应该 就是 V6 吧 V6 开始 的 V6 开始 我 记得 应该 是 做 了 两个 版本

一个 是 专门 做 训练 一个 专门 做 Infe rence 对 , 训练 和 Infe rence 其实 本质 上 他们 是 用 的 是 同

一套 架构 Infe rence 可以 理解 成是 训练 芯片 的 一套 字棋 吧 它 可以 有 更 小 的 运算 单元 它

可以 有 更 小 的 内存 因为 相比 trai ning 的话 Infe rence 它 不 需要 做 back prop agat ion

反向 传播 所以 它 不 需要 很多 的 那种 中间 不 需要 存储 很多 的 一个 副本 差不多 是 在 也 是 在 两年

多 两三年 以前 去 开始 调整 这个 方向 的 其实 GPT 它 是 在 2020 年 它 就 有 一个 版本 放

出来 当时 是 GPT3 嘛 就 谷歌 那个 时候 它 已经 开始 就是 意识 到 这 是 一个 next big thing

然后 它 又 去 做 这个 芯片 上 的 调整 或者 TPU 上 的 调整 对 其实 谷歌 很 早就 开始 因为 Tran sfor

mer 也 是 Google 出来 的 嘛 谷歌 很 早就 开始 知道 Tran sfor mer 这套 架 然后 根据 这套 架构

我们 芯片组 我们 也 知道 我们 会 去 做 这 一套 架构 的 一些 去 优化 包括 Tens ion Kernel 啊 就 看到 就

已经 在 内部 里面 你 知道 了 你 这样 说 我 突然 想 起来 就是 我 觉得 谷歌 的 TPU 到 现在 它 能 在 整个 的 模型

预 训练 中 性能 表现 非常 的 优秀 也 是因为 Tran sfor mer 这套 架构 是 谷歌 发明 的 然后 从 TPU 的 这个

诞生 开始 它 就 一直 走 的 是 这 一条 的 路径 所以 我们 其实 也 可以 把 TPU 理解 成 一个 针对 于 大 模型

预 训练 或者 推理 的 ASIC 这样 说 是 对 的 吧 没 问题 没 问题 然后 你 这个 ASIC 就 一定 要压 对 方向 他 压到 了

Tran sfor mer 没 问题 对 因为 我 觉得 有点 insi der news 的 感觉 我们 知道 Tran sfor mer

大概 模型 什么 价格 比起 行业 外 我们 更 大地 知道 这样 的 一手 信息 更 大地 知道 它 是 怎么样

的 一个 work load 所以 我们 相当于 是 有 一个 先发 的 优势 但 我们 的 问题 就是 本质 上 ASIC 和

GPU 它 就是 一个 是 通用性 好 一个 通用性 不好 就是说 即使 我们 有 一手 的 信息 但是 你 一旦 确定 了 ASIC

它 是 没 办法 去 改变 的 所以 说 GPU 顺 就 顺 在 它 因为 现在 模型 迭代 周期 非常 非常 短 都 是

以 月 来 做 单位 所以 一旦 你 的 芯片 架构 固定 下来 之后 你 一旦 有个 新 的 算法 上 的 一个 动态 的

一个 改变 的话 你 在 GPU 上 就 很 难 去 实现 这样 一件 事情 即使 你 有 宣发 优势 但 后面 的 竞争 会

越来越 激烈 这样的话 你 的 宣发 优势 可能 也 会 慢慢 被 蚕食 我 觉得 有 一个 阶段 就是 GPU 因为 它 通用性

好 所以 它 GPU 上去 跑 模型 的 迭代 速度 会 比 TPU 更快 一些 那 现在 是 哪个 阶段 ?

TPU 更快 ?

目前 V7 是 感觉 跟 GPU Blac kRaw 已经 是 旗鼓相当 了 V8 呢 ?

V8 目前 不能 透露 但是 技术细节 肯定 是 不能 透露 但是 刚刚 提到 MOE 这样 一个 架构

TPU 在 芯片 或 通信 层 它 去 解决 这样 一个 问题 但是 我 担忧 的 一点 就是 这 一套 架构 它 的 scal

abil ity 到底 有多强 如果说 将来 有 一个 完全 不同 的 一个 范式 完全 不同 的 一个 模型

然后 你 没 办法 在 TPU 上 做 这样 的 去 优化 对 然后 GPU 上 可以 是 的 这样的话 你 定制 芯片 因为 TPU

团队 跟 GPU 不是 一个 量级 的 你 没 办法 做 一个 快速 的 迭代 这样的话 你 的 性能 上 差距 可能 就 会 被

拉 打 所以 我 觉得 这个 很难 去 评判 现在 我 觉得 就是 可能 是 我 对 GPU 的 一个 担忧 吧 就是 万一

将来 有 一个 不同 的 范式 它 怎么 去 跟上 GPU 的 部分 我们 刚刚 提到 了 就是 如果 整个 大 模型 它 的 训练

范式 变 了 然后 就 会 影响 到 整个 TPU 它 的 销量 你 的 这个 范式 指 的 是 就是 有 多 大 的 范式 调整 我 可以

举个 例子 就 比如说 如果 我们 整个 以 Tran sfor mer 为 底层 架构 的 这样 的 一个 范式 变 了 的话 那 我

理解 TPU 没用 了 对 吧 我 可以 这样 说 吗 不 完全 准确 , 就是 Tran sfor mer 它 核心 还是 矩阵

计算 , 对 , 矩阵 计算 的 矩阵 计算 的 如果 这样 的 一个 , 但 这样 应该 不会 , 应该 不会 , 对 , 应该

不会 , 但是 我们 就是说 如果 出现 了 类似 于 不同 一 Tran sfor mer 的 新 的 架构 那 TPU 它 就

不 一定 有 这个 GPU 它 的 表现 好 那 如果 是 在 模型 层面 , 就 像 你 刚刚 说 的 , 比如说 有 一些 这种

MOE 的 , 一些 新 的 方法 的 微调 但 它 还是 基于 整个 Tran sfor mer 的 这种 你 觉得 TPU 未来 它

还是 会 持续 的 占优势 吗 包括 大家 现在 很 热 的 说 我 要 用 这个 RL 的 方式 去 做 Agent 的 训练 或者 去

做 模型 的 训练 就是 RL 对 TPU 的 影响 会大 吗 我 觉得 肯定 是 会 会 是 不 一样 的 work load 的 肯定 是 会

有 影响 就是 我 觉得 像 TPU 这个 策略 就是 把 芯片 变得 更加 的 通用 我 觉得 是 在 往 这样 一个 方向 去

发展 相当于 它 矩阵 单元 它 可以 处理 各种 work load 的 矩阵 计算 然后 它 也 有 专门 负责 去 处理

一些 西出 的 矩阵 计算 的 一些 单元 它 可以 理解 成 把 很多 硬件 上 的 一些 计算 和 内存 模块化 来 适应 将来

不同 的 那个 方式 所以 从 某种意义 上 来讲 也 是 一个 相 通用性 的 一些 妥协 了解 对 我 觉得 之前 以往 几代

芯片 可能 设计 的 没有 那么 激进 的 原因 也 是 有 一部分 的 考量 就是 如果 一旦 你 设计 的 非常 激进 你

可以 在 GEMMA 上 模型 效率 可以 提升 个 30% 到 40% 但 万一 有 变化 呢 万一 有 变化 那 你 回去 的话 你

就 会 非常 非常 的 痛苦 所以 我 觉得 这是 一种 基于 现实 的 一种 comp romise 我 觉得 然后 我们

刚刚 提到 了 就是 整个 在 适应 新 的 算法 方向 的 从 设计 层面 的 调整 那 还有 一个 我 觉得 谷歌 最近 也 比较

用力 的 就是 在 软件 层 让 整个 的 中间 的 软件 能够 适应 更 多 的 开发者 的 调整 我 最近 是 看到 一条 新闻 说 这个

Google 跟 Meta 也 有 一个 这样 的 TPU 的 采购 协议 然后 谷歌 向 Meta 提供 这种 TPU 的 托管

的 服务 但是 呢 就是 他 可能 核心 想 做 的 就是 把 PyTo uch 变成 这个 TPU 的 一个 中间层 类似 于 像 谷歌

的 库大 生态 这样 的 一个 就是 比如说 大家 在 做 编译器 的 时候 可以 用 PyTo uch 来 编译 我 有 了解

当然 具体 的 细节 还 没有 公开 嘛 所有 的 Meta 都 是 用 PyTo uch 大家 应该 是 众所周知 所以 但 PyTo

uch 刚才 我 有 提到 它 跟 TPU 的 生态 其实 不是 特别 的 兼容 所以 它 很 难 像 Anth orpe 那样 它

也 做 一个 深度 的 一个 对 TPU 整个 软硬件 生态 的 一个 使用 目前 来讲 我 觉得 它 可能 更 多 是 依托

于谷 歌云谷 歌 cloud 提供 更多算力 因为 包括 Mihara 今年 它 其实 股价 不是 那么 好 的 原因 也

是因为 kpax 太大 了 它 对 特别 预训炼 这块 的 成本 支出 实在 是 需求 非常 非常 的 大 它 已经 把 市面上

所有 能 买来 的 算力 都 都 买来 了 去 做 这样 一件 事情 所以 我 觉得 TPU 相当于 目前 来讲 也 是 去 帮 它

去 offl oad 一些 它 这方面 的 一些 压力 软件 态 的话 PyTo uch 很早 之前 就 跟 TPU 包括

Fair 那个 团队 也 跟 TPU 都 都 有 接洽 就是说 能 不能 在 TV 上 更好 去 支持 Pyto uch 这样的话 我们 也

更好 地去 做 一些 rese arch 的 开发 但 目前 来讲 我 觉得 Google 也 是 有 在 去 做 一些 改变 了 离职

之前 也 知道 有 很多 组在 做 Pyto uch 和 XLA 的 结合 包括 在 XLA 和 TPU 上 支持 很多

native 的 一些 PyTo uch 的 一些 libr ary 一些 并行 的 libr ary 和 一些 算子 因为 现在 PyTo

uch 的 算子 实在 是 太 多 了 它 可能 有 好几千 个 算子 如果 你 不 在 硬件 上 原生 的 去 支持 这些 算子 的话 你

的 性能 表现 就 会 比较 差 一些 那 所以 如果 大家 直接 用谷 歌云 呢 当然 可以 问题 是 什么 问题 就是

直接 用谷 歌语 的话 相当于 你 把 你 相当于 脱管 了 你 没 办法 做 很多 底层 的 去 控制 如果 你 想 去

挖掘 每一分 的 性能 的话 你 从 谷 歌语 就 没 办法 去 做 这样 的 事情 这 是 会 有 浪费 会 有 浪费 这个 浪费

大概 会 在 一个 多少 的 百分比 这 很难说 多少 到 多少 一个 大概 的 比例 比如说 50% 它 可能 是 一个 非常 大

的 浪费 10% 它会 稍微 小 一点 对 这 就是 我 刚才 说 到 就是 那个 model util izat ion rate 如果说

你 结合 的 非常 好 的话 你 能 几乎 满 状态 的 达到 一个 peak flops 或 peak memory band width 但是

如果 你 有 谷歌 语音 来 跑 的话 你 很 有 可能 就是 可能 用到 只有 50% 60% 它 的 util izat ion

rate 但是 你 还是 要 付 同样 的 钱 对 吧 那 区别 还是 挺大 的 对 所以 现在 Meta 跟 Google 的 合作 反而 我

是 看 新闻报道 啊 我 觉得 好像 是 在 这个 谷歌 的 谷 歌云上 跑 对 吧 对 对 对 目前 我 知道 直接 购买

TPU 机架 的 REC 直接 从 Broc kon 购买 应该 只有 Anth ropic 其他 都 还是 目前 还是 谷歌云

所以 苹果 跟 Mate Jour ney 也 是 在 谷 歌云上 跑 的 嗯 那 这样 也 简单 就 从 谷 歌招 工程师

过去 对 对 对 人才 的 流动 所以 谷歌 的 工程师 现在 应该 是 就是 还 挺 吃香 的 对 我 觉得 如果 将来 有 很多 更

多 的 第三方 加入 的话 特别 是 Jaxx xLA 这 其实 是 一个 非常 非常 高 技术壁垒 的 一个 工作 吧 所以

特别 是 我 觉得 如果 之前 在 谷歌 有 这样 的 经验 的话 能 更好 地 迁移 过去 多长时间 能 学会 一个 工程师 还是

挺难 的 挺 难 的 因为 你 需要 了解 硬件 也 需要 了解 软件 它 是 一个 复合 技能 复合 技能 对 然后 我们

看到 就是 在 今年 就是 包括 就是 之前 就 很多 开发者 他 在 调 这个 大 模型 的 API 接口 的 时候

其实 我 注意 到 谷歌 的 这个 API 接口 的 成本 大概 最 开始 是 只有 OpenAI 跟 Azer opik 的 十分之一

同时 呢 这个 Azer opik 他 最近 的 4.5 他 的 这个 API 接口 大概 是 下降 我

觉得 Google 它 现在 的 推理 芯片 成本 确实 会 比 GPU 要 高 不少 它 的 原因 就是 刚刚 所说 它

是 一个 集群 的 一个 推理 它 的 TCO 就 能 打 得 下来 刚刚 他们 没有 提到 一点 就是 GPU

的 集群 它 用 的 是 一种 NV Link 和 NV Switch 这样 的 一种 通信协议 这个 其实 很 烧钱 , 你 可以 理解

成是 一种 infr astr ucture 的 一种 tax 所以 你 需要 跟 很多 不同 厂商 去 买 这种 交换机 然后

部署 在 你 的 数据中心 当中 , 这是 一个 很大 的 成本 开支 Google 因为 它 用 了 它 不 一样 的 一个 拓扑 它

用 了 一个 是 芯片 与 视频 片 之间 直接 通信 它 用 的 是 个 铜 它 不用 交换机 然后 它 只有 在 某些 节点

上用 一些 光学 交换机 但 也 比较 少 然后 实现 了 同样 的 一个 通信 的 一个 效果 所以 它 在 一个 成本

支出 上 就是 会 比 GPU 要 好 很多 所以 就是 我 理解 在建 数据中心 的 这 一环 成本 已经 拉开 了

已经 拉开 了 NVIDIA 的 主要 成本 是 交换机 嗯 我 了解 到 他们 在 搭 的 整个 的 这个 芯片 机群 里面 还要 铺

很多 的 铜 是不是 是不是 他们 都 是 用 这种 铜 的 这个 线来 连接起来 的 对 对 对 那 谷歌 的 主要 成本 是 什么 呢

是夜 冷 呢 夜 冷 是 一块 吧 夜 冷 是 一块 然后 其实 跟 英文 达 也 差 不太多 它 也 主要 成本 也 是 它

的 一些 3DX 它 的 那个 我们 会 跟 Bloc kon 深度 合作 一些 这种 3DX 就 当 于是 把

信号 从 一个 芯片 准确无误 地 传输 到 另外 一个 芯片 因为 相比 GPU 的话 TPU 它 更 多 依赖于

Curi dus 的 一个 稳定性 所以 它 的 那块 质本 支出 还是 很 高 的 然后 你们 跟 Broc kham 的 这个 合作 会

持续 多久 还是 它 是 根据 量 来 的 如果 量 大 了 谷歌 可能 就 自己 做 了 对 因为 现在 市面上 有 两家 公司 做

这样 的 代工 一家 是 Broc kham 另外 一家 是 Marvel 然后 Broc kham 和 Marvel 对 大 的 区别 就是

Broc kon 有点像 2B 它 是 一个 2B 的 一个 busi ness 它 就 锁定 几个 最大 的 客户 然后 跟 他们 做

深度 的 合作 和 定制 然后 Mavle 的话 可能 更 多 是 跟 一些 中型 或者 一些 star tup 他们 可能 说

提供 一个 IP 的 一个 solu tion 它 可能 不会 给 你 的 模型 去 深度 去 定制 一些 硬件 但 它 可能 会 做

一个 量 然后 Broc kon 它 好处 就是 可以 帮 它 最大 的 客户 去 争取 最大 的 产能 就是 CoOS TSMC 所以 说

一直 以来 TPU 都 是 跟 Brow con 去 做 这样 一个 合作 也 是 目前 我 不 觉得 会 有 很大 的 改变

但 这样 导致 的 一个 不好 的 问题 就是 Brow con 的 溢价 钱会 越来越 大 相当于 你 在 中间 TPU

能 赚 的 margin 会 越来越少 如果 你 非常 依赖 Brow con 然后 你 没有 一个 backup 的话 就 像

有点像 TPU 和 GPU 的 关系 一直 以来 TPU 是 GPU 的 一个 back out 也 是 有 溢价 权

的 考量 在 里面 所以 如果 你 没有 一个 back out 的话 , 你 在 成本 上 就 很 难 控制 下来 , 所以 我 觉得 这

也 是 将来 可以 关注 的 一个点 。 所以

。 所以 谷歌 它 能 直接 跟 Cowos 这 一块 来 溢价 吗 ?

决定 的 核心 要素 是 什么 ?

Coward 主要 还是 那个 HBM 就是 我们 的 那个 内存 的 一个 封装 所以 这样的话 相当于 我 的 理解 是

Broa dcom 是 一个 中间 的 环节 它会 把 所有 的 东西 全部 帮 你 铺设 好 , 然后 它 交给 TSMC 去 量产 所以

我 觉得 第一 你 需要 去 拿到 一个 很 高 的 很 好 的 一个 HBM 的 一个 capa city 再 通过 Broa

dcon 去 跟 TSMC 争取 一个 好 的 coach 我 听说 现在 整个 HBM 的 这个 capa city 被 英

伟达 垄断 了 , 基本上 是 垄断 了 , 对 , 因为 刚才 有 提到 嘛 因为 HBM 现在 我们 已经 慢慢 从

comp ute bound 名称 memory bound 特别 是 像 现在 的 atte ntion kernel 它 其实 核心 就是

一个 你 怎么样 去 更 快 的 从 内存 里 把 数据 给 搬运 出来 因为 它 的 KB cach ing 它 里面 有 很多

数据 的 一些 搬运 嘛 未来 几年 的 方向 可能 就是 HBM 能 决定 着 你 的 上限 如果 你 还 缺 如果 你 买不到

好 的 HBM 的话 那 你 的 清理 效率 就 会 所以 博通 的 主要 核心 的 作用 是 在 这 一块 博通 主要 的

核心作用 它 是 做 很多 的 通信 ICI Inte rchip Conn ect 然后 它会 做 很多 的 后 端 因为 我们 芯片

的话 我们 TPU 团队 主要 设计 它 的 前端 比如说 我们 相当于 是 把 一张 图纸 给 打印 出来 然后

Broc kon 会 把 每个 芯片 芯片 之间 物理 上去 连接起来 然后 最后 交付给 TSMC 在 物理 上去

生产 出来 所以 Broc kon 更 多 是 做 一个 信号 的 连接 怎么 去 布局 这样 一个 托铺 的 一个

网络 所以 Bloc kon 可能 是 在 这 一边 也 是 挺 核心 的 一个 环节 非常 核心 而且 是 一个 技术壁垒

非常 非常 高 的 一个 环节 因为 现在 目前 一旦 信号 里面 有 问题 的话 那 整个 机群 就 不能 用 了 所以

这是 一个 你 可以 理解 成 脏活 累活 但 你 也 可以 理解 成 这 是 一个 非常 非常 吃惊 艳 的 也 是

技术壁垒 非常 非常 高 的 因为 Bloc kon 他们 那边 的话 主要 是 一个 一个 复合 的 一个 信号 我们

TPU GPU 都 是 一个 数字电路 但 那个 是 一个 mixed signal 是 一个 模拟 电路 加 数字电路 所以 它 对 经营 要求 会

更 高 一些 就是 如果 我们 用 一句 话 来 总结 你 觉得 现在 谷歌 的 TPU 可以 挑战 英 伟达 的 在 GPU

的 垄断 地位 吗 或者说 至少 是 我 去 阻挠 一下 这个 英 伟达 在 这个 市场 上 绝对 的 定价权 没有 绝对 答案 但

我 的 结论 是 在 某些 限定 的 条件 下 如果 一旦 满足 这些 限定 条件 我 觉得 TPU 是 完全 可以 挑战

GPU 的 限定 条件 就是 一个 大规模 部署 因为 TPU 它 主打 就是 走量 如果说 TPU 它 其实 不太

擅长 做 一件 事情 就是 它 没 办法 针对 一个 单用户 比如说 做 agent 它 就 不 太 适合 因为 它 延迟 会

比较 高 一些 推理 芯片 也 不行 是 吧 现在 的 提升 但是 它 比起 像 Groke 比起 因为 它 的 它 的 可塑性 就 没有

那么 强 所以 它 必须 在 一个 非常 大 的 一个 吞吐量 下 比如 有 很多很多 用户 同时 去 去 调用 这个 接口 很多很多

用户 同时 去 用 Gamron 然后 HGPT 它 才能 把 这个 成本 给 分摊 开来 这样的话 它 能 得到 一个 很 好 的

一个 吞吐量 所以 在 这种 情况 下 大规模 部署 然后 模型 相对 比较稳定 它 不 需要 很多 的 变动 这样的话

它 的 整体 的 成本 就 相比 GPU 有 很大 的 优势 那 我 的 总结 就是 当 如果 你 的 模型 相对 比较 固定 不 需要

很多 的 改变 然后 它 的 形态 也 是 比较 静态 的 形态 TPU 是 非常适合 去 大规模 部署 的 比如说 你 已经

训练 好 了 一套 模型 然后 你 只 需要 去 做 Infe renc eTPU 它 的 一个 System Level 的 优化 能力 软 一键

协动 能力 能 帮助 你 的 这 一套 模型 能 把 成本 控制 在 一个 非常 好 的 一个 范围 之内 这 也 是 TPU 最大 的

优势 但 它 有 它 的 前提 就是 它 必须 是 一个 非常 大 的 用户 在 用 很多 的 用户 在 用 它 不 太 适合 去 做 本地

的 部署 然后 它 很 适合 在 语营 上去 用 很 适合 比如说 你 Gemini , JGPT , Cloud 这种 每天 都 有

Mill ions of users 这样的话 它会 把 成本 分摊 给 每个 user 但 如果 它 去 做 推理 的话 它 的 延迟

会 有 多少 就是 跟 普通 的 这种 GPU 相关 的 这些 agent 来 比 大家 可以 去 看 它 官方 的 docu ment

ation 它 的 延迟 做 的 也 是 非常 非常 不错 的 但 它 没有 写 的 就是 它 需要 有 一个 大 用户 它 我们 内部 会 有 一个

batch 就是 你 可以 理解 成 多少 个 quev ers 多少 个 requ est 你 如果 每一秒 你 没有 很多 足够 多 的 用户

的话 它 TPU 没 办法 软件 把 它 打包 成 一个 很大 的 一个 矩阵 计算 然后 就 很 好 地 去 利用 这个 计算

计算 的 这个 计算 密度 所以 如果 你 只有 你 一个 用户 的话 那 你 的 成本 就 会 很 高 了 就是 用户

规模 数越 大 它 反而 越 快 即使 在 推理 上 也 是 这样 就 如果 你 是 一个 非常 小 的 这种 创业 公司 那 大家 可以

用谷歌 语音 接入 然后 我 跟 其他 的 就是 requ est 打包 吗 因为 Sruple 它 其实 有 两个 性能 的 指标 , 一个 是

吞吐量 就是 Sruple 你 市面上 比较 讨论 比较 多 的 Token per second 每秒 产生 多少 个 Token

还有 另外 一个 就是 我们 的 那个 尾部 延迟 , 就 Crit ical Pass 的 那个 Late ncy 它

可以 保证 一个 非常 快 的 响应速度 然后 每 一个 Token 与 Token 之间 , 它 的 Late ncy 都 是

非常 非常低 延迟 的 所以 我 觉得 这 一块 的话 , TPU 是 不 太 适合 去 做 这种 非常 非常 快 的 响应速度

但 它 可以 适合 做 就是 它 每秒 成为 100T oken 但是 有些 用户 可能 稍微 慢 一点点 然后 有些

用户 快 一点 它 保持 一个 平均值 这 是 它 能 做到 的 一件 事情 谷歌 的 Gemini 它 是不是 所有 的 模型

全部 是 用 TPU 训 的 还是 它 也 会 有 加入 GPU ? V7

? V7 的 发布 基本上 是 说 100% 是 用 TPU 但是 在 BG 之前 , GPU 一直 是 TPU 的 backup 原因

也 很 简单 , XLA 加 GX 是 一套 非常复杂 非常 不 稳定 的 一套 软件 生态 , 它 很多 时候 会 容易 去 报错 , 一旦

报错 , 特别 是 在 pre - trai ning 它 的 风险 是 很大 的 , 现在 我 觉得 这套 系统 已经

非常 steady 了 , 也 非常 成熟 了 在 之前 不 成熟 的 时候 , 你 就 需要 用 GPU 来 做 backup 所以 之前

一直 是 GPU 和 TPU 混着 , 混用 训练 , 并 不 意味着 TPU 训练 效果 没有 GPU 好 , 只是

意味着 它 的 整个 system 它 的 稳定性 还 没有 达到 一个 非常 好 的 一个 状态 。

我 听说 现在 谷歌 内部 的 Gemini 就是 非常 缺 TPU 因为 我 有时候 用 它 模型 的 时候 , 它会 说 这个

请求 过多 , 然后 就 挂 刚刚 我们 提到 了

其实 它 是 有 独立 的 这个 训练 芯片 跟 独立 的 推理 芯片 的 哪个 现在 的 量 更 大 是 这样 就是 我

其实 就是 如果 不说 具体 数据 也 没有 关系 我 其实 是 想 给 听众 一个 大概 的 印象 就是 想 让 大家

看 一下 这个 训练 跟 推理 他们 各自 的 大概 的 一个 比例 跟 综合 情况 是 怎么样 的 R5 其实 它 是 一款 主要

针对 Infr ent 推理 芯片 的 一个 性能 上 的 一个 优化 的 一个 芯片 它 当然 可以 做 训练 但 它 里面 很多 的

一些 核心 的 黑 科技 是 针对 我们 现在 当下 的 一个 推理 的 一个 应用 的 一个 市场 所以 它 比起 训练 它

要求 的 那些 指标 RU 的 更 多 是 它 要 保证 你 一个 低 延迟 保证 你 一个 大 的 吞吐量 保证 你 的 memory

band width 是 足够 大 的 这样的话 你 做 LM 特别 在 DECO 那个 环节 你 不会 被 内存 那边 卡住 所以 说

我 觉得 这 也 是 一种 信号 就是说 谷歌 觉得 未来 包括 整个 市场 我 觉得 未来 对 Infl ame 这个

成长 的 潜力 还是 非常 非常 看好 的 但 pre - trai ning 也 是 非常 重要 的 一个 环节

因为 谷歌 作为 少数几家 做 fron tier 大 模型 的 公司 他们 一直 以来 他们 的 phil osophy 就是 我

设计 一款 芯片 首先 是 要 把 trai ning 做好 综上 我们 所有 所说 的 呀 我试 着 总结 一下 这个

TPU 跟 GPU 的 优势 跟 劣势 就是 整体 来看 现在 TPU 它 在 性能 上 包括 在 模型 的 训练 上 就 如果

你 用 的 好 的话 你 是 可以 把 它 跑 满 的 它 可能 会 达到 这个 GPU 的 性能 甚至 是 比 它 就是 然后 在

数据中心 的 部署 上 它 是 更 省 成本 的 这个 是 它 的 一些 核心 优势 同时 就是 用 了 它 你 的 推理 成本

可以 降低 那 它 的 缺点 就是 首先 我们 说 在 这个 软件 的 生态 上 XLA 它 还是 一个 比较 难 入门 的 这样 的

一个 核心 门槛 它 没有 英 伟达 的 这个 CUDA 它 的 这个 生态 另外 一点 就是 它 在 整个 的 起量 上 包括

对 这个 HBM 它 的 供应链 的 控制 上 还是 比较 弱 的 还有 一个 核心 如果 大家 使用 了 TPU 但是 你 内部

没有 特别 懂 的 人 它 还是 一个 黑盒 就是 你 没有 办法 用 自己 的 工程师 去 把 它 调优 然后 把 它 的 性能 跑

满 然后 如果 用谷 歌云 的话 可能 只能 跑 到 这个 50% 到 60% 的 性能 在 这种 情况 下 它 跟 GPU

谁 的 性能 更好 现在 其实 也 是 一个 很难说 的 话题 所以 整体 上 我们 看到 是 这样 的 一个 趋势 然后

TPU 最大 的 核心 的 问题 就是说 未来 如果 整个 它 在 架构 跟 算法 上 有 升级 , 它 类似 于 一款 专用 的 ASIC

芯片 , 那 通用 的 GPU 是 更 有 优势 的 , 但是 如果 你们 的 算法 读 对 了 你们 就是 有 核心 优势 的

。 我

。 我 的 总结 准确 吗 ? 我

? 我 觉得 非常 进去 。

那 其实 我们 前面 聊 了 这么 多 的 TPU 啊 , 就是 你 要 不要 跟 大家 再 简单 的 回溯 一下 , 就是 谷歌 它 是

怎么样 去 发明 这个 TPU 的 , 它 的 一个 历史 是 什么 , 然后 谁 是 中间 的 核心人物 对 我们 最 开始

TPU 的话 主要 是 针对 内部 CAM 这 一大 模型 的 一个 加速器 然后 最 开始 第一代 芯片 它 只是 一款

Infe rence 芯片 因为 刚才 我 也 提到 Infe rence 相比 Trai nings 更好 做 一些 所以 Infe rence

相当于 是 一个 Test ing Chip 作为 一个 入口 我们 先 把 这个 它 里面 的 架构 相对 比较简单 它 就是 一个

矩正 计算机 加 内存 没有 其他 更 多 的 一些 模块 然后 最 开始 的 初衷 就是 大家 发现 我们 内部 有

很多 的 online 的 reco mmen dation system 但 它 的 infe rence 都 是 用 CPU 来 做 infe

rence 大家 都 知道 CPU 什么样 的 问题 对 它 的 并行 效果 是 非常 非常 差 的 然后 那 时候 也 没 办法 用 GPU

因为 今天 那 时候 GPU 它 还 没有 加入 它 的 那个 矩针 计算 单元 所以 它 更 多 是 一个 做 显卡 做 一个

pixel 是 的 对 所以 那 时候 没有 所以 谷歌 说 为什么 不 自己 开发 一款 只 做 举着 计算 的 模型 所以 最 开始

就是 最 开始 初衷 应该 是 Jeff Dean 包括 后来 图灵奖 的 获得者 David Patt erson 也 是 深度

参与 了 第一代 模型 的 架构 所以 设计 出来 性能 非常 非常 的 好 我们 有 了 第二代 芯片 第二代 芯片 它

就是 一个 非常 旗舰 的 做 做 trai ning 做 训练 的 模型 所以 包括 我们 后来 知道 的 Alph aGo

包括 POM 包括 BUT 包括 早期 的 Early Tran sfor mer 包括 后来 Tran sfor mer 都 是

用 了 这 一套 架构 去 做 的 训练 但 那 时候 有 一个 比较 大 的 问题 就是 那 时候 我们 先有 了 硬件 但是 软件 还

没有 跟上来 对 包括 一直 在 VRV3V4 的 时候 就 一直 痛点 就 可能 硬件 上 理论 上 我们 性能 是 不错 , 但是 具体 能

部署 多少 , 第一 产能 跟不上 来 , 第二 就是 我们 软件 上 那个 协同效应 还 没有 产生 , 所以 一直 在

做 这样 一个 工作 , 中间 我们 也 提出 了 这 一个 system 的 一个 level 的 一个 tpu pod 的 一个 拓步 的 一个

网络 , 这是 奠定 了 现在 tpu 那么 好 的 性能 的 一个 基础 , 然后 在 第四代 的 时候 我们 又 针对 推荐 和 rank

ing 的 一个 算法 我们 加入 了 一个 spot score 系书式 的 计算 单元 这 也 很 好 的 解决 谷歌 内部 的

一些 推荐 的 一些 work load 所以 然后 V5 V6 的话 就是 开始 进入 大 模型 时代 了 进入

XGPT 的 时代 所以 我们 那 时候 就 会 针对 Tran sfor mer 做 了 很多很多 的 优化 然后 一直 到 我们 中间 还

推出 了 一个 Infe rence 的 版本 就是 因为 Infe rence 的 市场 需求 非常 非常 大 直到现在 的 V7In

fere nce 的 版本 是从 什么 时候 开始 应该 是 V6 吧 我 觉得 V6 对 我 觉得 那 时候 在 TPU

组里 工作 也 挺 有意思 就是 最 开始 那 几年 其实 市场 上 没有 那么 大 的 需求 相当于 那 时候 还 没有 大 模型

没有 下 GPT 所以 我们 那 时候 工作 还 相对 比较 轻松 一点 因为 只是 针对 自己 家 的 work

load 所以 感觉 就是 只要 满足 内部 需求 就 可以 了 对 你 是从 哪一年 开始 在 Google 的 我 是从

18 年 吧 18 年 到 2424 那 你 基本上 是 完整 的 参与 了 好多代 的 TPU 的 开发 最 开始

我 做 的 是 另外 一个 proj ect 但 我 是从 第四代 的 时候 加入 第四代 的 加入 第五代 的 时候 那 核心

的 几代 你 基本上 都 有 参与 对 对 对 我 不能 说 是 核心 几代 我 只能 说 就是 核心 几代 核心 的 肯定 是

第一代 和 第二代 因为 他们 是 奠基者 但 后来 我 是 可能 经历 了 从 模型 快速 迭代 那个 周期 就 你 可以

可以 想象 的 出 就是 最 开始 大家 都 在 做 训练 但 一下子 哦 现在 推理 市场 一下子 变 那么 火 那 我们 要 不要 做

另外 一个 版本 的 芯片 然后 就 像 于 proj ect 一直 在 是 一个 非常 vola tile 非常 变化 非常

非常 快 的 一个 状态 下 关于 整个 TPU 它 刚刚 诞生 的 时候 还有 一些 特别 好玩 的 故事 当时 Jeff

Dean 他 是 谷歌 的 首席 科学家 嘛 然后 他 其实 是 在 一次 整个 内部 的 演示 中 去 演示 说 深度 学习 网络

他会 怎么样 去 在 语音 识别 上 有 一个 突破性 的 进展 就是 2013 年 左右 的 时候 然后 那个 时候 大家

其实 就 发现 我们 需要 的 是 GPU 而 不是 CPU 然后 后来 呢 就 他们 就 开始 在 内部 去 demo 这个

事情 就是 Jona than Rose 现在 应该 也 是 Grock 的 一个 他 应该 是 co - foun der 是 吧

现在 已经 是 英 伟达 的 VP 了 对 现在 是 英 伟达 的 VP 因为 英 伟达 收购 了 Groch 对 他 当时 就 给 内部 demo

的 时候 他 就 他 就 放 了 两页 PPT 第一页 是 就是 这个 GPU 他 真的 是 工作 了 这 是 好消息 然后

第二页 就是 这是 一个 坏消息 我们 付不起 这个 钱 对 就是 他们 当时 是 算了 说 成本 对 成本 就是说 如果

所有 的 用户 他们 给 谷 歌发 三分钟 的 语音 的话 那么 当时 谷歌 的 整个 的 数据中心 的 成本 会 就是 增加一倍 大概 是

数百亿美元 是 非常 大 的 一个 量 这个 其实 也 是 他们 就是 开始 去 研究 这个 TPU 的 一个 起点 那 接下来 的 故事

好像 就是 到 了 整个 1516 年 就是 那个 Alph aGo 击败 对 围棋 冠军 李世诗 的 时候 这个 时候 其实

谷歌 已经 在 用 TPU 了 而且 据说 在 他们 的 这个 AI 算法 里面 是 放 了 四张 TPU 进去 的 那个

应该 是 第一代 第二代 对 不 对 应该 是 第二代 或 第三代 第二代 跟 第三代 第一代 是 不 做 trai

ning 对 那 比如说 刚刚 你 提到 了 其实 可能 整个 大 模型 出来 以后 它 是从 这个 第六代 开始 的 而且

前面 它 有 一些 是 服务 于 谷歌 的 整个 的 搜索 跟 广告 推荐 的 这些 算法 那 第五代 到 第六代 它 相当于 是 一个

巨大 的 方向 上 的 转变 对 我 觉得 方向 上 转变 更 多 就是 相当于 你 可以 把 重心 根据 LM 现实 中 的 work

load 去 做 一些 调配 就 其实 理论 上 来讲 就是 high level 上 来讲 就是 你 把 你 的 计算资源 需要

变得 更大是 对 因为 之前 可能 没有 这样 的 case 没有 这样 的 work case 对 软件 团队 是 什么 时候

加入 的 你 说 XLA 那边 吗 ? 对

? 对 他们 从 一 开始 就 有 这样 的 团队 在 了 然后 谁 是 这个 TPU 组 的 核心 跟 灵魂 人物 ?

对 , 我 觉得 相比 现在 我 觉得 软件 团队 的 规模 已经 大 超过 硬件 的 规模 了 因为 软件 组 确实 他 现在

目前 这个 生态 中 扮演 一个 非常 重要 的 一个 位置 就是 他 不仅 需要 跟 内部 的 人 内部 的 团队 打交道

也 需要 跟 外部 团队 打交道 所以 我 觉得 现在 软件 组 的 话语权 会 更加 重 一些 吧 嗯 你 觉得 软件 更大重

一些 那 灵魂 人物 呢 就 比如说 Jeff Dean 在 推动 这件 事情 他 肯定 是 在 就是 支持 跟 推动 早期 推动

后期 呢 后期 的话 后期 我 觉得 可能 就 我 觉得 现在 肯定 是 Jeff Dean 包括 Deep mind 那边 是

一个 深度 的 一个 你 可以 理解 成 一个 大脑 吧 他 决定 了 下一代 TPU 往 哪个 方向 去 发展 对 他们 决定

方向 对 具体 的 落实 是 落到 硬件 组 就是 落实 是 硬件 组对 硬件 组 那 我们 刚刚 其实 提到 了 Jona than

Rose 我们 要 不要 讲 一下 Grock 因为 英 伟达 其实 也 是 把 它 收购 了 然后 他 在 推理 芯片 端 我 记得 他 最

开始 出来 的 时候 他 的 整个 性能 表现 啊 然后 包括 他 说 的 那些 方案 在 业界 还是 就让 很多 人 动心 的

我 觉得 就 我 当初 也 跟 他们 内部 团队 人 也 聊过 嘛 然后 目前 他们 被 英 伟达 收购 是 采准 了 每 一个 时代 的 红利

采准 了 每 一个 很 好 的 时间 点 第一 时间 点 就是 Infe rence 然后 第二 时间 点 是 ASIC 第三 时间 点

就是 今年 是 Agent 的 元年 嘛 , 相当于 有 很多 智能 体 的 爆发 然后 Growth 最好 的 一个 应用 case 就是

Agent 智能 体 因为 Agent 智能 体 的话 , 它 对 延迟 的 要求 是 非常 非常 高 的 , 如果说 你 的 延迟 做 得 很

差 的话 你 整个 帮 你 去 做 这 一个 任务 的 一个 链条 , 就 会 被 拉 得 无线 长 , 这是 对于 单用户

来讲 的话 , 是 一个 非常 痛苦 的 一件 事情 , 所以 Growth 就是 能 很 好 的 去 解决 , 或者说 解决 这样 的

一个 问题 , Growth 的 芯片 因为 John son Ross 最 开始 是 TPU 的 Comp iler Team

他 是 TPUC ompi ler 那边 的 一个 VSuite Foun der 就 相当于 他 是 带 着 一套 他 非常 成熟 的

TPU 的 那个 Comp iler XLA 的 一些 经验 去 Cofo und 了 Grock 所以 Grock 你 可以 理解 成 他 是

一家 Comp iler 的 公司 而 不是 一家 芯片 公司 因为 他 的 芯片 更 多 是 为 他 的 软件 Comp iler

服务 的 他 的 硬件 可能 比 TPU 更加 的 单一 或者说 没 那么 的 智能 一些 , 它 的 Comp iler 在 某种程度

上 决定 了 一切 它 LPU 里面 每 一个 时间 点 每 一个 计算 单元 里面 去 做 哪些 事情 , 它 可以 精准 到

每 一个 cycle 都 是 用 Comp iler 去 确定 好 的 一个 非常 确定性 非常 高 的 一个 事情 。

你 刚刚 提到 他们 精准 的 踩 到 了 每 一个 就是 时代 的 红利 点 啊 , 第一轮 是 Infe rence ,

第二轮 是 ASIC , 第三轮 是 Agent 这 三个 时间 点 对 芯片 的 要求 有 什么 不 一样 吗 ?

Infe rence 的话 就是 因为 Groke 最 开始 它 就 做 Infe rence 它 不 做 Trai ning 它 的

软件 和 硬件 的 架构 决定 是 它 做不了 trai ning 第二个 ASIC 的话 就 相当于 ASIC 它 的 成本 更加

可控 一些 它 是 针对 哪个 方向 的 ASIC 它 是 针对 低 延迟 的 ASIC 主要 是 做 低 延迟 所以 现在 agent

它 我 可以 理解 比如说 现在 我们 用 agent 觉得 延迟 很 低 了 它 还是 有 硬件 层面 的 提升 的 对 对 对 这

就是 我 刚才 讨论 的 就是 那个 吞吐量 的 问题 谷歌 的 它 的 TCO 比较 好 的 原因 就是 你 有 很多 海量 的 客户

同时 去 用 这样 一个 Infe rence 的 服务 它 的 吞吐量 就 会 很 高 但 它 不在乎 它 的 尾部 延时 尾部

延时 指 的 就是 你 单用户 用 的话 它 可能 会 有时候 会快 一点 有时候 会慢 一点 相信 大家 也 都 会

有 这样 的 用户 体验 但是 Groker 你 一旦 去 用 的话 它 就 会 非常 非常 快 它 的 原理 就是 因为 它 第一 是

它 的 SRAM 第二 就是 它 是 一个 相当于 你 一个 人 它 占用 了 非常 非常 多 的 LPU 的 资源 而 不是 跟 很多

人去 共享 , 它 就是 这样 一套 逻辑 。

Agent 跟 ASIC 的 区别 又 是 什么 ?

就 我们 再 讲 升到 第三个 逻辑 Agent 当然 跟 Aseq 没有 很多 的 关联 但 Agent 主要 就是 Grog 的 一个

非常适合 Grog 去 服务 的 一个 场景 这 是 他 服务 的 一些 客户 对 Grog 服务 适合 Grog 去 服务 的 场景 第一个

是 Agent 第二个 是 real time 的 一些 voice 然后 还有 一些 高频 的 一些 交易 他 对 颜值 要求 会

更 高 一些 所以 现在 Grog 他 的 客户 主要 是 以 哪些 客户 为主 比如说 像 你 刚刚 提到 的 高频

交易商 然后 还有 直播 对 吧 就是 或者说 跟 大 模型 相关 的 这种 实时 的 直播 大家 可以 去 Google 一下

Grog 这 一年 他 跟 哪些 人 哪些 哪些 厂家 签了 订单 一个 他 跟 那个 中东 的 一个 数据中心 然后 另外 他

也 跟 IBM 他 相当于 是 一个 当地 部署 的 一个 计算 集群 他 只 针对 本地人 去 用 相当于 在 你家 搭 了

一个 局域网 的 感觉 一个 私有 的 一个 云 然后 你 用 起来 会 非常 非常 信息 非常 非常 高 所以 它 卖 的 是 什么

就是 你 刚刚 提到 它 是 跟 IBM 签 这种 数据中心 的 合同 我 开始 以为 它 是 卖 给 agent 的 就是 它 是 卖 芯片

或者 解决方案 给 这些 agent 的 创业 公司 的 但是 它 现在 看起来 它 是 在 往 这个 上游 去 卖 具体 细节 不是

非常 清楚 啊 但 我 觉得 它 就是 主打 一个 市场 的 差异化 嘛 就 现在 主流 市场 都 是 做 这种 大 模型 的

推理 和 训练 它 可能 就是 针对 一些 小 的 规模 部署 的 一些 计算机 群做 这样 的 一个 低 延迟 的 一个 性能 的

优化 你 觉得 未来 在 整个 agent 的 应用 中 就是 推理 芯片 它 是 会 是 一个 百花齐放 的 格局 还是 说 它 依然 是 以英

伟达 的 GPU 为 主导 的 我 觉得 自从 就是 去年 Deep seek 出来 之后 大家 一下子 发现 就是 在

推理 端 就是 如果 你 成本 打 下来 之后 的话 端册 然后 本地 的 部署 它 的 推理 的 需求 是 非常 非常 大 的 所以

这样的话 我 觉得 就是 有 很多 不同 layers 的 市场 和 不同 layers 的 指标 的 需求 当然 Google 和 TPU

肯定 会 占据 最高层 就是 最 大规模 那些 部署 的 包括 预音 啊 包括 那些 大 模型 的 推理 然后 中间 和 下面 的

一层 的话 我 觉得 会 有 更 多 的 玩家 和 更 多 的 参与者 进来 然后 这样 好像 Groke 这块 芯片

其实 它 如果 是 一个 非常 大参 数量 的 模型 的话 它 其实 成本 其实 挺 高 的 我 觉得 对 如果说 是 一个

小规模 部署 的话 它 成本 是 可以 控制 的 所以 就是 它 未来 就是 整个 芯片 市场 在 推理 端 也 会 分层

然后 分 应用 场景 对 对 对 可能 最 大量 的 需求 还是 这些 大 的 巨头 可能 就是 相当于 你 要是 做 star

tup 创业 公司 的话 你 没 办法 说 我 要 做 下 一家 英 伟达 你 基本 做 不到 因为 它 已经 护身 核实 在 太

深太深 了 你 只能 做 一些 尾端 的 一些 客户 很多 人 都 在 讨论 TP 和 GPU 之间 区别 我数 有 数列 但

我 觉得 未来 肯定 是 两者 并存 的 包括 现在 所有 很多 大厂 都 在 自研 自己 家 的 芯片 不管 是 推理 还是

训练 我 觉得 你 不能 说 GPU 将来 会 一统 江山 和 TV 会 一统 江山 我 觉得 这个 生态 我 觉得 是 一个 非常

健康 的 生态 有 定制 的 环节 也 有 通用 的 环节 有 通用 场景 也 有 定制 的 场景 也 有 锤 泪 的 场景 所以 我 觉得 将来

的话 是 百花齐放 的 一个 格局 所以 一旦 产能 各 方面 供应链 都 解决问题 之后 我 觉得 对 用户 来讲 都 是 一件

好 事情 我 觉得 对 一下子把 成本 下来 之后 的话 你 能 做 的 事情 就 有 无限 的 可能 大家 都 需要 有 一个

人能 出来 打破 垄断 对 对 对 我 觉得 目前 TPU 可能 是 一个 很 好 的 一个 挑战者 是 是 是 对 对 然后

我们 看 一下 它 这个 生态 到底 能 布局 到 什么样 的 一个 阶段 吧 如果 它 能 把 一个 软件 生态 也 像 Cuda

一样 搭 起来 的话 我 觉得 对 Cuda 和 GPU 也 是 一件 好 事情 也 能 我 觉得 需要 同行 的 激励 和 鞭策

而且 我 觉得 其实 今天 这个 话题 可能 有 很多 方 的 人 都 会 关注 比如说 从 华尔街 的 视角 他们 会

非常 关注 未来 整个 谷歌 的 TPU 它 能 抢走 这个 英 伟达 多少 的 市场份额 这 绝对 是 他们 就是 来 去 计算

估值 的 这样 的 一个 非常 重要 的 点 同时 我 觉得 对 很多 的 这种 大 模型 厂商 来说 其实 像 不仅仅 是 我们 刚刚

提到 的 Answ eropic 跟 Meta 我 看 像 XAI 甚至 是 OpenAI 都 表达 出说 未来 可能 会 跟 谷歌 去 进行

TPU 的 合作 我 觉得 从 模型 厂商 这 可能 也 是 他们 怎么样 去 提高 自己 的 模型 的 能力 同时 降低 自己 数据中心

的 成本 的 一个 非常 重要 的 决策 那 我们 再往 下 就是 细到 这个 TPU 它 的 整个 的 供应链 环节 包括

我们 刚刚 说 到 的 这个 HBM 包括 夜冷 然后 包括 数据中心 它 的 布局 有 什么 不同 我 觉得 谷歌 它

的 TPU 的 位置 未来 会 影响 到 很多 的 这个 产业链 中 的 各个 小 的 环节 跟 厂商 对 所以 还是 很 感谢 Henry

今天 来 我们 的 这样 一期 播客 跟 我们 聊 了 很多 的 这个 技术细节 我 觉得 对 大家 这个 做 决策 会 有 很多 的 参考价值

不够 成 投资 金对 对 对 那 必须 做 一个 声明 啊 就是 今天 我们 所有 的 观点 应该 都 是 你 的 个人 言论 对

对 对 不 代表 公司 观点 同时 我们 所有 的 这些 言论 也 不够 不 构成 任何 的 投资 建议 对 最后

补充 一点 就是 因为 确实 很多 TPU 的 布局 都 是 发展 在 高层 就是 它 具体 想 把 TPU 打 造成

怎样 的 一款 产品 我 觉得 相当于 底下 工程师 是 了解 是 比较 少 的 所以 我 觉得 我 一直 从 我 在 Google 的 工作

的 经历 当中 去 播放 和 同事 聊天 的 过程 当中 去 了解 一些 直 言片语 吧 然后 把 它 拼凑 成 一篇 故事 好 的 谢谢

Henry 好 那 谢谢 Henry 感谢 大家 收听 我们 这 一期 的 播客 如果 大家 对 TPU 有 什么样 的 想法

可以 给 我们 写 评论 写 留言 如果 大家 对 我们 的 播客 感兴趣 可以 通过 苹果 播客 Spot ify 还有 小

宇宙 来 关注 我们 如果 大家 喜欢 我们 这种 视频 播客 的 形式 也 可以 在 B 站 还有 YouT ube

上 搜索 硅谷 101 播客 关注 我们 我 是 红军 感谢 大家 的 收听

Loading...

Loading video analysis...