E230|1万亿收入预期背后:英伟达的巅峰与软肋
By 硅谷101播客
Summary
Topics Covered
- 推理成本将超训练成现金流主流
- 供应链瓶颈制约万亿订单落地
- AI加速芯片设计一年出七款
- Groq纯SRAM架构革新Agent推理
- Agent颠覆SaaS成劳动力输出
Full Transcript
哈喽 大家好 欢迎收听《硅谷101》 我是泓君 每年3月份是硅谷最热闹的时候 整个科技圈 都在关注英伟达的GTC大会 所以我们也举办了 第一次的线下播客录制 邀请各地来的朋友 参与到我们的现场讨论中 今年黄仁勋站在台上说 2027年底 Blackwell和Vera Rubin
两个平台的累计订单 预计会至少1万亿美元 I see through 2027 at least 1 trillion dollars. 我预计到2027年至少将有1万亿美元
要知道 2024年 全球半导体产业的销售额 也就6000多亿美元 所以这也是我看到 AI产业最核心的一组矛盾 需求端是万亿美元的疯狂订单 而供给端 从先进的封装产能 内存到电力配送 几乎每一个环节都在遭遇瓶颈 这期节目我邀请到了四位嘉宾
来帮我一起拆解 英伟达的万亿野心到底能不能落地 以及它的护城河 是否正在被竞争对手围剿 那这期节目我分成两个部分 参与我们第一部分讨论的嘉宾 是大家的老朋友 Fusion Fund的创始管理合伙人张璐 还有两位新朋友 一位是Agentrys的创始人与CEO Mark Ren博士
他也是英伟达的研究总监 还有一位 ZFLOW AI的创始人与CEO肖志斌博士 他是前CASPA的主席与董事会顾问 那我们前半段的讨论中 有AI的投资人 也有在英伟达内部 用AI做芯片设计的Mark 还有亲手设计过芯片的志斌 以及在后半场
还会有GPU云的创业者Alex加入我们 因为Alex他的母语是英文 所以后半部分会有大量的中英夹杂 加上我们的嘉宾 基本上都在硅谷工作了十几年 所以如果这期节目的中英夹杂 影响了大家的理解 大家可以在B站和YouTube上 搜索我们的字幕版 也请大家能够多多包涵
那下面就跟我一起 正式进入到我们线下录制的会场 我们先从4个数字开始 今年我也去老黄的 Keynote的主题演讲了 其实准确地说 我大概已经是去了 好多年的GTC的活动了 我跟大家先总结一下 他在这个演讲上的几个关键数字 第一个数字是“1万亿” Jensen说到2027年
Blackwell跟Vera Rubin的订单规模 累计将达到1万亿美元 去年的这个数字是5000亿美元 我觉得应该现在在全球商业史上 是很难有人能达到这个销售规模的 第二个就是“7块新芯片” Vera Rubin 它的平台 是一次性发布了7块新的芯片 而且已经全部进入量产了
也可以说这是英伟达有史以来 规模最大的一次同步发布 还有一个就是“10倍” Vera Rubin 它NVL72 相比Blackwell 推理效率提升了10倍 每个Token的成本降了十分之一 另外还有一个数字是“35倍” 就是今年大家很火的一个概念 就是“Token per watt” 性能提升了35倍
不然我们就先从第一个数字 开始分析起 就是1万亿的销售规模 仅仅靠两款芯片 Blackwell跟Vera Rubin 璐 你怎么看这个销售规模 你觉得现在市场 有这么大的一个需求量吗 对 首先就像你说的 他这个数字其实比上次提到的上限 翻了一倍 我觉得这也跟他今年的主题相关 他已经希望大家不要单纯把英伟达 看做一个GPU公司了
他想把英伟达打造成一个 人工智能的基础设施的公司 一个巨大的人工智能工厂 它的产出是未来工作的 一个新定义的生产力 就是Token 所以在这个角度上来讲 未来增长空间确实很巨大 因为它不只是单纯说 我们平时要去训练一个模型 现在在训练模型下一步是什么 为什么有那么多讨论在推理层 也是因为现在我们在讨论很多 对于Agent智能体的应用
Agent智能体大规模的铺设之后 在推理层面上的需求 就会进一步增强 其实我们真的去比较 训练和推理的话 训练更像是一次性的成本投入 但推理它是一个长期的现金流 不停地去调用 包括现在有一个长的上下文本 就会导致对它的消耗也会更大 再加上你又对一些Agent 真的部署之后
它有一些 比如像低延迟 快速反应 还有实时在线的这些需求 对它根本上的Token消耗也会更加多 所以我在长线层面上 我觉得这个预期是对的 当然是不是能够很快达到这个数字 也取决于我们在产业 AI的整合 还有Agent铺设过程中 能达到什么样的快速的速度 所以我觉得这也是为什么 今年你看他还做了很多其他的发布
希望在企业级人工智能部署层面上 也可以做进一步的推动 从侧面去加速 他的“1万亿”的目标的达成 你刚刚提到一个很好的点就是推理 据你观察 比如说我们现在看到 这些顶级的模型厂商中 他们训练跟推理成本 现在比例在呈现一个什么样的变化 因为我是看见以前大家在芯片上
绝大部分都是训练成本 但是现在看起来 推理的成本正在拉平训练成本 是的 这个话题特别有意思 我记得大概2023年 2024年的时候 当时我是和 应该还是微软的一个CTO 他在提到说他们自己都预计 在未来其实更多的成本是在推理层 而不是训练 我觉得2023年的时候 可能百分之七八十是在训练 现在可能是一半一半 推理和训练
到明年或者说后年的话 可能最后百分之七八十的成本 都会是在推理层 所以从这个角度来看 推理绝对是巨头 所以我非常相信我刚才说的那句话 如果你看长期的现金流 那一定是来自于推理 对 志斌 我们刚刚提到了 这个“1万亿”的经济数字 但是我觉得它整个背后 其实是需要供应链支撑的 我也跟大家简单介绍一下志斌
志斌其实是芯片架构师 也设计了阿里的 含光800的芯片加速器 所以他对整个的芯片供应链 是非常了解的 从你的角度 这个“1万亿” 对应了多少的晶圆产能 然后现在TSMC 3纳米的良率 跟HBM4 它的产能跟得上吗 你这个数字都非常的精准 过去几年有很多人讲“1万亿”
我们是半导体协会 我们整个2024年半导体的产业 就是6000多亿美元 当时2024年大家很兴奋 说2030年我们整个半导体产业 会到1万亿 这是整个半导体产业芯片供应链 半导体测试设备 去年11月份Lisa AMD的CEO 就预测 整个数据中心的AI的加速芯片
到2030年到1万亿 今年3月份老黄的这个“重磅炸弹” 他一家Blackwell 加Rubin 当然他不是芯片了 他是整个系统 他Vera Rubin 的芯片 包括他的NVLink Switch 包括他的Ethernet Switch 包括他的软件 2027年就要到1万亿 这个增长速度是非常非常的迅速 说明一个什么问题呢
其实需求端是非常的旺盛 老黄给这个数字 一定是来自于需求端的这个数字 但是就像泓君刚才问的问题 其实现在的瓶颈 已经到了供应链这一层 但是在供应链上 能不能在2027年做到1万亿 这是非常有挑战性的 包括3纳米的产能 包括先进封装CoWoS 因为我们以前半导体产业
我们相当于是乙方 所以我们是供应商 现在有点角色互换了 现在变成了卖方市场 我们半导体的产能是卖方市场 所以3纳米的产能我觉得是跟得上 但是CoWoS的产能就很难说了 因为2024年到现在 台积电CoWoS的产能基本上涨了3倍
还在持续地 疯狂地扩产 HBM这一块的话 3月份美光跟三星宣布 HBM4已经量产了 同时美光 三星跟SK Hynix 他们在做HBM4E的定制化方案 所以现在也是各家都在各显其能 在供应链上达到老黄的要求 不知道是不是所有的朋友 都是半导体的背景
我觉得其实很多人可能不了解的是 哪怕我们现在聊说需求端非常旺盛 需要更大的产能 但其实半导体行业就是这样 你需要更大的产能 你从供应链端 你需要存储 需要交换机 但是它要去先投产 需要做很多的预投资 这个预投资去它建生产线 然后再去我们说这个过程控制 去优化 这个周期是没有办法用钱砸出来的 所以哪怕你现在说
我需要额外的产能 那你可能确实需要等到一两年之后 这个产能才能实现 一两年之后的话 可能也有更多附加的要求 所以这并不是像软件一样 你有多大的需求 你可以马上产出多大的销售 因为你的产能限制和硬件层面上 供应链层面上的生产周期是确定的 对 刚刚我也说了 其实还有一个数字就是“7块新芯片” Vera Rubin 它的平台
是一次发了7款新芯片 Mark有一个背景 就是Mark之前是在英伟达内部 用AI去真正做芯片设计的人 所以我们今天真正地 把造出这些芯片的人请到了现场 我对英伟达内部 比较好奇的一个问题就是 它怎么可以把芯片的设计速度 拉到这么快 我是去年12月份离开英伟达的
所以我的数据不是最新的 我记得是两年前Jensen说过 原来是两年英伟达出一块芯片 后来说是一年出一块芯片 现在是一年出好几块芯片 为什么能提升速度 当然第一个 传统的大家就是去招人 更多的团队来做 第二个 其实AI的帮助是非常大的 我们公司内100%都在用AI 包括这种Coding Agent(编程智能体)
工程师的效率提高很多 内部也有很多的 AI for芯片设计的项目 您刚刚问的芯片的多少 其实我觉得多少不是主要的问题 主要的问题还是说 你里面的优化做的是什么 这里面更是需要AI的帮助 来优化得更好 今年大家非常关注的点 就是Groq的推理芯片的推出 包括这一次它其实是在
整个的英伟达大会上是推出了LPU 并且老黄他提出了一个建议 未来他建议所有的数据中心 留25%的空间给Groq 跟大家的推理芯片 因为Groq其实从创业开始 它在硅谷就一直是一个明星公司 看起来现在英伟达 对这个收购的整合也是挺成功的 因为去年年底收购
今年3月份就直接开始 在GTC上发产品了 还是一个非常重量级的产品 我也想请现场的嘉宾 给不太了解Groq 它的推理芯片优势到底在哪里的 听众们 解释一下 Groq相比于其他的推理芯片 它的优势在哪里 那我就来讲了 因为我从2017年 一直在做AI推理芯片 2017年给阿里巴巴
做了第一款AI推理芯片 当时没有ChatGPT 没有BERT 当时更多的是计算机视觉 所以我们当时也是纯SRAM的架构 Groq的这个芯片其实是一个纯的 我不知道大家知不知道 SRAM DRAM这些 SRAM是静态的存储 它跟我们的芯片设计的时候 它是用的逻辑的工艺 所以它的延迟非常的短
就1到2纳秒 访问一次 它不需要动态刷新 但是它的成本是比DRAM高的 DRAM是一个晶体管 SRAM是六个晶体管 DRAM你密度可以做得非常大 但是延迟非常大 而且你还有动态刷新的这个问题 大部分的AI芯片都是有DRAM的 因为DRAM的成本比较低 容量比较大
然后你的模型就可以放得更大 但是Groq就是“剑走偏锋” 完全去掉了DRAM 只是通过On-chip SRAM 把你模型的参数 跟你模型中间产生的这些KV cache 结果存在这个片上 通过极致的互联 把它扩展到更大的集群 这带来的一个好处就是 对于这种基于Agentic应用 它的延迟非常非常的短
就是非常快 就每个用户每秒处理的Token数 可以做得非常好 这也是老黄 在他的演示幻灯片上面讲的 对于每个用户每秒处理的Token数 要求非常高的那些应用 它直接就是把GPU的那个效率 提升了30多倍 可以把那个曲线 保持比较平稳的状态 GPU其实不大适合做Agentic应用的 其实从推理的应用来讲 你可以想象
语言模型它有两部分 有一部分叫编码器 一部分叫解码器 编码器它是适合一个高吞吐量的 批量的过程 非常适合GPU 解码器这边 它是一个Token一个Token来做的 生成每一个Token的计算量 并没有那么多 但是中间要很多数据通信 就是它要把那个大语言模型的权值 从内存里面把它加载上来
这个过程是非常耗时的 如果说我每生成一个Token 我都要重新加载全部的权值上来的话 那你大部分时间其实都在抓权值 数据通信 不是在运算 Groq的做法就是说 它是把这个权值放到芯片里面 那它就不需要来回抓取那个权值了 这样就减少了数据通信的时间 其实 将来的AI System会是混合的 将来可能还有更多的芯片进去
取决于将来模型会怎么样 不同的芯片 可能会适合于不同的算子 比如说编码器 解码器 是不同的算子 将来可能还有个什么中间层 都有可能 其实刚才两位都提到一个 非常关键的词就是 Communication (数据通信) 刚才提到一个很大的优势 其实LPU它是延迟比较低 对于Agentic的工作流 它是非常非常有帮助的 就是我们开始用Agent的时候 你对它的需求一定是 希望它经常在线的
而且它是一个持续性的查用 你不是说调用一次就结束 除了它低延迟之外 因为它优化了数据通信 很重要的一点就是它能耗也会降低 其实很多时候 我们不会讨论到这一点 现在你会发现 当然一方面是计算的能耗 另外还有一个数据通信的能耗 计算量能耗是在降低的 但是数据通信的能耗并没有降低 在未来它比例会越来越高 我记得我大概是在一两个月前
正好在斯坦福大学有一个炉边谈话 是和之前斯坦福的老校长 John Hennessy 我们其实就讨论到这一天 他有一个论断 他说将来其实他觉得 数据通信的耗电量 是计算的10倍以上 所以我们怎么样去解决这个问题 这也是另外一个LPU潜在的优势 另外 刚才泓君提到说 为什么现在英伟达 可以发芯片发得这么快 我觉得还有很重要的一点就是 传统的芯片公司厂商
它其实是一个单独的芯片公司 我芯片供应出去之后 客户反馈 然后再返回 再优化 它是一个相对长一点的沟通的过程 但现在因为英伟达 它其实已经不想只是GPU公司了 它也自己组建了一个 非常大的生态系统 它的这个生态系统 有CUDA System 在网上有很多企业级优化 所以它就自我形成了一个 非常强的反馈体系 这个反馈体系就把我刚才提到的
沟通的周期 需求周期 大规模简短 所以我觉得这种系统优化的能力 也帮助它在一定程度上 可以以更加高效的方式去决定 我到底要做哪个方向的芯片优化 其实这个决定是很重要的 因为英伟达它还有能力 去做10件 20件事 怎么样可以在20件事中 找到它前三 前五 前七 最高的优先级 这个很重要 它这种系统全栈式的优化模式
也帮助它可以更快地 确定自己内部的优先级 再通过刚才两位提到的AI优化 还有包括它 跟产业链的一些紧密的合作 就可以更快地去进行 新的芯片的发送 因为我以前在读书的时候 学的是材料科学工程 Material science 当时我记得还在斯坦福读书的时候 那个时候就看 比如说一些传统的半导体芯片厂商 真的一年能发一两个芯片 是非常好的了 但现在就看到他说一次能够发7个
真的是非常让人惊艳 对 我们知道之前在芯片创业的时候 它是非常火的 大家也主要是在做推理芯片 而不是训练芯片 因为训练芯片 它的那个难度是更高的 而且我知道很多投资人 他也是在投推理芯片这一块的 那你们觉得现在英伟达收购了Groq 然后它也开始进推理市场 创业公司现在做推理芯片 还有机会吗
我觉得任何市场 都不是完全没有机会 但是我觉得机会空间比较小 因为刚才我提到 它有这个全栈式系统的能力之后 它现在确实是从 整个AI基础设施的层面上进行优化 所以它的创新能力 内部也是非常强的 我觉得英伟达它的好处是 它有一个很强的生态的概念 就比如说 它的Inception Program 从2017年做到现在 从几百家的初创企业的生态
到现在变成了2万多家 所以它是愿意支持初创生态的 初创企业要想清楚 英伟达它能做10件事 20件事 但如果说这3件和5件 是它的优先选项的话 它能够投入的资源 和效率的提升的能力 是比初创企业要多得多的 所以我会给创业者的建议是 你可以看看英伟达 它现在可能不是在它最优先级的 那几个选项 还有它的短板在哪
去帮它补全这个短板 如果你能帮它补全短板的话 当然会有收购机会 它也可能在自己的生态上 和你进行紧密合作 然后把你抓入到这个生态来 所以我觉得 不是说不能去做推理芯片 但还是要去评估一下 到底现在 这么快的一个迭代速度里面 初创企业你的竞争优势在哪里 就比如说我们去年投的一个公司 我最早还有在看 Optical compute(光学计算) 然后我们大概知道
英伟达内部的大概进展之后 我们就去看了更多的 像Switch和Interconnect (互连技术) 像我们今年有一家公司叫Eridu 它做的就是下一代的 Interconnect和Switch 现在你真的会看到 如果我们相信未来 人工智能基础设施的大的发展速度 还有大规模的数据中心的扩展 你这时候就会发现 你想做大规模的人工智能铺设 它的瓶颈其实也是在 Interconnect和switch这边
这个对于初创企业来讲 就是非常好的一个创新机会 你这样的技术做出来之后 和英伟达这样的公司也有战略协同 因为我一直在尝试打败英伟达 我们从2017年开始 做了第一代的AI芯片 当时我们在阿里巴巴 也是纯SRAM的 我们MRAM Perf(磁阻随机存取存储器性能) 做得非常好 世界第一 老黄也非常紧张 他就说 他们到底做了些什么 就是纯SRAM
但是问题是在哪里 当时一个应用并不能支持 这种专用化的AI推理芯片 所以一旦后面的应用又迭代了以后 大家又回到GPU软件生态 创业公司很难跟上 但是我阿里出来以后 我又不死心 又做了另外一家AI芯片公司 那个我们叫深度稀疏 叫DeepSparse 就是把模型做压缩 然后做的AI的芯片架构
去执行这个压缩的模型 然后可以把内存跟工艺的要求降低 那家也在MARM Perf上 当时我们也对打英伟达 就在BERT 当时就我们四个芯片 跟它一个H100比 但是它需要软硬件深度的协同 后来大模型来了 做后训练 因为我们要做压缩 后训练那个成本非常高 所以我们作为一家创业公司
其实是很难去做这种 大模型的后训练 这又碰到了一个瓶颈 当然这家公司还在持续往前 包括Deepseek 包括国内的很多公司 大家都在做各种稀疏的尝试 用软件的办法去解这些硬件的瓶颈 我现在新的公司 就做系统级的优化了 我已经看到了未来的数据中心 绝对是这种异构的 像GPU 包括Switch
包括光的Switch LPU的架构 甚至于现在英伟达的GPU跟LPU 现在还是两个机柜 包括这一次英伟达在GTC上 并没有出Benchmark(基准测试结果) 说明它内部软件还在持续优化 同时它这个架构也不是现在最优的 后面封装 包括3D堆叠 是不是能做在一个封装里面
其实后面有很多很多整合的工作 整合的工作不仅仅是芯片也有软件 所以我现在这家公司就叫做 做AI infrastructure的自动优化 而且我们是一个中立的 我们通过仿真加优化的方法 来做这个事情 我们可以仿真Google的TPU AMD的GPU或者英伟达的 我们是一个中立层 内核层我们就交给芯片公司 他们做得很好
然后我们做上层的这些东西 我很同意璐和志斌的说法 其实在整个 这个新的产业起来 AI工厂这样的运算形式起来以后 从整个产业栈来看 是有很多很多机会的 Inference芯片 推理芯片 只是其中的一小块 物理上你看整个机柜 其实那个芯片是那么小 整个机柜里东西特别多
机柜外面还有software 软件 我从业时间也很长 原来在IBM 当时是做云计算 那是一个很大的转变 在那个转变当中 其实有很多初创公司 就会找中间的一些 产业栈里面可以做的事情 去优化 去做 它只要做得好的话 就会被一些顶尖的厂商收购 有一种办法就是说 你去看看过去的几次运算革命里面
都有些创业者是在做什么 他们是怎么去切入 在开发中的产业栈里面 去解决什么样的问题 在现在新出来的 这个AI Comput里面 会有同样性质的问题 你想去把它解决 其实就会有机会 对 那整体看下来 其实在芯片的细分领域 不管是不同功能的芯片 还是在它的中间层的生态里面 还是有很多机会的 我注意到今年 Jensen在主题演讲
包括他之后也有一个开源的讨论会 他提到的最多的一个词是OpenClaw 其实今年OpenClaw的出现 应该说它是帮助算力在大幅增长的 因为大家在调用这个Agent的时候 需要使用更多的算力 他今年也在舞台上 我觉得他已经从AI工厂的叙述 一直在说他的Token经济学 在现场他还推了一个
叫做NemoClaw的软件生态 这个软件生态跟OpenClaw可以打通 大家怎么看他推的这个软件生态 他要做什么 包括志斌 还有Mark 你们都是芯片领域的创业者 比如说这个生态推出来以后 对你们自己而言 因为它相当于有了一个中间层 它到底跟你们是一个合作关系 利好关系 还是一个竞争关系
OpenClaw就是带来了 Token量的巨大的提升 这就是老黄说的 1000倍的Token使用量的提升 我是天天关注我自己Token使用量 因为用Claude的话 它太贵了 所以我会混着用 我的主力模型是Kimi2.5 因为Kimi相对于Claude 是便宜10倍 阿里最近也在尝试 但是对于普通用户来说
其实就比较头痛 你到底怎么样省钱 省钱的过程中又能保证性能不掉 这是一个问题 其实我们公司目前也在做一个工具 专门针对这种东西 OpenClaw我们叫 Tokensimulator(令牌模拟器) 加Auto optimize(自动优化) 我们马上要开源这个东西 介入到这个生态里面 就你用户只叫插入进去 那你就不用管了
它会帮你自动在后台规划你的行为 看你的配置文件 帮你做自动的优化 我觉得OpenClaw对我们公司 做的这种Agent for chip design 这样的项目来说应该是个利好 现在所有的大厂都在推自己的Claw 从大厂的角度来讲 他们应该是通过Claw拿流量 因为这是一个关键应用 基础设施建设了这么多GPU在那跑
需要有流量来支撑 需要把Token变现 变成应用 变成能实用的东西 那我们做 Agent for Chip Design的话 本身也是一种变现的手段 所以说跟所有的大厂来讲 没有什么竞争的关系 最关键的是说 OpenClaw它是一个 适用于普通用户的系统 这个利好我觉得是在生态 当然有了OpenClaw以后 会有很多的工具都会适配它
有很多过去的工具 原来是Agent不是很友好的 因为有了OpenClaw 可能都会变得很Agent友好 这样的话我们做垂域的时候 就会很简单了一点 至少有一些通用工具 你不用自己去做了 有人帮你做好了 刚才两位嘉宾也提到了 各大公司都在做自己的企业级 它其实也是在上面加一层 安全的部署 我对于英伟达 做这个NemoCloud一个感觉 我并不觉得说它真的想去
抓应用层的这些收入或者是机会 我觉得它更多的是想 确定自己在Agent的部署层面上 它有一个规则制定的地位 它可以成为一个 大家将来做这方面准入的时候 我是一个安全的层级 你都要在我的平台上去推进 而且我不知道大家 平时用Claude多不多 我们的公司里面 其实用Claude Coworker很多 当然我也知道像你说Token比较贵 但其实真的从
企业层级的安全化部署 还有高质量的各种任务完成的话 我个人还是会更喜欢 Claude Coworker 今天Claude新发布了Dispatch 这个也是有点像 跟OpenClaw对标的产品 我觉得对于大型的企业来讲 它更追求的其实第一层级 就是安全部署 第二层级是准确性和精准度 OpenClaw我也用了 我其实感觉是说 它会优化 要把这个事情做完
它并不会说要 去优化把这个事情做好 但是如果真的是到产业企业级的 这样的应用层级的话 它对质量和完成度的要求 是比较高的 因为我自己其实 也用了一下OpenClaw 然后我觉得 它接下来对很多领域的颠覆 会非常的大 就比如说 很短的时间内 它就可以自己写一个 企业的客户关系管理系统 以前这些客户关系管理系统
我可能是要跟SaaS厂商去定制的 它还没有那么好用 因为它不能100%适合 你的公司的商业模式 业务场景 你刚刚讲到NemoClaw 我觉得有几个点特别好 其实它们隐私 安全 好用 这真的是企业级的需求 它跟ToC的需求是完全不一样的 今年其实Jensen在他自己的演讲上 他也说了一个新的模式
叫做智能体即服务 对应之前的那个SaaS 所以自从Anthropic他们的 Cowork推出来以后 现在业界也有一个讨论 整个SaaS它的商业模式 会彻底地改变吗 这个问题想请璐回答 我觉得真的如果看所有的科技创新 它是三个阶段 基础技术创新 技术应用创新 商业模式创新 所以就像你提到的 我们未来如果真的可以
很快地进入到这个时代 有一个大规模的智能体 Agent铺设的话 它对传统的企业级软件 就是一个商业模式的巨大挑战 这可能不只是技术层面上 是我们一个商业理念层面上的 传统的这些SaaS公司提供的是什么 是一个标准化的软件服务 就不管什么公司 用的都是一样的软件 但是Agent它未来可以做到的 实际上就是像你说的 高度的定制化和个性化
未来的软件公司 它到底卖的是软件还是什么 是服务吗 我觉得都不一定是服务 如果说你相信我们未来的 整个公司的架构会改变 它不只是有 我们叫Humanlabor 人力的劳动力 还有AI劳动力 未来可能做软件的这些公司 或做Agent的这些公司 它就变成了一个劳动力输出方 它可能会有成千上万的智能体 这种专属化的智能体 去符合你各种各样的要求
你在想你的这个时候的商业模式 是什么样的一个模式 好消息是说 现在你可能卖软件 你用的预算是IT的预算 将来的话 你的输出 实际上是一个人工智能劳动力 你可以用到劳动力的预算 所以你可能可以去卖到更大的预算 但是它对人工智能的劳动力的 要求也会更高 比如说你是一个公司的CEO 你要去招人 那你招人的一个标准 是不是希望你招的这个人
能做你这个职位90%以上的工作 同时要超过90%以上人的能力 可能这也是未来 对于AI Agent的要求 所以如果拿这个要求去看的话 现在Agent的能力 确实还有一定的距离 所以我并没有那么悲观觉得 因为我也知道前一段 大家也看到股市上 一些SaaS公司的股价跌得非常惨 我觉得并不是说 这个产业全部都消灭掉 因为它本身企业级销售 它不单纯只是一个产品
它也是一个售后服务 销售网络等等 它是一个集合体 但是如果说SaaS公司 它自己本身没有AI模型能力的话 确实大概率未来可能就会消失 或被替代掉 但是还是有很多的SaaS公司 它自己本身是有模型能力的 我觉得这方面还是会有机会的 另外一点 创业者也要考虑 到底你的机会在哪里 是哪些SaaS公司可能会要消失掉
它的市场你是不是可以快速地占领 这也是可以去探索的一个方向 我觉得这新的SaaS公司 如果它现在不做剧烈的改变 很快会被这些智能体平台替代 它以前是通过招人 或者是把它的服务做上去 但是现在 是需要通过买算力 怎么样把这个算力 加上你原来对行业的理解 也要引入这些Agent
这是他们现在非常关键的点 对于这些SaaS公司 同时买算力以后你可能还要做优化 就是说你的算力 到你的服务输出的成本 投资回报率是最好的 这一块原来就是通过人来做 但现在直接是针对算力去做优化 所以这两个事情 一个是算力优化 第二是把原来有的
你的经验赶紧跟Agent 或者是现在的AI平台去结合 这样才有机会 我觉得其实在未来 每个企业都要想想 你未来的一个公司的组织架构 是不是都不一样了 现在可能是说 你的一个是人才密集型的产业 就是你人才越多 公司的价值越高 但在未来可能 一个公司它的核心是二三十个人 那它其他很多的职能 比如说HR CFO 财务 这些都可以外包
外包给各种各样的AI Agent 那这些AI Agent 也不需要是全职在这个公司工作 它可能是以项目形式 存在的周期性的 这个对于未来可能说 你作为一个公司的领导 CEO 包括初创企业 你要想一下 你具备什么样的能力 去管理这样的一个新型的公司架构 你不仅要管人的人才 你还要管AI Agent 然后你还要去定义说 哪些职位是人为主导的 是一个核心部门
哪些职位可能是可以外包的 用AI Agent Jensen今年已经说了 他说以后的招聘 会变成招聘一个工程师以外 你要告诉这个工程师 除了每年你的年薪是多少 你还有多少的Token额度可以用 就是说你可以管理多少个 你的Agent的实习生或者员工 可以打配合 另外他也说了 在NVIDIA内部 很多工程师大家基本上都用
Claude Code的了 这个就想跟Mark求证一下 你们平时在工作中 是不是都已经开始用AI设计芯片 跟用AI写代码了 Jensen说的是对的 我们在 应该是去年年初开始 在一两个月之内 公司从没有人用Coding Agent 到100% 这个也不光是英伟达了 其他的芯片公司 也已经启动了这样的流程
内部也是很大范围地在覆盖 这样的Coding Agent 我知道你在NVIDIA内部 是在领导用AI设计芯片的 这样的一个项目的 你可不可以跟大家讲一下 AI它是怎么做芯片设计的 谢谢这个问题 我在英伟达是负责设计自动化的 研究团队的 主要的任务是说 一直思考如何用GPU和AI
做芯片设计 我们这团队做了好几年了 在AI一开始 它在CNN(卷积神经网络) 和GNN(图神经网络)的时代 图像的模型时代 我们就开始考虑 怎么用AI来做芯片设计 我们觉得现在的大语言模型 或者Agent 它们是真正能够 通用性地来解决芯片设计的问题 在过去 如果当时还是只是机器学习 传统的那些机器学习的算法 或者说是即使是像图像识别 这种CNN的算法
它们能够解决一些芯片设计的问题 但是是很局部的 有了大语言模型以后 特别是Agent技术起来以后 它能够真正形成一个 通用的设计能力 这是我们一直在探索的 其实我们在3年前 2023年的时候 就发布了一个项目 叫做ChipNemo ChipNemo是我们 用英伟达内部的数据 我们当时收集了 二十几个Billion的Tokens 在内部的网上找到的数据
去训练了当时的几个基座模型 像Llama的模型 还有英伟达自己的Nemotron模型 然后用这些模型来做芯片设计 现在主要的趋势就是说 第一个 像这样的聊天机器人 能够跟你的文档进行交互 你可以理解设计的需求 另外就是说 Coding Agent 就是因为你能写代码 它写代码 不一定只是写软件代码 现在写RTL
硬件的这些代码也是能写的 虽然说质量还没有那么高 有一定进步的空间 将来真正的难点是说 你怎么做一个底站 不光是能把它生成出来 还要把它优化得好 那接下来我有几个 大家可能最关注的 关于市场竞争的问题 就是我们在GTC 大概是前一周刚刚发了一期节目 是讲谷歌的TPU的 因为现在包括像Anthropic
Meta 还有苹果 他们也都在用谷歌的TPU训练模型 所以大家认为 未来谷歌的TPU会动摇 英伟达在芯片领域的垄断地位吗 如果说未来整个全产业 都要进行人工智能整合的话 你单纯靠一家公司英伟达 去支持它的 这个需求量也是很难做到的 所以我觉得英伟达它现在本身
把自己打造成不只是一个GPU公司 而是形成了一个 人工智能基础设施的公司 就是因为它希望成为 整个人工智能基础设施的龙头老大 但我觉得在这个基础之上 并不妨碍其他的公司提供多样化的 芯片架构的解决方案 就比如说像TPU是其中一个解决方案 TPU其实还是在谷歌内部全体系 全栈式的优化情况下 它做到的一个表现效果
和训练效果是最好的 谷歌自己用的话我记得 它的那个训练成本 可能只有ChatGPT的三分之一左右 但是其他的公司去用的话 可能做不到这么低的训练成本 所以还是因为说 它自己本身也是做了一个系统优化 但是 英伟达因为这么多年 它其实作为一个第三方 在服务很多家企业 所以它的这个体系不只是GPU 还有包括它的CUDA System等等
它是希望可以针对 各个不同客户的需求 都可以做到效能的最大优化 所以我觉得其实短期来看的话 它的系统优势还是很明显的 科技公司希望也去用TPU的话 也是因为 一来 确实芯片短缺 需求量很大 二来的话 谁也不希望说我只有一个供应商 这样的话在未来可能 在行进的过程中也会有很多的挑战 除了这个之外
包括苹果的芯片 人工智能芯片 一直做得也非常好 他们是自己的一个体系 还有另外一点 我们就会看到很多新的 创新的模型架构 它可以在CPU上运行得比GPU更高效 所以也就是说意味着 未来对CPU的使用量也会逐渐增加 这也是为什么今年你看到 Jensen在NVIDIA的GTC层面上 也有去强调未来CPU的市场增量 所以我觉得未来的市场
会是一个多样化的市场 根据不同的应用场景 不同的应用的优化系统需求 你可以选用不同的芯片 我个人觉得 英伟达它的一个领头的位置 还是会比较强劲 它已经成为人工智能基础设施了 所以就像大的一个电力厂一样 不管你用什么样的芯片层 你可能在未来 都会用到它的基础设施层 Google因为2017年就发布TPU 持续做了很多代
其实Google的做系统 或者云的这些能力 包括里面的做互联的能力 做垂直供电这些能力 其实是超过英伟达的 比英伟达厉害 但是Google是针对它自己 跑的这个应用场景 做了很多的优化 包括里面做嵌入的processing 加速 还有稀疏的加速 它是有一些自己的 特定的客户定制化
之后 Google把它的那个能力 外放到像Anthropic 或者其他一些公司 我们也有一些朋友的公司 在围绕着TPU做优化 提供服务给外面的这些公司 第二就是AI的帮助 让AI做优化或者是算子 或者层级的优化 其实是越来越方便了 CUDA的模式已经从kernel
到更大的是在系统层级的这些 所以Google对外的这种 更可以接受的程度会越来越大 同时Google又有自己的 Gemini的这些模型的能力 应用的能力 还有它的视频YouTube 它的能力是全方位的 甚至于Open AI这些 也要做自己的芯片 所以对老黄来说
这些其实都是比较实实在在的威胁 但是Jensen或者是英伟达 有它自己的优势 就是它的执行力 包括用AI来设计芯片 包括它们内部一年推出7款芯片 这种执行力 因为在硅谷 执行力特别强的芯片公司 英伟达 Broadcom(博通) 这两家公司执行力非常非常强 还有就是老黄对于供应链的控制
即使AMD接到了订单 或者Google接到了订单 其实老黄跟台积电的关系特别好 所以他的CoWoS的产能 大部分在他手上 所以这也是老黄的另外一个 非常大的优势 这也是多年的信任建立起来的 我可以把刚刚志斌老师提到的 英伟达的核心“护城河”总结为两点 第一点 它快速的执行能力
第二个是供应链的把控的能力 现在我们看它已经是“芯片之王”了 未来在哪些方向上 它可能会面临挑战 因为这个市场足够大 所以有可能它 虽然执行力非常强 但是会有各种不同的应用 从垂直的领域去进攻英伟达 包括机器人的AI芯片 以后从数据中心到物理AI
物理AI对芯片的需求是非常大的 而且谁把控了物理AI的入口 那数据中心后面其实是会引流的 所以机器人AI芯片 目前还没有形成统一 因为我两年前 其实有想做机器人AI芯片 但是那个市场还不成熟 包括机器人芯片的物料成本 可能是整个机器人大概7% 8%
也不是那时候的瓶颈 包括机器人的基础模型也不成熟 但是这一块是有机会的 这也是为什么OpenClaw出来了以后 它有点像这种 数据中心数字智能体 数字机器人 所以老黄快速推出了DGX Spark 前两天又推出来一个工作站 它可以跑更大的模型 其实老黄对于这种
边缘端私有化部署是比较担心的 所以他的动作非常快 对 我觉得对听众来讲 是不是用TPU还是用GPU 除非你做投资 可能一般来说 也不一定有直接的利益 但是你可能要考虑的是说 你将来的AI要用什么供应商 比如说TPU那肯定就是Gemini 是不是将来Anthropic会有TPU 这个现在未知数
但是其他的都是在GPU上 所以我觉得真正关注的应该是说 你的性能是不是能提高 将来是不是TPU能够做到 什么1万个Token每秒 如果说有技术上明显的进步的话 那可能 比如说你在做你的创业 或者说你的工作的时候 你会考虑到 我是不是要用Gemini 我觉得从应用的角度 可能关注这方面的信息会比较有用
但我个人觉得可能暂时不会出现 很大的性能的差距 现在不管是用TPU还是用GPU 可能最终使用者来讲 可能都是差不多的 对 我觉得刚才两位讲得都非常好 我们刚才已经提到 在训练和推理层面上 到底哪个部分 它未来成本更高或者消耗更高 现在既然我们有一个共识说 推理的成本会越来越高 整个推理的权重会越来越大
它也并不只是让英伟达去受益 其他的CPU厂商比如说AMD 可能也会受益 所以这可能会是它短期的 一个小小的挑战 另外一点 刚才志斌提到的 就是私有化部署 其实真的你去看 企业级人工智能的应用 还有Agent部署的话 大部分的传统行业 因为它高监管的缘故 因为它对于数据隐私的要求 它其实是更偏向于私有化部署 包括我们和 你刚才提到另外一家公司
Broadcom去聊的话 像高通他们那些都是在押注于 人工智能在边缘端 我们也一直非常看好边缘计算 边缘AI这方面的应用 像Qualcomm(高通) 它也有NPU(神经网络处理单元) 这个也是 重点是在怎么样 可以去低能耗的 进行边缘端的人工智能的部署 所以我觉得这些可能都是一些 现在看起来还不是很大的市场 但是一旦开始推进了之后 它增长速度很快的
可能英伟达还没有非常强的 现在的部署或者整合的方向 我觉得这些可能都是它 短期会面临的一些挑战 另外一点 我可能想提一点 就是跟技术不一定直接相关的 它成为一个 市值如此之大的一家企业 其实一方面它被资本推崇 也会被资本裹挟 当你的资金量还有市值 到达了一个数量级之后 作为公司的CEO
还有你需要为你的股东负责 董事会负责的话 你可能就要去排一下优先级 可能优先级第一位 是怎么样把这个市值去维持住 而且市值要持续增长 这个时候在公司内部资源分配 到底是更多的优化 只是短期的收入的增长 还是说去进行一些长线的 技术创新的投入 这个权重可能也会受到影响 我觉得这也不只是英伟达 任何公司到了这样的一个位置 CEO和董事会
都会面临这样的一个压力 好的 我觉得大家总结得 都非常全面了 今天我们也开放两个问题 给我们现场的观众 大家请在提问的时候 指定你想要谁来回答 好不好 非常感谢各位嘉宾的分享 我叫Christina 我主要是做AI投资的 我可以从二级市场角度 分享一下为什么这个英伟达 1万亿这个(销售目标)出来以后
股价没有怎么动 就是因为我们很多华尔街的投资人 在之前做模型的时候 已经拆出了大概这样的一个数字 我的问题想问得更细致一点 主要是问两位芯片领域的专家 泓君刚才也说到 说Groq发布的事 比我们想象都觉得很快 Groq它主要的代工其实是三星 另外 英特尔也在说 他们技术特别是封装已经追赶上了 他们技术上也有新的突破
打算去做英伟达下一代的产品 我是想理解一下 这个是英伟达因为供需关系 逼迫他们不得不牺牲一部分良率 去做这个事情 还是说 确实英特尔和三星的技术 表现得很不错 有可能以后会成为双代工 这样的一个局面 其实是这样的 过去的叙事是算力 就Broadcom跟Google TPU 包括英伟达 但去年的这个叙事就是
这些算力后面的 其他的这些物理的真实的瓶颈 所以去年 因为你做二级投资 比较火的要么就是内存 要么存储 要么现在是光 要么是CPU 再后面还会有半导体测试设备 还有光的测试设备 反正所有这些物理的瓶颈 英特尔的EMIB 其实封装技术是非常好的 现在大家都想着
用台积电的片 然后用英特尔的EMIB来做这个事 目前还没有人正式验证 因为商业上它不成立 可能台积电不想把我的片子 拿出来给英特尔封装 英特尔说你要用我的封装 你必须用我的Foundry(晶圆厂) 所以商业上是有一些悖论 但是其实业界是有这种尝试 确实英特尔的EMIB 在一些Hyperscaler(超大规模云厂商)
其实是已经证明了用得蛮好的 三星当然也是需要赶上 因为三星自己有HBM 三星的良率可能会 相对于台积电要差一些 但是作为第二供应商 其实还是可以的 就是说你的产品线 像英伟达一年出7个芯片 它总有不同的芯片需求 其实就是现在尽可能地把产能用上
各家都有自己独特的一些优势 优势在哪里 这个就需要跟英伟达去迭代了 英伟达其实一直就是 同时在评估每个晶圆厂 时时刻刻在进行着 这个不是说是 今年突然想到要用三星 他们对每个晶圆厂是什么技术能力 都是很清楚的 Groq这个事情 也有可能就是说没有产能了 因为是一个很突然的事情
可能它跟台积电的订单 就没有来得及放进去 然后三星正好有产能 那可能就用了 也许是这样 我只是猜 因为我不知道 我叫陈飞 我也是做二级市场投资 我有一个小问题 最近一直困扰着 从Anthropic的Cowork 到后面的Coding Agent 老黄的“护城河”这么多年 其实最大的就是CUDA CUDA也是一个软件 最近一直都在担心
它会不会被Coding Agent 或者是Anthropic把它 也写一个CUDA出来 可能很快的速度接近于 它的80%或者90%多少 这个“护城河”壁垒 是不是在快速地被削弱 特别好 这个问题其实我也想问 今天考虑到时间关系就没有问 终于有人帮我问出来了 的确 Coding Agent能做很多事情 但是现在Coding Agent
能够做出很多高性能的代码 还是有待看一看的 CUDA的话 它肯定是需要最高性能 它所有的很多代码都是优化过的 内核都是优化过的 首先这是个技术壁垒 另外CUDA是不是还是 唯一的“护城河” 还有很多全栈的护城河 变成AI基础设施以后 它已经不再是一个芯片的问题了 所以我觉得从“护城河”上 好像多了很多
所以我觉得这个 可能不再是那么一个 最重要的问题了 在CUDA这个角度 能不能够复现CUDA 我觉得好像我记得Jensen曾经说过 他都可以开源CUDA什么的 曾经说过类似这样的话 CUDA在内核级的模式 我根据很多大厂工程师的反馈 其实越来越弱了 因为大家用AI写的 基本上可以90%以上 跟手动优化差不多到这个程度
但是 因为英伟达 已经变成了一个系统公司 系统公司里面 有很多硬件的方法论 数据这种 类似的硬件知识 这些东西 这些Coding Agent现在还没有 这些东西它可以自己内部在消化 去做自己的优化这一个层 这也是我自己现在这家公司 要做的一个事情 就是我们是对数据中心
或者是GPU或者AI芯片里面 我们会得到很多的数据 那些数据变成了我们的壁垒 我们用这个数据 对整个AI 基础设施做仿真 再做优化 而且不做内核级的 偏中间层 所以我现在有点担心 因为我们公司也用Coding Agent 我们自己有很多的专有技术 所以我们会换着用 不要所有东西都给Anthropic
或者Codex 还有有些数据 你就在私有化能够部署做一些事情 其实大家都要有这种担心 你的专有技术 你的知识 其实它是一直在学的 这就是为什么 其实你看很多游戏工作室 他们其实在 用这种Coding Agent的时候 就会非常非常小心 因为这个是他核心的IP 所以从这个角度上来讲的话 私有化部署非常的重要 所以刚才两位都说得很好
CUDA它其实已经形成了一个全体系 所以它的护城河还是在那边的 当然就像你提到的这个CUDA优化 它可能会现在好做一点 但是其他的芯片厂商 也一直在做类似CUDA系统 然后也做了好长时间 还包括拉一些大的软件公司去合作 但是你看到现在也没有做出来 所以它也不是一个简单的软件层 还有很重要一点 就是CUDA它也形成了一个 开发者的族群
它也是一个社区 所以这个社区的凝聚力 还有它的向心力 包括它对于环境的舒适度 也是它的一个小的“护城河” 这是为什么它 在大规模地去做这种投入 对于像初创孵化计划 去培育这么多的 不只是它现在这些大客户 而是说它未来的这些潜在的大客户 其实我跟谷歌的人也聊过这个问题 他们自己的观点是说 可以有一部分Coding Agent帮忙
但是从底层上你还是不敢 把你底层的这个权限交出去 我们刚刚一直在讨论 老黄说的今年他是两款的芯片组合 他要到2027年 总共的销量会达到1万亿 所有人都觉得这个数字 听起来非常夸张 但是我们顺着这个推理 它也是有可能的 因为作为数据中心我觉得 你的感官是最直接的 可不可以跟我们分享一下
今年你对大家铺设GPU 包括数据中心 它的速度的感知是怎么样的 我觉得对于数据中心的铺设 是非常快的 可是最终的瓶颈 事实上还是卡在链路和供电 现在的整个发展 美国的全国电网已经是枯竭 没有任何的东西 你是不可能拿到10兆瓦以上的电 现在90%新的数据中心建设
都是behind the meter(自己发电) 意思就是现场 都是用燃气发电方式 就是说我哪里有气管 我直接扩大 直接放天然气的发电机 放在上面直接燃烧 直接就地去盖这个数据中心 事实上现在也就是 所有的数据中心开发 基本上都是找一些旧的 Brownfield(已开发过的地产) 直接去改建成新的数据中心
过去的用钢筋水泥这样子盖 也不存在了 以前Hyperscaler可能还有抗拒 基本上这几个季度都没有人在乎了 全部都是用集装箱的方式来做 直接送40尺海运柜 里面就是预机架式CDU 所有的光纤 高速光纤 加不间断电源 全部都一起上 过去至少我们都是以几百兆瓦 和几个吉瓦的方式在建
一个天然气发电厂的平均规模 通常是差不多300到 500兆瓦 一个核电站 差不多是2个吉瓦到4个吉瓦 事实上还蛮不够的 基本上现在美国的大厂和中国大厂 都是开始包核能发电厂 就是说你也别卖给电网了 你全部给我 我全部就地直接做一个变电站降电
直接盖 回答你的问题 要达到1万亿美元的营收的话 最终就是看你到底能多快的时间 把整个数据中心建起来 所以现在其实大家是在比拼 建数据中心的速度 你刚刚提到了 现在建数据中心最缺的是电 你觉得它是缺哪一部分呢 它是整个供应链的短缺 比如说涡轮发电机的短缺
变电器的短缺 还是它是已经有了电 但是它要并入电网 让这部分电不是居民用电 它作为工业用电跟数据中心的用电 它是卡在哪个环节上了 我觉得是多部分的 一个比较复杂的情况 美国事实上是不缺电的 美国是有很多的输电能力 你在高压电上面
都是有330KV(千伏)的电 重点是配电 就是说到可用电 过去是400V 现在是800V 重点是要到这个情况 基本上还是被监管法规绑住 因为你要建一个变电站 你影响的可能是一整个 德州的电网的稳定性 所以当然是要做比较多的研究 美国的电网事实上就是 由被石油、天然气那帮人运营的
他们不是科技行业的人 他们动作事实上是没有 在硅谷这么快的 所以基本上都被卡住 所以现在他们才转而是说 好 你慢慢搞 我现在就直接用柴油发电机 或是天然气机组 直接先上 刚刚我们讲到了基础设施层面 因为其实你们一端是基础设施 一端是用户 从你的感知上来说 今年用户在企业 想用这个GPU Cloud的时候
以哪一类企业增长最迅速 我觉得分成两块 一个是企业客户和超大规模云厂商 事实上就是一个算力中间商 他们自己有不知道几个百分比 是在做自己的大模型开发 一部分是卖给不同的客户 不同客户分出来 基本上就是企业 企业有分三种 一个是做不同的大模型的训练
预训练或者后训练 第二个就是Gen AI 以多媒体这块在增长 第三个就是AI Coding的增速 还有第四块事实上我们也才刚开始 就是整个OpenClaw 真正的Agentic的落地 才起苗头 可是发展速度非常快 我觉得中国已经有意识到这个东西 可是美国可能还没有中国这么快 我记得今年老黄
在他的开源讨论会上他说 中国已经开始“赛龙虾”了 美国的速度还没有中国 在OpenClaw 这件事情上这么疯狂 从你们的体感上来说 因为其实一旦接入“龙虾”以后 他们烧Token量 它的消耗速度比传统的Agent 或者比我们刚刚说到的 这种Coding Agent 它的量对比
你会有一个直观的感受吗 我觉得我现在还是蛮难估的 我可以做一个比较简单的预判 历史不会重复 但总会押韵 过去的数据中心 事实上也是从个人的 或是企业内部的服务器开始的 现在是拿Mac Mini 或是拿DGX Spark来玩 可是还是属于 早期采用者中的早期采用者 你要会去使用这个东西
最后企业肯定不会给你 每个人发一台Mac mini 肯定就是公司内部的一台服务器 几个机柜去搞 这东西是非常不可扩展的 不可能的 最后全部上云的 互联网 大家也看到 这就是为什么隐私被高估了 说实话 真正的用户 消费者 其实并不那么在意 就是想要我方便性 “龙虾”现在还是开发运维居多 我认为还不到1%的人能去使用
过去几周 几个月 我看到了很多公司 已经有很多的Agent公司 推出用户友好界面 做得非常好的一键部署的 这种东西最后绝对都是 用云服务的方式来做 所以我认为适合那些技术型 且重视隐私的人 可能你自己也有一台主机 我相信大部分的使用者
还是会去采用上云的方式 但这场变革还没有真正开始 因为做这些云端解决方案的公司 可能还在种子轮 甚至不是A轮 所以他们可能还是需要 差不多一年两年内 我觉得会有一个更大的爆发 这个爆发还尚未到来 我们已经有多媒体的发展 非常可怕 大家可能也在期待什么 Seedance这些东西 将会非常疯狂
多模态是不是也是一个 挺耗Token的量 但是它起来了吗 你觉得今年开始大量的消耗 这种Token了吗 在抖音 小红书 或是在Instagram Reels上面 可能看到已经很多的AI的短剧 短剧在国内已经很火了 现在美国才开始 做短剧这个东西 中国还是比较有优势 大家知道美国也是 消耗的Token量都是非常可怕的
从你今年的观察来看 你觉得在整个今年GTC的发布中 你自己印象最深的一个产品 或者说跟你的业务 直接相关的一个产品是什么 跟我业务最相关 可能就是Vera Rubin 和Vera Rubin Ultra 不只是老黄自己讲的 有很多的其他的供应链 所做出的一些 因为求速度的改变
像是整个数据中心 还有上架和堆叠的 模块化解决方案越来越多 而且会越来越频繁 从(拿)土地 盖楼 到通电 做配套土建 再到数据中心的白地板 架高架什么的 水 电 光纤 差不多4个月时间 让你从白地板再到机架空间 把服务器塞进去
再需要看规模多大 2个月到4个月的时间 取决于交付周期 现在事实上就有 直接模组化解决方案 一上来就是模组化机柜 都是架好所有的线路 这种速度就会再加速 所以就是从过去的 可能是18个月到20个月的交付周期 从未开发土地到提供服务 可能现在可以压缩到 6个月到9个月的时间 这是不是他说的
那个AI工厂的概念 他其实是从以前是比如说卖GPU 到卖一组一组的GPU 现在已经开始卖AI工厂 他相当于全套各种打包好给你 做更多的设计方案 然后让大家可以加速落地 对 因为规模也起来了 我认为NVIDIA设了很好的目标 它每年的更新都会提早 去跟供应链沟通
所以供应链也是跟着NVIDIA的指引 往前走的 所以节奏速度会继续加快 那你怎么看老黄他说过去两年 整个推理计算增长量 是增加了1万倍的 它的使用量是增加了100倍 所以过去两年它的计算需求 是增加了100万倍的 从推理来看 你觉得现在的推理 在中美两边它的发展是怎么样的
我们的一个集群基本上都有3到4家 超大型的公司在抢同一个集群 大陆的话就是“养龙虾” 还有Coding Agent这一块 速度发展非常快 基本上所有的大模型公司 像是Kimi 智谱等等 他们现在主要的营收 也都是卖Token开始起来 美国的话 主要也是两个 一样是AI Coding 还有多模态视频模型
中国这边的话 主要也是Coding还有Agent 就“龙虾”的Agent这样子 Coding现在用的是哪一块的芯片 因为今年老黄他是在那个会场说 建议未来会把这个25%留给做推理 因为你其实训练跟推理 你同时要求高吞吐跟低延迟 它其实是两个完全不一样的方向 所以以后大家在 配置数据中心的时候
它可能也是完全不一样的方向 芯片的话 基本上大厂都会习惯用算推一体了 只要做好比较好的负载均衡 和调度的话就好了 主要还是以N卡居多 因为就企业而言 做预算规划的时候 如果说他一个厂是做训练 一个厂是做推理的话 等于是你要花两次钱 就算是AMD的卡或是其他的卡 那为什么他不能把推理和训练的东西
混在一起做 市场上主要是以英伟达的卡居多了 Coding的话 主要就是Claude Code 明显是第一位的 我看智谱GLM-5 Kimi 2.5 事实上都是非常流行的 开源解决方案 来做一个算是“平替”吧 从你们现在的感知来看 你觉得现在市场上 NVIDIA它的哪些产品是处在一个 比较紧缺的状态中
还是整个的芯片供应都是可以的 从产能上 我觉得供电当然是一个大问题 可是有不同的瓶颈 因为我们事实上是 有做组件能力的公司 事实上就是中美两边的 超大规模云厂商 就那7家 另外一个就是Neo Cloud 可能就是Nebuis 有这个组件的能力 他不是直接买现货产品 像是什么Dell设备 Supermicro设备
我们事实上也是另外一家类云 有这种能力 我们是直接去跟这个ODM直接下单 去定每一个指定供货商 或是指定代理商 我们对这个东西也非常敏感 我们也是做前景预测 就是锁定2027的所有的产能 至少我们能确定我们的产能有 可是价格无法确定 现在的话很明显
每个人都知道内存已经很疯狂了 去年到现在 已经涨100%到200%了 DDR4 现在的话 CX7 转到BlueField 市场也都是NVIDIA的方案 交付周期也在不断地拉长 总体 在内存还有以及 事实上是因为 HBM压缩到了其他的 像是DDR就开始缺
现在SSD(固态硬盘)也开始缺 我们预估至少跟供应链的沟通 他们是到2027年底 都不会有好转的迹象 我们刚才说的CX 7 Switch也在缺 现在开始亮黄灯和亮红灯的就是 连Intel的CPU也开始缺货 不只是这个东西 还有到CDU 就是水冷的方案 也都是开始缺货中
感觉这些东西在二级市场上 都是财富密码 对 因为我看像英伟达它的财报 他们其实有50%的收入是来自于 这个市场前五大的云厂商的 其实你们也是做GPU云的 我知道你们其实也是英伟达的 官方合作伙伴 你觉得 运营一个GPU的云
最核心的能力是什么 我觉得是取决于对象是谁 对于新创的话 第一 你要先有 这是最重要的事情 就是有卡 就是上线 接下来就是说你要做得非常稳定 这个稳定事实上是一个 运营密集型的问题 供应链要很强 要能支持你 因为这些机器
它有20多万个独特部件 20多万个独特部分出厂设置 每一个部件上 至少有5%的工厂故障率 然后你又把这20万个部件 又连上几千台一模一样的东西 出现故障是必然的 那你在故障的时候 你能不能快速地拿到数据定位到问题 能叫供应商马上给我刷包出来 然后才能维持这个SLA 第二个就是说
硬件是没有损坏的状况下 你的开发运维团队 能不能快速地排查所有的问题 那这个东西事实上是一个 非常复杂的问题 因为你不知道是硬件坏掉 不知道是光模块坏掉 不知道是交换机坏掉 还是说你的K8s坏掉 或者说客户 很多客户 事实上 他们不知道自己在做什么 真的不知道 因为GPU换代换太快了 你大模型公司 大部分都是研究员
顶级的研究员 但他们不是基础设施方面的人 他们就像 哦 GB300出来了 我需要拿到GB300 这是最有效率的 但以前没人处理过 这些他们就是丢给我们 那还有一次Ubuntu 的升级 所以这是一个非常复杂的问题 从硬件到不同的硬件再到软件K8s 或是说不同的解决方案 包含整个框架的选型都非常重要 所以 所有这些都归结为一个形容词
就是可靠性 和你能不能快速解决问题 最终体现到这个SLA 我觉得这是对GPU这一块 接下来才是软件层 只说Model services(模型服务) 可能是像是Fireworks Together 想要在做的事情 你有这个稳定的GPU的维护能力 运维能力 才到模型服务 你能不能做运维的优化 这也是我们在做的两点 就是指说
当你量够大的时候 你事实上可以做很多的骚操作 做BD和EP 就是做一个集群化的推理 你才把这个Token成本往下打 你才能让客户省到钱 因为你刚刚其实也一直在讲 你们其实已经在预定 2027年的产能跟最新款的芯片 其实这个芯片 就像Jensen他自己 在这个演讲中说的 它的能耗是在不停地降低的
而且是在指数级的降低的 但是这样就有一个问题了 大家以前可能还采购了H100 H200 然后到现在 它已经能做的AI工厂了 就是说芯片现在的GPU的折旧率 在比如说一个资本市场的估算中 或者在你们自己的估算中 它是按照几年去折旧的 对冲基金的答案是5年 就是华尔街的做法 技术角度上来看的话
你就直接去AWS上面看 你能不能租到V100或A100 你租得到的话 干得好 这很罕见 V100是多少 2017还是2018 年出的产品 7年 8年 还在用 事实上使用非常的高 现在 所以其实整体上 它的预想时间是会比资本市场 估的那个时间还要长的 主要原因是现在需求量太大了
现场的观众有没有要提问的 我们可以开放一个问题给大家 嘉宾 你好 我也是做二级市场投资的 但是我其实对于咱们这个公司 还挺好奇的 我看咱们定位是一个AI服务的 Cloud service 我就想问 你们这个公司跟 比如说Google Cloud Azure 他们去竞争的时候 你们会有一些什么差异化的策略 因为我觉得Cloud service
是一个比较需要规模化的行业 作为初创公司 你们是怎么去思考这个问题的 这是个好问题 我先讲一下新云和超大规模云厂商 它们本质上的差异 它们主要是一个CPU云以及存储云 经典的云计算 它们的做法就是 用VM(虚拟机)的方式来做 可是你用VM的话 事实上是吃10个点的计算能力 你在CPU的话 没人在意
一台服务器就是两三万美金 可是你现在GB300 就是一栋几百万美金的房子 所以你承担不起 所以用VM的方式来做 我们或我们这类Neo Cloud 就是主要是以K8s的方式 去做整个集群的管理 让客户直接能拿到 bare metal(裸金属)的 百分之百的性能效率 所以我认为这是非常大的区别 我们的优势相比较
CoreWeave或者Nebius等等 我觉得我们事实上有两块 产品 以及我们的区位 我们事实上也是NVIDIA 唯七家的RANCP 就是英伟达官方认证的云服务商 那什么是RANCP 搞笑的就想说是老黄的白老鼠(试验品) 我们会拿到所有最先进的GPUs 第一批 与超大规模云厂商一起 像我们就是全亚洲第一家
去搞到GB300的集群 它现在事实上也在陆陆续续上线 我们建了一个万卡集群 也是水冷方案 NVIDIA自己内部也没有搞过 大规模云厂商不会跟他分享经验 我们会分享经验 所以我们就是会拿到最新的 包含我们现在也是下了 第一波的Vera Rubin 我们事实上也到今年年底会上线 第四季度也会上线第一波的Rubin 规模化上线 这就是RANCP的含义 全球就7家
我们事实上是唯一一家 在亚洲有集群在美国有集群的 我们现在是管理差不多 9个已投入运营的数据中心 我们还有3到4个正在建的 我觉得这是第一点 主要是很多的法规 或者说据安全问题 还有些企业他不想在美国本土 或是说因为推理对延迟时间(很敏感) 那他会需要在全球多个地点布点 以实现低延迟的可能性 第二点
我们跟像是CoreWeave的差距就是 一家公司的背景是跟 它的老板的背景正相关的 我觉得CoreWeave 我认为他们是现象级的公司 我觉得他们做得真的非常好 他们毕竟是一个对冲基金出身的 他们没有一个所谓的 核心软件能力 他们是通过收购来补齐技术 能明显能看出来 他会大量的去买不同的公司 来组成他的所谓的软件栈
可是我觉得我们的公司 主要是以产品为核心的 我就想要把做出一个 vertical solution(垂直解决方案) 可以让Enterprise 让企业 让创作者 让开发者 Youtuber去使用 我们有做不同工作流 做工作室等等 所以我们不只是做整个K8s的 管理层 再到上面的模型服务 我认为这是独特的位置 我们也做内核的优化
就是能让客户在稳定的GPU上面 还有在为客户做Token的降本 所以我觉得核心就两点 第一是产品形态 我们是一站式平台 在我们这里你既能用OpenAI 也能用Gemini Deepseek Qwen Kimi2.5 再加上我们遍布全球的GPU算力 好的 我们今天的时间也差不多了 感谢所有坚持到现在的朋友们 谢谢Alex 谢谢大家 谢谢
好 这就是我们今天的节目 本期节目不构成任何投资建议 如果大家对英伟达的GTC 有什么自己的想法 可以给我们写评论 写留言 如果大家喜欢用播客 来收听我们的节目 可以在小宇宙 苹果播客 还有Spotify来找到我们 如果大家希望能够看到 这期播客的字幕版 可以通过B站或者YouTube
搜索“硅谷101播客” 来找到我们 同时你也可以在微信视频号 还有小红书上 搜“硅谷101”找到我们 那我们部分节目的文字稿 也会发表在我们的微信公众号 硅谷101上 我是泓君 感谢大家的收听
Loading video analysis...