E230｜1万亿收入预期背后：英伟达的巅峰与软肋

By 硅谷101播客

Summary

Topics Covered

推理成本将超训练成现金流主流
供应链瓶颈制约万亿订单落地
AI加速芯片设计一年出七款
Groq纯SRAM架构革新Agent推理
Agent颠覆SaaS成劳动力输出

Full Transcript

哈喽大家好欢迎收听《硅谷101》我是泓君每年3月份是硅谷最热闹的时候整个科技圈都在关注英伟达的GTC大会所以我们也举办了第一次的线下播客录制邀请各地来的朋友参与到我们的现场讨论中今年黄仁勋站在台上说 2027年底 Blackwell和Vera Rubin

两个平台的累计订单预计会至少1万亿美元 I see through 2027 at least 1 trillion dollars. 我预计到2027年至少将有1万亿美元

要知道 2024年全球半导体产业的销售额也就6000多亿美元所以这也是我看到 AI产业最核心的一组矛盾需求端是万亿美元的疯狂订单而供给端从先进的封装产能内存到电力配送几乎每一个环节都在遭遇瓶颈这期节目我邀请到了四位嘉宾

来帮我一起拆解英伟达的万亿野心到底能不能落地以及它的护城河是否正在被竞争对手围剿那这期节目我分成两个部分参与我们第一部分讨论的嘉宾是大家的老朋友 Fusion Fund的创始管理合伙人张璐还有两位新朋友一位是Agentrys的创始人与CEO Mark Ren博士

他也是英伟达的研究总监还有一位 ZFLOW AI的创始人与CEO肖志斌博士他是前CASPA的主席与董事会顾问那我们前半段的讨论中有AI的投资人也有在英伟达内部用AI做芯片设计的Mark 还有亲手设计过芯片的志斌以及在后半场

还会有GPU云的创业者Alex加入我们因为Alex他的母语是英文所以后半部分会有大量的中英夹杂加上我们的嘉宾基本上都在硅谷工作了十几年所以如果这期节目的中英夹杂影响了大家的理解大家可以在B站和YouTube上搜索我们的字幕版也请大家能够多多包涵

那下面就跟我一起正式进入到我们线下录制的会场我们先从4个数字开始今年我也去老黄的 Keynote的主题演讲了其实准确地说我大概已经是去了好多年的GTC的活动了我跟大家先总结一下他在这个演讲上的几个关键数字第一个数字是“1万亿” Jensen说到2027年

Blackwell跟Vera Rubin的订单规模累计将达到1万亿美元去年的这个数字是5000亿美元我觉得应该现在在全球商业史上是很难有人能达到这个销售规模的第二个就是“7块新芯片” Vera Rubin 它的平台是一次性发布了7块新的芯片而且已经全部进入量产了

也可以说这是英伟达有史以来规模最大的一次同步发布还有一个就是“10倍” Vera Rubin 它NVL72 相比Blackwell 推理效率提升了10倍每个Token的成本降了十分之一另外还有一个数字是“35倍” 就是今年大家很火的一个概念就是“Token per watt” 性能提升了35倍

不然我们就先从第一个数字开始分析起就是1万亿的销售规模仅仅靠两款芯片 Blackwell跟Vera Rubin 璐你怎么看这个销售规模你觉得现在市场有这么大的一个需求量吗对首先就像你说的他这个数字其实比上次提到的上限翻了一倍我觉得这也跟他今年的主题相关他已经希望大家不要单纯把英伟达看做一个GPU公司了

他想把英伟达打造成一个人工智能的基础设施的公司一个巨大的人工智能工厂它的产出是未来工作的一个新定义的生产力就是Token 所以在这个角度上来讲未来增长空间确实很巨大因为它不只是单纯说我们平时要去训练一个模型现在在训练模型下一步是什么为什么有那么多讨论在推理层也是因为现在我们在讨论很多对于Agent智能体的应用

Agent智能体大规模的铺设之后在推理层面上的需求就会进一步增强其实我们真的去比较训练和推理的话训练更像是一次性的成本投入但推理它是一个长期的现金流不停地去调用包括现在有一个长的上下文本就会导致对它的消耗也会更大再加上你又对一些Agent 真的部署之后

它有一些比如像低延迟快速反应还有实时在线的这些需求对它根本上的Token消耗也会更加多所以我在长线层面上我觉得这个预期是对的当然是不是能够很快达到这个数字也取决于我们在产业 AI的整合还有Agent铺设过程中能达到什么样的快速的速度所以我觉得这也是为什么今年你看他还做了很多其他的发布

希望在企业级人工智能部署层面上也可以做进一步的推动从侧面去加速他的“1万亿”的目标的达成你刚刚提到一个很好的点就是推理据你观察比如说我们现在看到这些顶级的模型厂商中他们训练跟推理成本现在比例在呈现一个什么样的变化因为我是看见以前大家在芯片上

绝大部分都是训练成本但是现在看起来推理的成本正在拉平训练成本是的这个话题特别有意思我记得大概2023年 2024年的时候当时我是和应该还是微软的一个CTO 他在提到说他们自己都预计在未来其实更多的成本是在推理层而不是训练我觉得2023年的时候可能百分之七八十是在训练现在可能是一半一半推理和训练

到明年或者说后年的话可能最后百分之七八十的成本都会是在推理层所以从这个角度来看推理绝对是巨头所以我非常相信我刚才说的那句话如果你看长期的现金流那一定是来自于推理对志斌我们刚刚提到了这个“1万亿”的经济数字但是我觉得它整个背后其实是需要供应链支撑的我也跟大家简单介绍一下志斌

志斌其实是芯片架构师也设计了阿里的含光800的芯片加速器所以他对整个的芯片供应链是非常了解的从你的角度这个“1万亿” 对应了多少的晶圆产能然后现在TSMC 3纳米的良率跟HBM4 它的产能跟得上吗你这个数字都非常的精准过去几年有很多人讲“1万亿”

我们是半导体协会我们整个2024年半导体的产业就是6000多亿美元当时2024年大家很兴奋说2030年我们整个半导体产业会到1万亿这是整个半导体产业芯片供应链半导体测试设备去年11月份Lisa AMD的CEO 就预测整个数据中心的AI的加速芯片

到2030年到1万亿今年3月份老黄的这个“重磅炸弹” 他一家Blackwell 加Rubin 当然他不是芯片了他是整个系统他Vera Rubin 的芯片包括他的NVLink Switch 包括他的Ethernet Switch 包括他的软件 2027年就要到1万亿这个增长速度是非常非常的迅速说明一个什么问题呢

其实需求端是非常的旺盛老黄给这个数字一定是来自于需求端的这个数字但是就像泓君刚才问的问题其实现在的瓶颈已经到了供应链这一层但是在供应链上能不能在2027年做到1万亿这是非常有挑战性的包括3纳米的产能包括先进封装CoWoS 因为我们以前半导体产业

我们相当于是乙方所以我们是供应商现在有点角色互换了现在变成了卖方市场我们半导体的产能是卖方市场所以3纳米的产能我觉得是跟得上但是CoWoS的产能就很难说了因为2024年到现在台积电CoWoS的产能基本上涨了3倍

还在持续地疯狂地扩产 HBM这一块的话 3月份美光跟三星宣布 HBM4已经量产了同时美光三星跟SK Hynix 他们在做HBM4E的定制化方案所以现在也是各家都在各显其能在供应链上达到老黄的要求不知道是不是所有的朋友都是半导体的背景

我觉得其实很多人可能不了解的是哪怕我们现在聊说需求端非常旺盛需要更大的产能但其实半导体行业就是这样你需要更大的产能你从供应链端你需要存储需要交换机但是它要去先投产需要做很多的预投资这个预投资去它建生产线然后再去我们说这个过程控制去优化这个周期是没有办法用钱砸出来的所以哪怕你现在说

我需要额外的产能那你可能确实需要等到一两年之后这个产能才能实现一两年之后的话可能也有更多附加的要求所以这并不是像软件一样你有多大的需求你可以马上产出多大的销售因为你的产能限制和硬件层面上供应链层面上的生产周期是确定的对刚刚我也说了其实还有一个数字就是“7块新芯片” Vera Rubin 它的平台

是一次发了7款新芯片 Mark有一个背景就是Mark之前是在英伟达内部用AI去真正做芯片设计的人所以我们今天真正地把造出这些芯片的人请到了现场我对英伟达内部比较好奇的一个问题就是它怎么可以把芯片的设计速度拉到这么快我是去年12月份离开英伟达的

所以我的数据不是最新的我记得是两年前Jensen说过原来是两年英伟达出一块芯片后来说是一年出一块芯片现在是一年出好几块芯片为什么能提升速度当然第一个传统的大家就是去招人更多的团队来做第二个其实AI的帮助是非常大的我们公司内100%都在用AI 包括这种Coding Agent（编程智能体）

工程师的效率提高很多内部也有很多的 AI for芯片设计的项目您刚刚问的芯片的多少其实我觉得多少不是主要的问题主要的问题还是说你里面的优化做的是什么这里面更是需要AI的帮助来优化得更好今年大家非常关注的点就是Groq的推理芯片的推出包括这一次它其实是在

整个的英伟达大会上是推出了LPU 并且老黄他提出了一个建议未来他建议所有的数据中心留25%的空间给Groq 跟大家的推理芯片因为Groq其实从创业开始它在硅谷就一直是一个明星公司看起来现在英伟达对这个收购的整合也是挺成功的因为去年年底收购

今年3月份就直接开始在GTC上发产品了还是一个非常重量级的产品我也想请现场的嘉宾给不太了解Groq 它的推理芯片优势到底在哪里的听众们解释一下 Groq相比于其他的推理芯片它的优势在哪里那我就来讲了因为我从2017年一直在做AI推理芯片 2017年给阿里巴巴

做了第一款AI推理芯片当时没有ChatGPT 没有BERT 当时更多的是计算机视觉所以我们当时也是纯SRAM的架构 Groq的这个芯片其实是一个纯的我不知道大家知不知道 SRAM DRAM这些 SRAM是静态的存储它跟我们的芯片设计的时候它是用的逻辑的工艺所以它的延迟非常的短

就1到2纳秒访问一次它不需要动态刷新但是它的成本是比DRAM高的 DRAM是一个晶体管 SRAM是六个晶体管 DRAM你密度可以做得非常大但是延迟非常大而且你还有动态刷新的这个问题大部分的AI芯片都是有DRAM的因为DRAM的成本比较低容量比较大

然后你的模型就可以放得更大但是Groq就是“剑走偏锋” 完全去掉了DRAM 只是通过On-chip SRAM 把你模型的参数跟你模型中间产生的这些KV cache 结果存在这个片上通过极致的互联把它扩展到更大的集群这带来的一个好处就是对于这种基于Agentic应用它的延迟非常非常的短

就是非常快就每个用户每秒处理的Token数可以做得非常好这也是老黄在他的演示幻灯片上面讲的对于每个用户每秒处理的Token数要求非常高的那些应用它直接就是把GPU的那个效率提升了30多倍可以把那个曲线保持比较平稳的状态 GPU其实不大适合做Agentic应用的其实从推理的应用来讲你可以想象

语言模型它有两部分有一部分叫编码器一部分叫解码器编码器它是适合一个高吞吐量的批量的过程非常适合GPU 解码器这边它是一个Token一个Token来做的生成每一个Token的计算量并没有那么多但是中间要很多数据通信就是它要把那个大语言模型的权值从内存里面把它加载上来

这个过程是非常耗时的如果说我每生成一个Token 我都要重新加载全部的权值上来的话那你大部分时间其实都在抓权值数据通信不是在运算 Groq的做法就是说它是把这个权值放到芯片里面那它就不需要来回抓取那个权值了这样就减少了数据通信的时间其实将来的AI System会是混合的将来可能还有更多的芯片进去

取决于将来模型会怎么样不同的芯片可能会适合于不同的算子比如说编码器解码器是不同的算子将来可能还有个什么中间层都有可能其实刚才两位都提到一个非常关键的词就是 Communication （数据通信）刚才提到一个很大的优势其实LPU它是延迟比较低对于Agentic的工作流它是非常非常有帮助的就是我们开始用Agent的时候你对它的需求一定是希望它经常在线的

而且它是一个持续性的查用你不是说调用一次就结束除了它低延迟之外因为它优化了数据通信很重要的一点就是它能耗也会降低其实很多时候我们不会讨论到这一点现在你会发现当然一方面是计算的能耗另外还有一个数据通信的能耗计算量能耗是在降低的但是数据通信的能耗并没有降低在未来它比例会越来越高我记得我大概是在一两个月前

正好在斯坦福大学有一个炉边谈话是和之前斯坦福的老校长 John Hennessy 我们其实就讨论到这一天他有一个论断他说将来其实他觉得数据通信的耗电量是计算的10倍以上所以我们怎么样去解决这个问题这也是另外一个LPU潜在的优势另外刚才泓君提到说为什么现在英伟达可以发芯片发得这么快我觉得还有很重要的一点就是传统的芯片公司厂商

它其实是一个单独的芯片公司我芯片供应出去之后客户反馈然后再返回再优化它是一个相对长一点的沟通的过程但现在因为英伟达它其实已经不想只是GPU公司了它也自己组建了一个非常大的生态系统它的这个生态系统有CUDA System 在网上有很多企业级优化所以它就自我形成了一个非常强的反馈体系这个反馈体系就把我刚才提到的

沟通的周期需求周期大规模简短所以我觉得这种系统优化的能力也帮助它在一定程度上可以以更加高效的方式去决定我到底要做哪个方向的芯片优化其实这个决定是很重要的因为英伟达它还有能力去做10件 20件事怎么样可以在20件事中找到它前三前五前七最高的优先级这个很重要它这种系统全栈式的优化模式

也帮助它可以更快地确定自己内部的优先级再通过刚才两位提到的AI优化还有包括它跟产业链的一些紧密的合作就可以更快地去进行新的芯片的发送因为我以前在读书的时候学的是材料科学工程 Material science 当时我记得还在斯坦福读书的时候那个时候就看比如说一些传统的半导体芯片厂商真的一年能发一两个芯片是非常好的了但现在就看到他说一次能够发7个

真的是非常让人惊艳对我们知道之前在芯片创业的时候它是非常火的大家也主要是在做推理芯片而不是训练芯片因为训练芯片它的那个难度是更高的而且我知道很多投资人他也是在投推理芯片这一块的那你们觉得现在英伟达收购了Groq 然后它也开始进推理市场创业公司现在做推理芯片还有机会吗

我觉得任何市场都不是完全没有机会但是我觉得机会空间比较小因为刚才我提到它有这个全栈式系统的能力之后它现在确实是从整个AI基础设施的层面上进行优化所以它的创新能力内部也是非常强的我觉得英伟达它的好处是它有一个很强的生态的概念就比如说它的Inception Program 从2017年做到现在从几百家的初创企业的生态

到现在变成了2万多家所以它是愿意支持初创生态的初创企业要想清楚英伟达它能做10件事 20件事但如果说这3件和5件是它的优先选项的话它能够投入的资源和效率的提升的能力是比初创企业要多得多的所以我会给创业者的建议是你可以看看英伟达它现在可能不是在它最优先级的那几个选项还有它的短板在哪

去帮它补全这个短板如果你能帮它补全短板的话当然会有收购机会它也可能在自己的生态上和你进行紧密合作然后把你抓入到这个生态来所以我觉得不是说不能去做推理芯片但还是要去评估一下到底现在这么快的一个迭代速度里面初创企业你的竞争优势在哪里就比如说我们去年投的一个公司我最早还有在看 Optical compute（光学计算）然后我们大概知道

英伟达内部的大概进展之后我们就去看了更多的像Switch和Interconnect （互连技术）像我们今年有一家公司叫Eridu 它做的就是下一代的 Interconnect和Switch 现在你真的会看到如果我们相信未来人工智能基础设施的大的发展速度还有大规模的数据中心的扩展你这时候就会发现你想做大规模的人工智能铺设它的瓶颈其实也是在 Interconnect和switch这边

这个对于初创企业来讲就是非常好的一个创新机会你这样的技术做出来之后和英伟达这样的公司也有战略协同因为我一直在尝试打败英伟达我们从2017年开始做了第一代的AI芯片当时我们在阿里巴巴也是纯SRAM的我们MRAM Perf（磁阻随机存取存储器性能）做得非常好世界第一老黄也非常紧张他就说他们到底做了些什么就是纯SRAM

但是问题是在哪里当时一个应用并不能支持这种专用化的AI推理芯片所以一旦后面的应用又迭代了以后大家又回到GPU软件生态创业公司很难跟上但是我阿里出来以后我又不死心又做了另外一家AI芯片公司那个我们叫深度稀疏叫DeepSparse 就是把模型做压缩然后做的AI的芯片架构

去执行这个压缩的模型然后可以把内存跟工艺的要求降低那家也在MARM Perf上当时我们也对打英伟达就在BERT 当时就我们四个芯片跟它一个H100比但是它需要软硬件深度的协同后来大模型来了做后训练因为我们要做压缩后训练那个成本非常高所以我们作为一家创业公司

其实是很难去做这种大模型的后训练这又碰到了一个瓶颈当然这家公司还在持续往前包括Deepseek 包括国内的很多公司大家都在做各种稀疏的尝试用软件的办法去解这些硬件的瓶颈我现在新的公司就做系统级的优化了我已经看到了未来的数据中心绝对是这种异构的像GPU 包括Switch

包括光的Switch LPU的架构甚至于现在英伟达的GPU跟LPU 现在还是两个机柜包括这一次英伟达在GTC上并没有出Benchmark（基准测试结果）说明它内部软件还在持续优化同时它这个架构也不是现在最优的后面封装包括3D堆叠是不是能做在一个封装里面

其实后面有很多很多整合的工作整合的工作不仅仅是芯片也有软件所以我现在这家公司就叫做做AI infrastructure的自动优化而且我们是一个中立的我们通过仿真加优化的方法来做这个事情我们可以仿真Google的TPU AMD的GPU或者英伟达的我们是一个中立层内核层我们就交给芯片公司他们做得很好

然后我们做上层的这些东西我很同意璐和志斌的说法其实在整个这个新的产业起来 AI工厂这样的运算形式起来以后从整个产业栈来看是有很多很多机会的 Inference芯片推理芯片只是其中的一小块物理上你看整个机柜其实那个芯片是那么小整个机柜里东西特别多

机柜外面还有software 软件我从业时间也很长原来在IBM 当时是做云计算那是一个很大的转变在那个转变当中其实有很多初创公司就会找中间的一些产业栈里面可以做的事情去优化去做它只要做得好的话就会被一些顶尖的厂商收购有一种办法就是说你去看看过去的几次运算革命里面

都有些创业者是在做什么他们是怎么去切入在开发中的产业栈里面去解决什么样的问题在现在新出来的这个AI Comput里面会有同样性质的问题你想去把它解决其实就会有机会对那整体看下来其实在芯片的细分领域不管是不同功能的芯片还是在它的中间层的生态里面还是有很多机会的我注意到今年 Jensen在主题演讲

包括他之后也有一个开源的讨论会他提到的最多的一个词是OpenClaw 其实今年OpenClaw的出现应该说它是帮助算力在大幅增长的因为大家在调用这个Agent的时候需要使用更多的算力他今年也在舞台上我觉得他已经从AI工厂的叙述一直在说他的Token经济学在现场他还推了一个

叫做NemoClaw的软件生态这个软件生态跟OpenClaw可以打通大家怎么看他推的这个软件生态他要做什么包括志斌还有Mark 你们都是芯片领域的创业者比如说这个生态推出来以后对你们自己而言因为它相当于有了一个中间层它到底跟你们是一个合作关系利好关系还是一个竞争关系

OpenClaw就是带来了 Token量的巨大的提升这就是老黄说的 1000倍的Token使用量的提升我是天天关注我自己Token使用量因为用Claude的话它太贵了所以我会混着用我的主力模型是Kimi2.5 因为Kimi相对于Claude 是便宜10倍阿里最近也在尝试但是对于普通用户来说

其实就比较头痛你到底怎么样省钱省钱的过程中又能保证性能不掉这是一个问题其实我们公司目前也在做一个工具专门针对这种东西 OpenClaw我们叫 Tokensimulator（令牌模拟器）加Auto optimize（自动优化）我们马上要开源这个东西介入到这个生态里面就你用户只叫插入进去那你就不用管了

它会帮你自动在后台规划你的行为看你的配置文件帮你做自动的优化我觉得OpenClaw对我们公司做的这种Agent for chip design 这样的项目来说应该是个利好现在所有的大厂都在推自己的Claw 从大厂的角度来讲他们应该是通过Claw拿流量因为这是一个关键应用基础设施建设了这么多GPU在那跑

需要有流量来支撑需要把Token变现变成应用变成能实用的东西那我们做 Agent for Chip Design的话本身也是一种变现的手段所以说跟所有的大厂来讲没有什么竞争的关系最关键的是说 OpenClaw它是一个适用于普通用户的系统这个利好我觉得是在生态当然有了OpenClaw以后会有很多的工具都会适配它

有很多过去的工具原来是Agent不是很友好的因为有了OpenClaw 可能都会变得很Agent友好这样的话我们做垂域的时候就会很简单了一点至少有一些通用工具你不用自己去做了有人帮你做好了刚才两位嘉宾也提到了各大公司都在做自己的企业级它其实也是在上面加一层安全的部署我对于英伟达做这个NemoCloud一个感觉我并不觉得说它真的想去

抓应用层的这些收入或者是机会我觉得它更多的是想确定自己在Agent的部署层面上它有一个规则制定的地位它可以成为一个大家将来做这方面准入的时候我是一个安全的层级你都要在我的平台上去推进而且我不知道大家平时用Claude多不多我们的公司里面其实用Claude Coworker很多当然我也知道像你说Token比较贵但其实真的从

企业层级的安全化部署还有高质量的各种任务完成的话我个人还是会更喜欢 Claude Coworker 今天Claude新发布了Dispatch 这个也是有点像跟OpenClaw对标的产品我觉得对于大型的企业来讲它更追求的其实第一层级就是安全部署第二层级是准确性和精准度 OpenClaw我也用了我其实感觉是说它会优化要把这个事情做完

它并不会说要去优化把这个事情做好但是如果真的是到产业企业级的这样的应用层级的话它对质量和完成度的要求是比较高的因为我自己其实也用了一下OpenClaw 然后我觉得它接下来对很多领域的颠覆会非常的大就比如说很短的时间内它就可以自己写一个企业的客户关系管理系统以前这些客户关系管理系统

我可能是要跟SaaS厂商去定制的它还没有那么好用因为它不能100%适合你的公司的商业模式业务场景你刚刚讲到NemoClaw 我觉得有几个点特别好其实它们隐私安全好用这真的是企业级的需求它跟ToC的需求是完全不一样的今年其实Jensen在他自己的演讲上他也说了一个新的模式

叫做智能体即服务对应之前的那个SaaS 所以自从Anthropic他们的 Cowork推出来以后现在业界也有一个讨论整个SaaS它的商业模式会彻底地改变吗这个问题想请璐回答我觉得真的如果看所有的科技创新它是三个阶段基础技术创新技术应用创新商业模式创新所以就像你提到的我们未来如果真的可以

很快地进入到这个时代有一个大规模的智能体 Agent铺设的话它对传统的企业级软件就是一个商业模式的巨大挑战这可能不只是技术层面上是我们一个商业理念层面上的传统的这些SaaS公司提供的是什么是一个标准化的软件服务就不管什么公司用的都是一样的软件但是Agent它未来可以做到的实际上就是像你说的高度的定制化和个性化

未来的软件公司它到底卖的是软件还是什么是服务吗我觉得都不一定是服务如果说你相信我们未来的整个公司的架构会改变它不只是有我们叫Humanlabor 人力的劳动力还有AI劳动力未来可能做软件的这些公司或做Agent的这些公司它就变成了一个劳动力输出方它可能会有成千上万的智能体这种专属化的智能体去符合你各种各样的要求

你在想你的这个时候的商业模式是什么样的一个模式好消息是说现在你可能卖软件你用的预算是IT的预算将来的话你的输出实际上是一个人工智能劳动力你可以用到劳动力的预算所以你可能可以去卖到更大的预算但是它对人工智能的劳动力的要求也会更高比如说你是一个公司的CEO 你要去招人那你招人的一个标准是不是希望你招的这个人

能做你这个职位90%以上的工作同时要超过90%以上人的能力可能这也是未来对于AI Agent的要求所以如果拿这个要求去看的话现在Agent的能力确实还有一定的距离所以我并没有那么悲观觉得因为我也知道前一段大家也看到股市上一些SaaS公司的股价跌得非常惨我觉得并不是说这个产业全部都消灭掉因为它本身企业级销售它不单纯只是一个产品

它也是一个售后服务销售网络等等它是一个集合体但是如果说SaaS公司它自己本身没有AI模型能力的话确实大概率未来可能就会消失或被替代掉但是还是有很多的SaaS公司它自己本身是有模型能力的我觉得这方面还是会有机会的另外一点创业者也要考虑到底你的机会在哪里是哪些SaaS公司可能会要消失掉

它的市场你是不是可以快速地占领这也是可以去探索的一个方向我觉得这新的SaaS公司如果它现在不做剧烈的改变很快会被这些智能体平台替代它以前是通过招人或者是把它的服务做上去但是现在是需要通过买算力怎么样把这个算力加上你原来对行业的理解也要引入这些Agent

这是他们现在非常关键的点对于这些SaaS公司同时买算力以后你可能还要做优化就是说你的算力到你的服务输出的成本投资回报率是最好的这一块原来就是通过人来做但现在直接是针对算力去做优化所以这两个事情一个是算力优化第二是把原来有的

你的经验赶紧跟Agent 或者是现在的AI平台去结合这样才有机会我觉得其实在未来每个企业都要想想你未来的一个公司的组织架构是不是都不一样了现在可能是说你的一个是人才密集型的产业就是你人才越多公司的价值越高但在未来可能一个公司它的核心是二三十个人那它其他很多的职能比如说HR CFO 财务这些都可以外包

外包给各种各样的AI Agent 那这些AI Agent 也不需要是全职在这个公司工作它可能是以项目形式存在的周期性的这个对于未来可能说你作为一个公司的领导 CEO 包括初创企业你要想一下你具备什么样的能力去管理这样的一个新型的公司架构你不仅要管人的人才你还要管AI Agent 然后你还要去定义说哪些职位是人为主导的是一个核心部门

哪些职位可能是可以外包的用AI Agent Jensen今年已经说了他说以后的招聘会变成招聘一个工程师以外你要告诉这个工程师除了每年你的年薪是多少你还有多少的Token额度可以用就是说你可以管理多少个你的Agent的实习生或者员工可以打配合另外他也说了在NVIDIA内部很多工程师大家基本上都用

Claude Code的了这个就想跟Mark求证一下你们平时在工作中是不是都已经开始用AI设计芯片跟用AI写代码了 Jensen说的是对的我们在应该是去年年初开始在一两个月之内公司从没有人用Coding Agent 到100% 这个也不光是英伟达了其他的芯片公司也已经启动了这样的流程

内部也是很大范围地在覆盖这样的Coding Agent 我知道你在NVIDIA内部是在领导用AI设计芯片的这样的一个项目的你可不可以跟大家讲一下 AI它是怎么做芯片设计的谢谢这个问题我在英伟达是负责设计自动化的研究团队的主要的任务是说一直思考如何用GPU和AI

做芯片设计我们这团队做了好几年了在AI一开始它在CNN（卷积神经网络）和GNN（图神经网络）的时代图像的模型时代我们就开始考虑怎么用AI来做芯片设计我们觉得现在的大语言模型或者Agent 它们是真正能够通用性地来解决芯片设计的问题在过去如果当时还是只是机器学习传统的那些机器学习的算法或者说是即使是像图像识别这种CNN的算法

它们能够解决一些芯片设计的问题但是是很局部的有了大语言模型以后特别是Agent技术起来以后它能够真正形成一个通用的设计能力这是我们一直在探索的其实我们在3年前 2023年的时候就发布了一个项目叫做ChipNemo ChipNemo是我们用英伟达内部的数据我们当时收集了二十几个Billion的Tokens 在内部的网上找到的数据

去训练了当时的几个基座模型像Llama的模型还有英伟达自己的Nemotron模型然后用这些模型来做芯片设计现在主要的趋势就是说第一个像这样的聊天机器人能够跟你的文档进行交互你可以理解设计的需求另外就是说 Coding Agent 就是因为你能写代码它写代码不一定只是写软件代码现在写RTL

硬件的这些代码也是能写的虽然说质量还没有那么高有一定进步的空间将来真正的难点是说你怎么做一个底站不光是能把它生成出来还要把它优化得好那接下来我有几个大家可能最关注的关于市场竞争的问题就是我们在GTC 大概是前一周刚刚发了一期节目是讲谷歌的TPU的因为现在包括像Anthropic

Meta 还有苹果他们也都在用谷歌的TPU训练模型所以大家认为未来谷歌的TPU会动摇英伟达在芯片领域的垄断地位吗如果说未来整个全产业都要进行人工智能整合的话你单纯靠一家公司英伟达去支持它的这个需求量也是很难做到的所以我觉得英伟达它现在本身

把自己打造成不只是一个GPU公司而是形成了一个人工智能基础设施的公司就是因为它希望成为整个人工智能基础设施的龙头老大但我觉得在这个基础之上并不妨碍其他的公司提供多样化的芯片架构的解决方案就比如说像TPU是其中一个解决方案 TPU其实还是在谷歌内部全体系全栈式的优化情况下它做到的一个表现效果

和训练效果是最好的谷歌自己用的话我记得它的那个训练成本可能只有ChatGPT的三分之一左右但是其他的公司去用的话可能做不到这么低的训练成本所以还是因为说它自己本身也是做了一个系统优化但是英伟达因为这么多年它其实作为一个第三方在服务很多家企业所以它的这个体系不只是GPU 还有包括它的CUDA System等等

它是希望可以针对各个不同客户的需求都可以做到效能的最大优化所以我觉得其实短期来看的话它的系统优势还是很明显的科技公司希望也去用TPU的话也是因为一来确实芯片短缺需求量很大二来的话谁也不希望说我只有一个供应商这样的话在未来可能在行进的过程中也会有很多的挑战除了这个之外

包括苹果的芯片人工智能芯片一直做得也非常好他们是自己的一个体系还有另外一点我们就会看到很多新的创新的模型架构它可以在CPU上运行得比GPU更高效所以也就是说意味着未来对CPU的使用量也会逐渐增加这也是为什么今年你看到 Jensen在NVIDIA的GTC层面上也有去强调未来CPU的市场增量所以我觉得未来的市场

会是一个多样化的市场根据不同的应用场景不同的应用的优化系统需求你可以选用不同的芯片我个人觉得英伟达它的一个领头的位置还是会比较强劲它已经成为人工智能基础设施了所以就像大的一个电力厂一样不管你用什么样的芯片层你可能在未来都会用到它的基础设施层 Google因为2017年就发布TPU 持续做了很多代

其实Google的做系统或者云的这些能力包括里面的做互联的能力做垂直供电这些能力其实是超过英伟达的比英伟达厉害但是Google是针对它自己跑的这个应用场景做了很多的优化包括里面做嵌入的processing 加速还有稀疏的加速它是有一些自己的特定的客户定制化

之后 Google把它的那个能力外放到像Anthropic 或者其他一些公司我们也有一些朋友的公司在围绕着TPU做优化提供服务给外面的这些公司第二就是AI的帮助让AI做优化或者是算子或者层级的优化其实是越来越方便了 CUDA的模式已经从kernel

到更大的是在系统层级的这些所以Google对外的这种更可以接受的程度会越来越大同时Google又有自己的 Gemini的这些模型的能力应用的能力还有它的视频YouTube 它的能力是全方位的甚至于Open AI这些也要做自己的芯片所以对老黄来说

这些其实都是比较实实在在的威胁但是Jensen或者是英伟达有它自己的优势就是它的执行力包括用AI来设计芯片包括它们内部一年推出7款芯片这种执行力因为在硅谷执行力特别强的芯片公司英伟达 Broadcom（博通）这两家公司执行力非常非常强还有就是老黄对于供应链的控制

即使AMD接到了订单或者Google接到了订单其实老黄跟台积电的关系特别好所以他的CoWoS的产能大部分在他手上所以这也是老黄的另外一个非常大的优势这也是多年的信任建立起来的我可以把刚刚志斌老师提到的英伟达的核心“护城河”总结为两点第一点它快速的执行能力

第二个是供应链的把控的能力现在我们看它已经是“芯片之王”了未来在哪些方向上它可能会面临挑战因为这个市场足够大所以有可能它虽然执行力非常强但是会有各种不同的应用从垂直的领域去进攻英伟达包括机器人的AI芯片以后从数据中心到物理AI

物理AI对芯片的需求是非常大的而且谁把控了物理AI的入口那数据中心后面其实是会引流的所以机器人AI芯片目前还没有形成统一因为我两年前其实有想做机器人AI芯片但是那个市场还不成熟包括机器人芯片的物料成本可能是整个机器人大概7% 8%

也不是那时候的瓶颈包括机器人的基础模型也不成熟但是这一块是有机会的这也是为什么OpenClaw出来了以后它有点像这种数据中心数字智能体数字机器人所以老黄快速推出了DGX Spark 前两天又推出来一个工作站它可以跑更大的模型其实老黄对于这种

边缘端私有化部署是比较担心的所以他的动作非常快对我觉得对听众来讲是不是用TPU还是用GPU 除非你做投资可能一般来说也不一定有直接的利益但是你可能要考虑的是说你将来的AI要用什么供应商比如说TPU那肯定就是Gemini 是不是将来Anthropic会有TPU 这个现在未知数

但是其他的都是在GPU上所以我觉得真正关注的应该是说你的性能是不是能提高将来是不是TPU能够做到什么1万个Token每秒如果说有技术上明显的进步的话那可能比如说你在做你的创业或者说你的工作的时候你会考虑到我是不是要用Gemini 我觉得从应用的角度可能关注这方面的信息会比较有用

但我个人觉得可能暂时不会出现很大的性能的差距现在不管是用TPU还是用GPU 可能最终使用者来讲可能都是差不多的对我觉得刚才两位讲得都非常好我们刚才已经提到在训练和推理层面上到底哪个部分它未来成本更高或者消耗更高现在既然我们有一个共识说推理的成本会越来越高整个推理的权重会越来越大

它也并不只是让英伟达去受益其他的CPU厂商比如说AMD 可能也会受益所以这可能会是它短期的一个小小的挑战另外一点刚才志斌提到的就是私有化部署其实真的你去看企业级人工智能的应用还有Agent部署的话大部分的传统行业因为它高监管的缘故因为它对于数据隐私的要求它其实是更偏向于私有化部署包括我们和你刚才提到另外一家公司

Broadcom去聊的话像高通他们那些都是在押注于人工智能在边缘端我们也一直非常看好边缘计算边缘AI这方面的应用像Qualcomm（高通）它也有NPU（神经网络处理单元）这个也是重点是在怎么样可以去低能耗的进行边缘端的人工智能的部署所以我觉得这些可能都是一些现在看起来还不是很大的市场但是一旦开始推进了之后它增长速度很快的

可能英伟达还没有非常强的现在的部署或者整合的方向我觉得这些可能都是它短期会面临的一些挑战另外一点我可能想提一点就是跟技术不一定直接相关的它成为一个市值如此之大的一家企业其实一方面它被资本推崇也会被资本裹挟当你的资金量还有市值到达了一个数量级之后作为公司的CEO

还有你需要为你的股东负责董事会负责的话你可能就要去排一下优先级可能优先级第一位是怎么样把这个市值去维持住而且市值要持续增长这个时候在公司内部资源分配到底是更多的优化只是短期的收入的增长还是说去进行一些长线的技术创新的投入这个权重可能也会受到影响我觉得这也不只是英伟达任何公司到了这样的一个位置 CEO和董事会

都会面临这样的一个压力好的我觉得大家总结得都非常全面了今天我们也开放两个问题给我们现场的观众大家请在提问的时候指定你想要谁来回答好不好非常感谢各位嘉宾的分享我叫Christina 我主要是做AI投资的我可以从二级市场角度分享一下为什么这个英伟达 1万亿这个（销售目标）出来以后

股价没有怎么动就是因为我们很多华尔街的投资人在之前做模型的时候已经拆出了大概这样的一个数字我的问题想问得更细致一点主要是问两位芯片领域的专家泓君刚才也说到说Groq发布的事比我们想象都觉得很快 Groq它主要的代工其实是三星另外英特尔也在说他们技术特别是封装已经追赶上了他们技术上也有新的突破

打算去做英伟达下一代的产品我是想理解一下这个是英伟达因为供需关系逼迫他们不得不牺牲一部分良率去做这个事情还是说确实英特尔和三星的技术表现得很不错有可能以后会成为双代工这样的一个局面其实是这样的过去的叙事是算力就Broadcom跟Google TPU 包括英伟达但去年的这个叙事就是

这些算力后面的其他的这些物理的真实的瓶颈所以去年因为你做二级投资比较火的要么就是内存要么存储要么现在是光要么是CPU 再后面还会有半导体测试设备还有光的测试设备反正所有这些物理的瓶颈英特尔的EMIB 其实封装技术是非常好的现在大家都想着

用台积电的片然后用英特尔的EMIB来做这个事目前还没有人正式验证因为商业上它不成立可能台积电不想把我的片子拿出来给英特尔封装英特尔说你要用我的封装你必须用我的Foundry（晶圆厂）所以商业上是有一些悖论但是其实业界是有这种尝试确实英特尔的EMIB 在一些Hyperscaler（超大规模云厂商）

其实是已经证明了用得蛮好的三星当然也是需要赶上因为三星自己有HBM 三星的良率可能会相对于台积电要差一些但是作为第二供应商其实还是可以的就是说你的产品线像英伟达一年出7个芯片它总有不同的芯片需求其实就是现在尽可能地把产能用上

各家都有自己独特的一些优势优势在哪里这个就需要跟英伟达去迭代了英伟达其实一直就是同时在评估每个晶圆厂时时刻刻在进行着这个不是说是今年突然想到要用三星他们对每个晶圆厂是什么技术能力都是很清楚的 Groq这个事情也有可能就是说没有产能了因为是一个很突然的事情

可能它跟台积电的订单就没有来得及放进去然后三星正好有产能那可能就用了也许是这样我只是猜因为我不知道我叫陈飞我也是做二级市场投资我有一个小问题最近一直困扰着从Anthropic的Cowork 到后面的Coding Agent 老黄的“护城河”这么多年其实最大的就是CUDA CUDA也是一个软件最近一直都在担心

它会不会被Coding Agent 或者是Anthropic把它也写一个CUDA出来可能很快的速度接近于它的80%或者90%多少这个“护城河”壁垒是不是在快速地被削弱特别好这个问题其实我也想问今天考虑到时间关系就没有问终于有人帮我问出来了的确 Coding Agent能做很多事情但是现在Coding Agent

能够做出很多高性能的代码还是有待看一看的 CUDA的话它肯定是需要最高性能它所有的很多代码都是优化过的内核都是优化过的首先这是个技术壁垒另外CUDA是不是还是唯一的“护城河” 还有很多全栈的护城河变成AI基础设施以后它已经不再是一个芯片的问题了所以我觉得从“护城河”上好像多了很多

所以我觉得这个可能不再是那么一个最重要的问题了在CUDA这个角度能不能够复现CUDA 我觉得好像我记得Jensen曾经说过他都可以开源CUDA什么的曾经说过类似这样的话 CUDA在内核级的模式我根据很多大厂工程师的反馈其实越来越弱了因为大家用AI写的基本上可以90%以上跟手动优化差不多到这个程度

但是因为英伟达已经变成了一个系统公司系统公司里面有很多硬件的方法论数据这种类似的硬件知识这些东西这些Coding Agent现在还没有这些东西它可以自己内部在消化去做自己的优化这一个层这也是我自己现在这家公司要做的一个事情就是我们是对数据中心

或者是GPU或者AI芯片里面我们会得到很多的数据那些数据变成了我们的壁垒我们用这个数据对整个AI 基础设施做仿真再做优化而且不做内核级的偏中间层所以我现在有点担心因为我们公司也用Coding Agent 我们自己有很多的专有技术所以我们会换着用不要所有东西都给Anthropic

或者Codex 还有有些数据你就在私有化能够部署做一些事情其实大家都要有这种担心你的专有技术你的知识其实它是一直在学的这就是为什么其实你看很多游戏工作室他们其实在用这种Coding Agent的时候就会非常非常小心因为这个是他核心的IP 所以从这个角度上来讲的话私有化部署非常的重要所以刚才两位都说得很好

CUDA它其实已经形成了一个全体系所以它的护城河还是在那边的当然就像你提到的这个CUDA优化它可能会现在好做一点但是其他的芯片厂商也一直在做类似CUDA系统然后也做了好长时间还包括拉一些大的软件公司去合作但是你看到现在也没有做出来所以它也不是一个简单的软件层还有很重要一点就是CUDA它也形成了一个开发者的族群

它也是一个社区所以这个社区的凝聚力还有它的向心力包括它对于环境的舒适度也是它的一个小的“护城河” 这是为什么它在大规模地去做这种投入对于像初创孵化计划去培育这么多的不只是它现在这些大客户而是说它未来的这些潜在的大客户其实我跟谷歌的人也聊过这个问题他们自己的观点是说可以有一部分Coding Agent帮忙

但是从底层上你还是不敢把你底层的这个权限交出去我们刚刚一直在讨论老黄说的今年他是两款的芯片组合他要到2027年总共的销量会达到1万亿所有人都觉得这个数字听起来非常夸张但是我们顺着这个推理它也是有可能的因为作为数据中心我觉得你的感官是最直接的可不可以跟我们分享一下

今年你对大家铺设GPU 包括数据中心它的速度的感知是怎么样的我觉得对于数据中心的铺设是非常快的可是最终的瓶颈事实上还是卡在链路和供电现在的整个发展美国的全国电网已经是枯竭没有任何的东西你是不可能拿到10兆瓦以上的电现在90%新的数据中心建设

都是behind the meter（自己发电）意思就是现场都是用燃气发电方式就是说我哪里有气管我直接扩大直接放天然气的发电机放在上面直接燃烧直接就地去盖这个数据中心事实上现在也就是所有的数据中心开发基本上都是找一些旧的 Brownfield（已开发过的地产）直接去改建成新的数据中心

过去的用钢筋水泥这样子盖也不存在了以前Hyperscaler可能还有抗拒基本上这几个季度都没有人在乎了全部都是用集装箱的方式来做直接送40尺海运柜里面就是预机架式CDU 所有的光纤高速光纤加不间断电源全部都一起上过去至少我们都是以几百兆瓦和几个吉瓦的方式在建

一个天然气发电厂的平均规模通常是差不多300到 500兆瓦一个核电站差不多是2个吉瓦到4个吉瓦事实上还蛮不够的基本上现在美国的大厂和中国大厂都是开始包核能发电厂就是说你也别卖给电网了你全部给我我全部就地直接做一个变电站降电

直接盖回答你的问题要达到1万亿美元的营收的话最终就是看你到底能多快的时间把整个数据中心建起来所以现在其实大家是在比拼建数据中心的速度你刚刚提到了现在建数据中心最缺的是电你觉得它是缺哪一部分呢它是整个供应链的短缺比如说涡轮发电机的短缺

变电器的短缺还是它是已经有了电但是它要并入电网让这部分电不是居民用电它作为工业用电跟数据中心的用电它是卡在哪个环节上了我觉得是多部分的一个比较复杂的情况美国事实上是不缺电的美国是有很多的输电能力你在高压电上面

都是有330KV（千伏）的电重点是配电就是说到可用电过去是400V 现在是800V 重点是要到这个情况基本上还是被监管法规绑住因为你要建一个变电站你影响的可能是一整个德州的电网的稳定性所以当然是要做比较多的研究美国的电网事实上就是由被石油、天然气那帮人运营的

他们不是科技行业的人他们动作事实上是没有在硅谷这么快的所以基本上都被卡住所以现在他们才转而是说好你慢慢搞我现在就直接用柴油发电机或是天然气机组直接先上刚刚我们讲到了基础设施层面因为其实你们一端是基础设施一端是用户从你的感知上来说今年用户在企业想用这个GPU Cloud的时候

以哪一类企业增长最迅速我觉得分成两块一个是企业客户和超大规模云厂商事实上就是一个算力中间商他们自己有不知道几个百分比是在做自己的大模型开发一部分是卖给不同的客户不同客户分出来基本上就是企业企业有分三种一个是做不同的大模型的训练

预训练或者后训练第二个就是Gen AI 以多媒体这块在增长第三个就是AI Coding的增速还有第四块事实上我们也才刚开始就是整个OpenClaw 真正的Agentic的落地才起苗头可是发展速度非常快我觉得中国已经有意识到这个东西可是美国可能还没有中国这么快我记得今年老黄

在他的开源讨论会上他说中国已经开始“赛龙虾”了美国的速度还没有中国在OpenClaw 这件事情上这么疯狂从你们的体感上来说因为其实一旦接入“龙虾”以后他们烧Token量它的消耗速度比传统的Agent 或者比我们刚刚说到的这种Coding Agent 它的量对比

你会有一个直观的感受吗我觉得我现在还是蛮难估的我可以做一个比较简单的预判历史不会重复但总会押韵过去的数据中心事实上也是从个人的或是企业内部的服务器开始的现在是拿Mac Mini 或是拿DGX Spark来玩可是还是属于早期采用者中的早期采用者你要会去使用这个东西

最后企业肯定不会给你每个人发一台Mac mini 肯定就是公司内部的一台服务器几个机柜去搞这东西是非常不可扩展的不可能的最后全部上云的互联网大家也看到这就是为什么隐私被高估了说实话真正的用户消费者其实并不那么在意就是想要我方便性 “龙虾”现在还是开发运维居多我认为还不到1%的人能去使用

过去几周几个月我看到了很多公司已经有很多的Agent公司推出用户友好界面做得非常好的一键部署的这种东西最后绝对都是用云服务的方式来做所以我认为适合那些技术型且重视隐私的人可能你自己也有一台主机我相信大部分的使用者

还是会去采用上云的方式但这场变革还没有真正开始因为做这些云端解决方案的公司可能还在种子轮甚至不是A轮所以他们可能还是需要差不多一年两年内我觉得会有一个更大的爆发这个爆发还尚未到来我们已经有多媒体的发展非常可怕大家可能也在期待什么 Seedance这些东西将会非常疯狂

多模态是不是也是一个挺耗Token的量但是它起来了吗你觉得今年开始大量的消耗这种Token了吗在抖音小红书或是在Instagram Reels上面可能看到已经很多的AI的短剧短剧在国内已经很火了现在美国才开始做短剧这个东西中国还是比较有优势大家知道美国也是消耗的Token量都是非常可怕的

从你今年的观察来看你觉得在整个今年GTC的发布中你自己印象最深的一个产品或者说跟你的业务直接相关的一个产品是什么跟我业务最相关可能就是Vera Rubin 和Vera Rubin Ultra 不只是老黄自己讲的有很多的其他的供应链所做出的一些因为求速度的改变

像是整个数据中心还有上架和堆叠的模块化解决方案越来越多而且会越来越频繁从（拿）土地盖楼到通电做配套土建再到数据中心的白地板架高架什么的水电光纤差不多4个月时间让你从白地板再到机架空间把服务器塞进去

再需要看规模多大 2个月到4个月的时间取决于交付周期现在事实上就有直接模组化解决方案一上来就是模组化机柜都是架好所有的线路这种速度就会再加速所以就是从过去的可能是18个月到20个月的交付周期从未开发土地到提供服务可能现在可以压缩到 6个月到9个月的时间这是不是他说的

那个AI工厂的概念他其实是从以前是比如说卖GPU 到卖一组一组的GPU 现在已经开始卖AI工厂他相当于全套各种打包好给你做更多的设计方案然后让大家可以加速落地对因为规模也起来了我认为NVIDIA设了很好的目标它每年的更新都会提早去跟供应链沟通

所以供应链也是跟着NVIDIA的指引往前走的所以节奏速度会继续加快那你怎么看老黄他说过去两年整个推理计算增长量是增加了1万倍的它的使用量是增加了100倍所以过去两年它的计算需求是增加了100万倍的从推理来看你觉得现在的推理在中美两边它的发展是怎么样的

我们的一个集群基本上都有3到4家超大型的公司在抢同一个集群大陆的话就是“养龙虾” 还有Coding Agent这一块速度发展非常快基本上所有的大模型公司像是Kimi 智谱等等他们现在主要的营收也都是卖Token开始起来美国的话主要也是两个一样是AI Coding 还有多模态视频模型

中国这边的话主要也是Coding还有Agent 就“龙虾”的Agent这样子 Coding现在用的是哪一块的芯片因为今年老黄他是在那个会场说建议未来会把这个25%留给做推理因为你其实训练跟推理你同时要求高吞吐跟低延迟它其实是两个完全不一样的方向所以以后大家在配置数据中心的时候

它可能也是完全不一样的方向芯片的话基本上大厂都会习惯用算推一体了只要做好比较好的负载均衡和调度的话就好了主要还是以N卡居多因为就企业而言做预算规划的时候如果说他一个厂是做训练一个厂是做推理的话等于是你要花两次钱就算是AMD的卡或是其他的卡那为什么他不能把推理和训练的东西

混在一起做市场上主要是以英伟达的卡居多了 Coding的话主要就是Claude Code 明显是第一位的我看智谱GLM-5 Kimi 2.5 事实上都是非常流行的开源解决方案来做一个算是“平替”吧从你们现在的感知来看你觉得现在市场上 NVIDIA它的哪些产品是处在一个比较紧缺的状态中

还是整个的芯片供应都是可以的从产能上我觉得供电当然是一个大问题可是有不同的瓶颈因为我们事实上是有做组件能力的公司事实上就是中美两边的超大规模云厂商就那7家另外一个就是Neo Cloud 可能就是Nebuis 有这个组件的能力他不是直接买现货产品像是什么Dell设备 Supermicro设备

我们事实上也是另外一家类云有这种能力我们是直接去跟这个ODM直接下单去定每一个指定供货商或是指定代理商我们对这个东西也非常敏感我们也是做前景预测就是锁定2027的所有的产能至少我们能确定我们的产能有可是价格无法确定现在的话很明显

每个人都知道内存已经很疯狂了去年到现在已经涨100%到200%了 DDR4 现在的话 CX7 转到BlueField 市场也都是NVIDIA的方案交付周期也在不断地拉长总体在内存还有以及事实上是因为 HBM压缩到了其他的像是DDR就开始缺

现在SSD（固态硬盘）也开始缺我们预估至少跟供应链的沟通他们是到2027年底都不会有好转的迹象我们刚才说的CX 7 Switch也在缺现在开始亮黄灯和亮红灯的就是连Intel的CPU也开始缺货不只是这个东西还有到CDU 就是水冷的方案也都是开始缺货中

感觉这些东西在二级市场上都是财富密码对因为我看像英伟达它的财报他们其实有50%的收入是来自于这个市场前五大的云厂商的其实你们也是做GPU云的我知道你们其实也是英伟达的官方合作伙伴你觉得运营一个GPU的云

最核心的能力是什么我觉得是取决于对象是谁对于新创的话第一你要先有这是最重要的事情就是有卡就是上线接下来就是说你要做得非常稳定这个稳定事实上是一个运营密集型的问题供应链要很强要能支持你因为这些机器

它有20多万个独特部件 20多万个独特部分出厂设置每一个部件上至少有5%的工厂故障率然后你又把这20万个部件又连上几千台一模一样的东西出现故障是必然的那你在故障的时候你能不能快速地拿到数据定位到问题能叫供应商马上给我刷包出来然后才能维持这个SLA 第二个就是说

硬件是没有损坏的状况下你的开发运维团队能不能快速地排查所有的问题那这个东西事实上是一个非常复杂的问题因为你不知道是硬件坏掉不知道是光模块坏掉不知道是交换机坏掉还是说你的K8s坏掉或者说客户很多客户事实上他们不知道自己在做什么真的不知道因为GPU换代换太快了你大模型公司大部分都是研究员

顶级的研究员但他们不是基础设施方面的人他们就像哦 GB300出来了我需要拿到GB300 这是最有效率的但以前没人处理过这些他们就是丢给我们那还有一次Ubuntu 的升级所以这是一个非常复杂的问题从硬件到不同的硬件再到软件K8s 或是说不同的解决方案包含整个框架的选型都非常重要所以所有这些都归结为一个形容词

就是可靠性和你能不能快速解决问题最终体现到这个SLA 我觉得这是对GPU这一块接下来才是软件层只说Model services（模型服务）可能是像是Fireworks Together 想要在做的事情你有这个稳定的GPU的维护能力运维能力才到模型服务你能不能做运维的优化这也是我们在做的两点就是指说

当你量够大的时候你事实上可以做很多的骚操作做BD和EP 就是做一个集群化的推理你才把这个Token成本往下打你才能让客户省到钱因为你刚刚其实也一直在讲你们其实已经在预定 2027年的产能跟最新款的芯片其实这个芯片就像Jensen他自己在这个演讲中说的它的能耗是在不停地降低的

而且是在指数级的降低的但是这样就有一个问题了大家以前可能还采购了H100 H200 然后到现在它已经能做的AI工厂了就是说芯片现在的GPU的折旧率在比如说一个资本市场的估算中或者在你们自己的估算中它是按照几年去折旧的对冲基金的答案是5年就是华尔街的做法技术角度上来看的话

你就直接去AWS上面看你能不能租到V100或A100 你租得到的话干得好这很罕见 V100是多少 2017还是2018 年出的产品 7年 8年还在用事实上使用非常的高现在所以其实整体上它的预想时间是会比资本市场估的那个时间还要长的主要原因是现在需求量太大了

现场的观众有没有要提问的我们可以开放一个问题给大家嘉宾你好我也是做二级市场投资的但是我其实对于咱们这个公司还挺好奇的我看咱们定位是一个AI服务的 Cloud service 我就想问你们这个公司跟比如说Google Cloud Azure 他们去竞争的时候你们会有一些什么差异化的策略因为我觉得Cloud service

是一个比较需要规模化的行业作为初创公司你们是怎么去思考这个问题的这是个好问题我先讲一下新云和超大规模云厂商它们本质上的差异它们主要是一个CPU云以及存储云经典的云计算它们的做法就是用VM（虚拟机）的方式来做可是你用VM的话事实上是吃10个点的计算能力你在CPU的话没人在意

一台服务器就是两三万美金可是你现在GB300 就是一栋几百万美金的房子所以你承担不起所以用VM的方式来做我们或我们这类Neo Cloud 就是主要是以K8s的方式去做整个集群的管理让客户直接能拿到 bare metal（裸金属）的百分之百的性能效率所以我认为这是非常大的区别我们的优势相比较

CoreWeave或者Nebius等等我觉得我们事实上有两块产品以及我们的区位我们事实上也是NVIDIA 唯七家的RANCP 就是英伟达官方认证的云服务商那什么是RANCP 搞笑的就想说是老黄的白老鼠（试验品）我们会拿到所有最先进的GPUs 第一批与超大规模云厂商一起像我们就是全亚洲第一家

去搞到GB300的集群它现在事实上也在陆陆续续上线我们建了一个万卡集群也是水冷方案 NVIDIA自己内部也没有搞过大规模云厂商不会跟他分享经验我们会分享经验所以我们就是会拿到最新的包含我们现在也是下了第一波的Vera Rubin 我们事实上也到今年年底会上线第四季度也会上线第一波的Rubin 规模化上线这就是RANCP的含义全球就7家

我们事实上是唯一一家在亚洲有集群在美国有集群的我们现在是管理差不多 9个已投入运营的数据中心我们还有3到4个正在建的我觉得这是第一点主要是很多的法规或者说据安全问题还有些企业他不想在美国本土或是说因为推理对延迟时间（很敏感）那他会需要在全球多个地点布点以实现低延迟的可能性第二点

我们跟像是CoreWeave的差距就是一家公司的背景是跟它的老板的背景正相关的我觉得CoreWeave 我认为他们是现象级的公司我觉得他们做得真的非常好他们毕竟是一个对冲基金出身的他们没有一个所谓的核心软件能力他们是通过收购来补齐技术能明显能看出来他会大量的去买不同的公司来组成他的所谓的软件栈

可是我觉得我们的公司主要是以产品为核心的我就想要把做出一个 vertical solution（垂直解决方案）可以让Enterprise 让企业让创作者让开发者 Youtuber去使用我们有做不同工作流做工作室等等所以我们不只是做整个K8s的管理层再到上面的模型服务我认为这是独特的位置我们也做内核的优化

就是能让客户在稳定的GPU上面还有在为客户做Token的降本所以我觉得核心就两点第一是产品形态我们是一站式平台在我们这里你既能用OpenAI 也能用Gemini Deepseek Qwen Kimi2.5 再加上我们遍布全球的GPU算力好的我们今天的时间也差不多了感谢所有坚持到现在的朋友们谢谢Alex 谢谢大家谢谢

好这就是我们今天的节目本期节目不构成任何投资建议如果大家对英伟达的GTC 有什么自己的想法可以给我们写评论写留言如果大家喜欢用播客来收听我们的节目可以在小宇宙苹果播客还有Spotify来找到我们如果大家希望能够看到这期播客的字幕版可以通过B站或者YouTube

搜索“硅谷101播客” 来找到我们同时你也可以在微信视频号还有小红书上搜“硅谷101”找到我们那我们部分节目的文字稿也会发表在我们的微信公众号硅谷101上我是泓君感谢大家的收听

Loading...

Loading video analysis...