17000 token/s，比B200快48倍！Taalas AI 芯片能否颠覆英伟达GPU？

By 白呀白Talk

Summary

Topics Covered

HC1推理速度碾压Groq13倍
Bajic融合四领域全才创业
将模型焊死芯片实现存算合一
硬编码锁定模型过时风险
极端专用化验证效率提升

Full Transcript

有这么一颗芯片在2026年2月份横空出世跑出了让英伟达 Cerebras 甚至是 Groq 都感到背后发凉的数据它的峰值推理速度到达了恐怖如斯的每秒17000个tokens 这意味着生成几万字的小说或者上千行的代码几乎能在毫秒级内完成这对于人类的感知来说相当于输入即“光速吐出”

来做个简单对比对比我们之前详细介绍过的刚刚被英伟达以200亿美元收购的 Groq LPU Groq可以说已经比传统的GPU 快了整整一个数量级达到了每秒1300个tokens 而这颗Taalas HC1 芯片的推理速度大约是 Groq 的13倍以上更为夸张的是相比于主流的GPU方案它不仅是速度快

由于不需要昂贵的HBM高带宽内存风冷就能散热成本还骤降了20倍功耗降低了高达10倍以上一张插满 HC1 芯片的 PCIe 加速卡只要 200 瓦而同等推理能力的 GPU 服务器大概要烧掉几千瓦的电力那么在这个电力即算力的时代这颗引发了全球科技行业高度关注的AI芯片

是如何做到“光速推理”的呢？

它能冲击现有的算力卡格局吗？

能颠覆英伟达的GPU垄断吗？

以及它的未来落地点落地方向在何方呢？

那么今天我们就来探讨一下这个非常有趣的话题首先Taalas 公司何许人也？

虽然我们在网络上看到的最显著的标签之一就是 Taalas仅用24人的团队就完成了这场史无前例“极速表现” 然而事实上它的背景并没有那么简单 Taalas的创始人Ljubisa Bajic 并不是一位无名之辈相反他的职业经历本身就是一部浓缩版的硅谷顶级芯片架构的演进史

这位来自塞尔维亚的芯片设计师是业界公认的技术传奇 Bajic曾经是黄仁勋手下的员工在英伟达期间他就参与到了英伟达 GPU 架构的搭建后来转战AMD期间他结识了他职业生涯最重要的一位伯乐芯片界的真神 GOAT之一的Jim Keller Jim Keller就不用多做介绍了 x86_64指令集的奠基人之一

两次挽救AMD于水火的那个男人曾经领导苹果开创了A4/A5自研芯片之路后来为特斯拉打造了 FSD自动驾驶芯片在 Jim Keller的播客采访中他提到 Bajic是少数能够融合四个不同领域知识的全才 Bajic理解GPU的内部工作原理精通AI算法的数学本质

能将算法转化为软件实现同时还具备扎实的芯片设计能力能够将这些知识落地为实际可用的芯片大概是在2016年 Ljubisa Bajic决定离开大厂创业当时他拿着一个用 FPGA 实现的初级原型去找 Jim Keller 两人一拍即合创立了后来的 Tenstorrent公司在当时

这两位技术大牛的目标是统一的就要用一种比英伟达 GPU 更聪明更灵活的架构去跑 AI 然而随着Tenstorrent的发展大概在2021年 Jim Keller开始全面接管 Tenstorrent的主要运营和业务 Bajic与Jim Keller 在技术路线上的分歧也愈发显现简单来说 Keller的理念是要打造一个通用的

基于RISC-V 可编程平台让软件生态成为护城河而Bajic则越来越倾向于另外一个极端那就是彻底的专用化在他看来软件层面的灵活性简直是“效率的杀手” 为了让芯片能跑各种模型业界浪费了太多的晶体管去处理指令译码缓存调度和显存搬运 Bajic认为如果模型已经收敛

那么我们为什么不把模型直接“焊死”在芯片上呢？

知行合一说干就干在2023年初 Bajic选择了辞职与妻子Lejla创立了我们今天视频的主角 Taalas公司我们用Bajic本人在其官网一句话的总结概括 Taalas的理念他认为AI需要像通用计算一样变得容易构建快速且廉价那么 Taalas的这颗HC1芯片到底是歪门邪路

还是一次革命性的创新？

首先我们要理解 HC1芯片的速度就必须先理解为什么GPU会慢？

在传统的 H100 或者B200 GPU架构中由于熟知的冯·诺依曼架构的 “内存墙”瓶颈应该说计算是“客” 数据是“主” 模型权重储存在 HBM 里每一层计算都要从 HBM高带宽内存中搬运 TB 级别的数据到计算单元一方面这导致了严重的存算失衡产生延迟同时在传统架构中

往往计算一个乘法只需要几个皮焦耳的能量但是从内存搬运这个数据却需要消耗上百倍的能量据统计在传统GPU的推理过程中有高达90%的能量和时间都耗费在了数据搬运上而不是计算本身这就造成了目前机柜散热系统的承受上限已然成为了算力释放的瓶颈之一就像Jim Keller所说的在AI时代

往往计算是免费的数据移动才是昂贵的那么 Taalas是如何尝试去解决这个问题的？

简单来说 Taalas的技术原理并不是对现有 “存算一体”路线的简单优化而是一种非常极端的范式转换甚至是对存算架构的一次极致“邪修” 目前主流的CIM技术无论是基于SRAM还是近存计算其核心目标是在保持一定可编程性的前提下缩短数据搬运的距离而HC1芯片

则选择了截然不同的路径那就是为单一模型定制硅片将模型本身物理固化进芯片有一种做法不是特别准确但是也可以这么理解就是将模型直接“刻”在芯片上 HC1 采用了台积电6nm工艺通过Mask ROM技术将Llama 3.1 8B模型的 80亿个参数直接编码固化在芯片的金属掩膜层中

这意味着模型权重不再是“存储”在独立的存储单元里等待被读取而是成为了芯片晶体管间互连电路的一部分与执行计算的逻辑门在物理上共存于同一个硅基底中实现了存储单元与计算逻辑在物理层面的“合一” 这种设计带来了的优势是显而易见的 HC1彻底消除了

权重数据的远程搬运使权重数据“静止”在计算发生的原位数据流过芯片的那一刻计算即完成了实现了真正意义上的电路层面的 “存算即一” 这里我大概画了一个表格如果让我用三个词来概括 Taalas的设计理念那就是一 “全面的专用化” 二 “极致的简化”

三 “存算合一” 它不再是运行模型它本身就是一个“硬体模型” 那么接下来我们再来讨论一个关键的问题目前硅谷把HC1 吹得神乎其神网络上更是将它描述为英伟达的颠覆者挑战者那么真的有这种可能吗？

它能商业化规模化落地吗？

简单说来的确天下武功唯快不破但是任何的“快” 都是有代价的 Taalas也无法避免这种物理规律我这里简单给大家总结了一下三个 Taalas HC1 芯片的致命的瓶颈首先是第一个致命的问题就是模型的过时风险目前由于HC1采用了硬编码设计

这意味着它出厂的那一刻实际上就被永久的锁定了只能终身运行Llama 3.1 8B 这一个特定的模型即无法更改也无法升级而在当下的模型行业众所周知这个迭代速度基本上是季更甚至月更上半年的SOTA模型这个月可能就已经过时了

虽然Bajic宣称 Taalas 让软件栈基本消失了这在硬件层面是效率优势但是在商业层面却是一个相当致命的问题这意味着开发者无法为HC1 编写任何软体也无法进行任何的优化用户被彻底锁定在一个静态的模型版本上然后是第二个瓶颈

那就是激进量化带来的精度损失目前为了将拥有80亿参数的 Llama 3.1 8B模型高效地固化进这颗台积电6nm工艺的芯片之中 HC1采用了一种激进的混合量化方案它结合了自定义的 3-bit基础数据类型与6-bit参数简单来说这种设计相当于比GPU

普遍使用的FP16 FP8基准会不可避免地带来一定程度的模型质量退化目前已经有用户反馈尽管HC1推理速度惊人但在复杂的推理数学计算长链条的代码生成一些需要深度理解的任务中 HC1 有明显的缺陷率上升的情况例如一些简单的数学题

一些简单的推理可能因为量化损失而搞错所以有些人会说得益于极佳的低功耗 HC1适合在边缘计算例如机器人战地军事或者自动驾驶领域来使用我想说不能拿生命开玩笑面对可能的频频“翻车”情况我觉得对于任何严谨的使用场景

目前来看HC1都不太适用最后是第三个瓶颈也是目前Taalas架构争议最大的问题那就是多芯片扩展的局限性目前跑8B模型肯定是不够看的对于前沿大模型例如跑完整版的 DeepSeek-R1 Taalas 就提出将 SRAM 部分拆分到单独芯片每颗 HC1 承载约 20B 参数

总计需要约大概30颗定制芯片来协同工作我们简单来设想一下由于芯片完全不可编程出错余地基本为零那就需要在流片前就完成整个多芯片系统的完整仿真可以说这本身就是一项极其复杂且困难的工程挑战这也让HC1失去了原有的

简单高效极致的优势最后总结一下用6nm 815mm²的芯片面积仅250W的功耗简单的风冷系统就跑出了每秒17000个token的巅峰推理速度这本身就是一个奇迹对吧我们不能苛刻太多有人说它是英伟达的颠覆者我想说不至于不至于应该说

它更像是一次具有前瞻性的 “极端专用化”的一次探索虽然Taalas这种卡短期内还无法应用在大规模的数据中心推理服务中但是长期来看随着模型行业边际效用的收窄 HBM内存价格的持续走高推理成本控制的苛刻条件未来在一些优势场景

不排除会出现一些杀手级的应用比如说应用在实时翻译实时代码补全垂直领域的一些定制化模型等等对于行业来说 HC1芯片最大的价值不在于颠覆了英伟达与否而在于它在用最极端的方式验证了一个可行的设计理念当算法收敛时

硬连线方案同样可以带来数量级的效率提升正如很多专家所说的虽然Taalas 目前确实还没有太多商业化的价值但并不妨碍它成为 “一颗有历史意义的芯片” 它为通用还是专用亦或“通用与专用并存”的芯片路径之争提供了另外一种

完全的可能性与想象力那么本期视频就到这里希望对大家了解 Taalas芯片的一些情况有更多的理解如果大家对前沿科技和技术话题感兴趣欢迎关注我的频道朋友们我们下期视频再见！

Loading...

Loading video analysis...