17000 token/s,比B200快48倍!Taalas AI 芯片能否颠覆英伟达GPU?
By 白呀白Talk
Summary
Topics Covered
- HC1推理速度碾压Groq13倍
- Bajic融合四领域全才创业
- 将模型焊死芯片实现存算合一
- 硬编码锁定模型过时风险
- 极端专用化验证效率提升
Full Transcript
有这么一颗芯片 在2026年2月份横空出世 跑出了让英伟达 Cerebras 甚至是 Groq 都感到背后发凉的数据 它的峰值推理速度到达了 恐怖如斯的 每秒17000个tokens 这意味着 生成几万字的小说 或者上千行的代码 几乎能在毫秒级内完成 这对于人类的感知来说 相当于输入即“光速吐出”
来做个简单对比 对比我们之前详细介绍过的 刚刚被英伟达以200亿美元 收购的 Groq LPU Groq可以说已经比传统的GPU 快了整整一个数量级 达到了每秒1300个tokens 而这颗Taalas HC1 芯片的推理速度 大约是 Groq 的13倍以上 更为夸张的是 相比于主流的GPU方案 它不仅是速度快
由于不需要昂贵的HBM高带宽内存 风冷就能散热 成本还骤降了20倍 功耗降低了高达10倍以上 一张插满 HC1 芯片的 PCIe 加速卡 只要 200 瓦 而同等推理能力的 GPU 服务器 大概要烧掉几千瓦的电力 那么在这个电力即算力的时代 这颗引发了全球科技行业 高度关注的AI芯片
是如何做到“光速推理”的呢?
它能冲击现有的算力卡格局吗?
能颠覆英伟达的GPU垄断吗?
以及它的未来落地点 落地方向在何方呢?
那么今天我们就来探讨一下 这个非常有趣的话题 首先Taalas 公司 何许人也?
虽然我们在网络上看到的 最显著的标签之一就是 Taalas仅用24人的团队 就完成了这场史无前例“极速表现” 然而事实上 它的背景并没有那么简单 Taalas的创始人Ljubisa Bajic 并不是一位无名之辈 相反 他的职业经历 本身就是一部浓缩版的 硅谷顶级芯片架构的演进史
这位来自塞尔维亚的芯片设计师 是业界公认的技术传奇 Bajic曾经是黄仁勋手下的员工 在英伟达期间 他就参与到了 英伟达 GPU 架构的搭建 后来转战AMD期间 他结识了他职业生涯 最重要的一位伯乐 芯片界的真神 GOAT之一的Jim Keller Jim Keller就不用多做介绍了 x86_64指令集的奠基人之一
两次挽救AMD于水火的那个男人 曾经领导苹果 开创了A4/A5自研芯片之路 后来为特斯拉打造了 FSD自动驾驶芯片 在 Jim Keller的播客采访中 他提到 Bajic是少数能够融合 四个不同领域知识的全才 Bajic理解GPU的内部工作原理 精通AI算法的数学本质
能将算法转化为软件实现 同时还具备扎实的芯片设计能力 能够将这些知识 落地为实际可用的芯片 大概是在2016年 Ljubisa Bajic决定离开大厂创业 当时他拿着一个用 FPGA 实现的初级原型 去找 Jim Keller 两人一拍即合 创立了后来的 Tenstorrent公司 在当时
这两位技术大牛的目标是统一的 就要用一种比英伟达 GPU 更聪明 更灵活的架构去跑 AI 然而 随着Tenstorrent的发展 大概在2021年 Jim Keller开始全面接管 Tenstorrent的主要运营和业务 Bajic与Jim Keller 在技术路线上的分歧 也愈发显现 简单来说 Keller的理念是要打造一个通用的
基于RISC-V 可编程平台 让软件生态成为护城河 而Bajic则越来越倾向于 另外一个极端 那就是彻底的专用化 在他看来 软件层面的灵活性 简直是“效率的杀手” 为了让芯片能跑各种模型 业界浪费了太多的晶体管 去处理指令译码 缓存调度和显存搬运 Bajic认为 如果模型已经收敛
那么我们为什么不把模型 直接“焊死”在芯片上呢?
知行合一 说干就干 在2023年初 Bajic选择了辞职 与妻子Lejla创立了 我们今天视频的主角 Taalas公司 我们用Bajic本人 在其官网一句话的总结概括 Taalas的理念 他认为AI需要像通用计算一样 变得容易构建 快速且廉价 那么 Taalas的这颗HC1芯片 到底是歪门邪路
还是一次革命性的创新 ?
首先我们要理解 HC1芯片的速度 就必须先理解为什么GPU会慢?
在传统的 H100 或者B200 GPU架构中 由于熟知的冯·诺依曼架构的 “内存墙”瓶颈 应该说 计算是“客” 数据是“主” 模型权重储存在 HBM 里 每一层计算都要从 HBM高带宽内存中 搬运 TB 级别的数据到计算单元 一方面 这导致了严重的存算失衡 产生延迟 同时 在传统架构中
往往计算一个乘法 只需要几个皮焦耳的能量 但是从内存搬运这个数据 却需要消耗上百倍的能量 据统计 在传统GPU的推理过程中 有高达90%的能量和时间 都耗费在了数据搬运上 而不是计算本身 这就造成了 目前机柜散热系统的承受上限 已然成为了算力释放的瓶颈之一 就像Jim Keller所说的 在AI时代
往往计算是免费的 数据移动才是昂贵的 那么 Taalas是如何尝试 去解决这个问题的?
简单来说 Taalas的技术原理并不是对现有 “存算一体”路线的简单优化 而是一种非常极端的范式转换 甚至是对存算架构的一次极致“邪修” 目前主流的CIM技术 无论是基于SRAM还是近存计算 其核心目标 是在保持一定可编程性的前提下 缩短数据搬运的距离 而HC1芯片
则选择了截然不同的路径 那就是为单一模型定制硅片 将模型本身物理固化进芯片 有一种做法不是特别准确 但是也可以这么理解 就是将模型直接“刻”在芯片上 HC1 采用了台积电6nm工艺 通过Mask ROM技术 将Llama 3.1 8B模型的 80亿个参数 直接编码固化在芯片的 金属掩膜层中
这意味着模型权重 不再是“存储”在独立的存储单元里 等待被读取 而是成为了芯片晶体管间 互连电路的一部分 与执行计算的逻辑门 在物理上共存于同一个硅基底中 实现了存储单元与计算逻辑 在物理层面的“合一” 这种设计带来了的优势 是显而易见的 HC1彻底消除了
权重数据的远程搬运 使权重数据“静止”在 计算发生的原位 数据流过芯片的那一刻 计算即完成了 实现了真正意义上的电路层面的 “存算即一” 这里我大概画了一个表格 如果让我用三个词来概括 Taalas的设计理念 那就是一 “全面的专用化” 二 “极致的简化”
三 “存算合一” 它不再是运行模型 它本身就是一个“硬体模型” 那么接下来 我们再来讨论一个关键的问题 目前硅谷把HC1 吹得神乎其神 网络上更是将它描述为 英伟达的颠覆者 挑战者 那么 真的有这种可能吗?
它能商业化规模化落地吗?
简单说来 的确 天下武功唯快不破 但是任何的“快” 都是有代价的 Taalas也无法避免这种物理规律 我这里简单给大家总结了一下 三个 Taalas HC1 芯片的 致命的瓶颈 首先是第一个致命的问题 就是模型的过时风险 目前 由于HC1采用了硬编码设计
这意味着 它出厂的那一刻 实际上就被永久的锁定了 只能终身运行Llama 3.1 8B 这一个特定的模型 即无法更改也无法升级 而在当下的模型行业 众所周知 这个迭代速度 基本上是季更甚至月更 上半年的SOTA模型 这个月可能就已经过时了
虽然Bajic宣称 Taalas 让软件栈基本消失了 这在硬件层面是效率优势 但是在商业层面 却是一个相当致命的问题 这意味着开发者无法为HC1 编写任何软体 也无法进行任何的优化 用户被彻底锁定在 一个静态的模型版本上 然后是第二个瓶颈
那就是激进量化带来的精度损失 目前为了将拥有80亿参数的 Llama 3.1 8B模型 高效地固化进这颗 台积电6nm工艺的芯片之中 HC1采用了一种激进的 混合量化方案 它结合了自定义的 3-bit基础数据类型 与6-bit参数 简单来说 这种设计相当于比GPU
普遍使用的FP16 FP8基准 会不可避免地带来 一定程度的模型质量退化 目前已经有用户反馈 尽管HC1推理速度惊人 但在复杂的推理 数学计算 长链条的代码生成 一些需要深度理解的任务中 HC1 有明显的缺陷率上升的情况 例如一些简单的数学题
一些简单的推理 可能因为量化损失而搞错 所以有些人会说 得益于极佳的低功耗 HC1适合在边缘计算 例如机器人 战地军事 或者自动驾驶领域来使用 我想说不能拿生命开玩笑 面对可能的频频“翻车”情况 我觉得对于任何严谨的使用场景
目前来看HC1都不太适用 最后是第三个瓶颈 也是目前Taalas架构 争议最大的问题 那就是多芯片扩展的局限性 目前跑8B模型肯定是不够看的 对于前沿大模型 例如跑完整版的 DeepSeek-R1 Taalas 就提出将 SRAM 部分 拆分到单独芯片 每颗 HC1 承载约 20B 参数
总计需要约大概30颗定制芯片 来协同工作 我们简单来设想一下 由于芯片完全不可编程 出错余地基本为零 那就需要在流片前 就完成整个多芯片系统的完整仿真 可以说这本身就是一项极其复杂 且困难的工程挑战 这也让HC1失去了原有的
简单 高效 极致的优势 最后总结一下 用6nm 815mm²的芯片面积 仅250W的功耗 简单的风冷系统 就跑出了每秒17000个token的 巅峰推理速度 这本身就是一个奇迹 对吧 我们不能苛刻太多 有人说它是英伟达的颠覆者 我想说 不至于 不至于 应该说
它更像是一次具有前瞻性的 “极端专用化”的一次探索 虽然Taalas这种卡 短期内还无法应用在 大规模的数据中心推理服务中 但是长期来看 随着模型行业边际效用的收窄 HBM内存价格的持续走高 推理成本控制的苛刻条件 未来在一些优势场景
不排除会出现一些杀手级的应用 比如说应用在实时翻译 实时代码补全 垂直领域的一些定制化模型等等 对于行业来说 HC1芯片最大的价值 不在于颠覆了英伟达与否 而在于它在用最极端的方式 验证了一个可行的设计理念 当算法收敛时
硬连线方案同样可以带来 数量级的效率提升 正如很多专家所说的 虽然Taalas 目前确实还没有太多商业化的价值 但并不妨碍它成为 “一颗有历史意义的芯片” 它为通用还是专用 亦或“通用与专用并存”的 芯片路径之争 提供了另外一种
完全的可能性与想象力 那么本期视频就到这里 希望对大家了解 Taalas芯片的一些情况 有更多的理解 如果大家对前沿科技和技术话题感兴趣 欢迎关注我的频道 朋友们 我们下期视频再见!
Loading video analysis...