史上首款2nm芯片有多强?三星Exynos 2600性能分析!
By 极客湾Geekerwan
Summary
Topics Covered
- HPB封装:内存不叠SoC散热翻倍
- 三星2nm GAA工艺终于不拉了
- 1+9核CPU:刷分王者,体验噩梦
- GPU理论算力7TF但内存带宽是木桶短板
- 工艺制程才是芯片成败的决定性因素
Full Transcript
今天我们要聊的这颗芯片有点特殊 他是三星在欧洲/东南亚版本的S26和S26+上搭载的自研芯片 Exynos 2600 在十年前 Exynos曾经被我们奉为安卓之光 因为当时高通那边的火龙810 把各大安卓厂商弄得鸡飞狗跳
但三星自家的Exynos 7420 凭借非常优秀的三星14nm FinFET工艺 成了安卓大区唯一能与苹果分庭抗礼的希望 但在台积电支棱起来后 三星工艺就走了下坡路 连带着Exynos芯片也寄了 能效落后高通竞品好几代 这么多年来三星也只敢在部分市场使用Exynos
不过如今的Exynos 2600 似乎看到了一些希望 首先 三星比台积电更早用上了GAA工艺 率先进入了2nm节点 他会不会不像以前的三星工艺那么拉了呢?
其次 Exynos 2600也是世界上第一颗采用了HPB封装的手机芯片 有望解决手机PoP封装内存叠在SoC上导致的积热问题 再者 它在芯片设计上也有不少看头 比如说 它的CPU是一个 1超大+9中核的离谱配置
而它的GPU更是用上了AMD最先进的RDNA4架构授权 连AMD自己的核显都没这个待遇呢 是不是听完我的描述 你也很想知道这个芯片到底是咋回事吧?
哎 正好我还有一位研究芯片的朋友@谈三圈 也对它感兴趣 所以我们今天就买了一台新加坡版的S26 把Exynos 2600磨开来 好好分析一下 再把性能能效这些全部测一遍 那么就开始吧 那我们先把手机拆开来看看好了 光拆出主板你就已经能发现一些端倪了
哎,这怎么有一个5G基带在这儿?
原来Exynos 2600并没有内置基带 而是采用了自家Shannon 5400的外挂基带 和谷歌Pixel 9同款 采用三星4nm工艺制造 可是这就奇怪了 三星啥都是自家做啊 他又不像之前的苹果那样需要依赖高通基带 没道理不能集成啊?
其实以前Exynos一直都是集成基带 这代被迫外挂 实际上和芯片本身的设计有关系 我们待会就会揭晓原因了 上面这个大芯片就是Exynos 2600 SoC本体了 不觉得他的封装看起来很神奇吗?
跟一般的手机芯片都不一样啊 正常来说 手机芯片 底下是SoC 上面是内存 两层叠叠乐 就是我们叫PoP封装 为啥要叠叠乐呢?
因为手机主板非常小 空间寸土寸金 如果不把内存叠在CPU上 就会挤占其他部件的空间 比如影响到电池容量 叠叠乐在过去十年里一直是手机芯片最合理的封装方案 但随着手机的功耗越来越高 叠叠乐的问题也暴露出来了 就是积热 你在内存芯片上贴散热
是很难把底下SoC的热量导出来的 所以为了解决这个隔靴搔痒的问题 这次三星就提出了HPB封装 也就是你看到的这种设计 为了让大家看得更清楚 我们这次拍了CT 大概就是这么一个结构 他是把内存颗粒缩小一半面积 并且把内存的BGA触点
全部转成一条竖长的界面移到基板的一侧 旁边的SoC上面一层树脂填平高度 SoC正上方这么大片空间就可以涂上硅脂 贴上一个铜制导热顶盖 这个导热顶盖就叫HPB 根据我们的测绘来看 他压的这个位置 正好就是芯片的CPU和GPU这两个大热源的正上方
想得还挺周到啊 这么设计就能把SoC的主要热量 尽可能高效地导出到均热板上了 从原理上看 这似乎是一个挺容易理解的创新 那为什么是三星跑出来率先做这件事儿呢?
因为三星又做内存又做SoC呗 他肯定比大多数厂商更有这个条件去试水这些有的没的 HPB到底带来多少散热提升其实很难量化 但我们在测试过程中已经能明显感受到差别了 还记得我们8 Elite Gen5那期节目里讲的 液氮跑单核都能过热降频 根本稳不住吗?
我们这次测Exynos 2600 确实就没有再遇到这么严重的积热了 虽然因为绝对功耗高 再加上S26不算什么顶级散热 也并非完全没有降频 但基本上用个强点的散热背夹也是可以压个七七八八的 不需要液氮就能跑满 还挺管用的 那在聊芯片架构之前
我觉得有必要先来聊一聊它所使用的这个三星2nm GAA工艺 到底有没有比英特尔的18A和台积电的3nm更强呢?
有请我们的好朋友——谈三圈来分析一下吧 谢谢云飞送的稀有芯片 我们第一时间就把它切了 在X和Y方向上切了两刀 然后放到20万倍的电子显微镜下 来一窥三星2nm工艺的秘密 我们切芯片的刀法还是比较精准 这次应该是正好切到了芯片里晶体管密度最高的部分 待会细讲 先来看一下2nm晶体管的剖面 这里每根头顶悬浮3枚纳米片
就是典型的GAA晶体管形貌了 三星这边叫MBC-FET 英特尔那边叫Ribbon-FET 其实都是指的栅极全环绕 简称GAA了 旁边放一粒老演员噬菌体 大家感受一下大小 在这个尺度下去雕刻晶体管还是有一点难度的 尽管三星是最早开始量产GAA的 22年底出货的3nm就已经是GAA了 但客观讲 仅从这次实验数据看
三星2nm GAA的形貌控制与工艺一致性比英特尔还差点意思 其实是少了一片纳米片 这些躺平的板板简单说就是晶体管的并联通道 所以同等条件下多一枚纳米片能提供更大的驱动电流 有利于提升逻辑单元的性能 但代价肯定叠4片比叠3片的工艺挑战更大 当然 除了堆数量 还可以改变纳米片的宽度来调节驱动电流和功耗
比如这次三星的剖面里 我们发现排列有宽片和窄片两种尺寸的晶体管 混合使用来平衡芯片不同区域路径的能效 18A里面也是宽窄片混用 只是比例不同 但三星的另一个问题是 纵向排列的这3枚纳米片尺寸不是很一致 我们大致手工测量了一下 都有点上小下大 上窄下厚 头顶怎么尖尖的
这应该是整体工艺的问题了 因为从器件设计的角度 同一种晶体管 我们通常希望从上到下的纳米片尺寸尽量保持一致 否则并联宽度不同 每片的电流会分配不均 相比之下英特尔的形貌一致性就控制的更好一些 纳米片更接近等宽排列 18A因为我们最近也切了 里面还能看到背部的晶圆供电和电容阵列 具体以后单独讲
当然18A也有缺点 就是它的单元库占地面积大 晶体管密度比较拉 而三星2nm里面 要不是我们这次刀法好 切到了以前 从没报告发现的也许是三星最高密度的单元库 就是这两道沟槽之间的窄片单元 包含PMOS和NMOS两类晶体管 总的体长只有约143nm 纵向的栅极间距约50nm
这个测出来我们还是比较意外的 因为比三星前代工艺的尺寸要小不少 缩放的步子迈的有点大 这里放一个英特尔我们实测的单元库 大家感受一下占地面积 如果以此来计算极限晶体管密度 两者能相差约20% 看得出三星在工艺上也是太想进步了 而与这两家对比 发哥天玑9500用的台积电3nm
仍然属于鱼鳍晶体管FinFET的古法工艺 因为台积电要到今年的2nm才会启用GAA 理论上由于GAA把三面环绕的鱼鳍片升级成了四面全包的纳米片 栅极对沟道漏电的控制力更强 所以GAA器件尺寸能缩得更小 晶体管密度能做更大 但GAA毕竟刚开始量产 工艺和良率还有待优化 不可能一下缩得那么小
而台积电的第三代3nm工艺N3P是它迭代打磨十年后 最后也是最强一代的FinFET工艺了 所以N3B里最紧凑的单元库能做到体长140nm 栅极间距47nm 这个尺寸其实比三星2nm还要略小一点点 所以如果不看晶体管种类 只算极限密度的话 三星2nm与台积电N3P差不多 英特尔18A暂时落后
但它自己有减少压降的专属buff 而且不做手机芯片 这里就不讨论了 等苹果真的用上英特尔14A工艺了 到时再拉出来做三家对比 综上 从我们切开芯片的解剖结果来看 三星2nm与台积电3nm的最高晶体管密度接近 再结合我们能谱分析的结果 从金属材料COAG到高K栅极 先进制程里 这些常见技术两家也都用上了 所以单看工艺
Exynos 2600跟三星前代相比进步很不错 尤其是工艺库的缩放 大家可以期待一下能效上的进步 但跟同期发哥的天玑9500相比 毕竟还是早期GAA 不会比最强3nm有什么工艺上的神秘加成 当然制造工艺只是芯片性能的一部分 具体让我们看极客湾的真机实测 交给云飞 感觉这三星2nm
光看密度虽然还是有点注水啊 但好在赶上台积电N3的屁股也算是不错了 好歹比以前强 那了解完工艺我们也该好好分析一下Dieshot了 还是请我们的老朋友们把他磨开来看看吧 应该说这个Exynos 2600真的是很巨大 在没有内置基带的情况下
它的核心面积都达到了141.5平方毫米 这是本世代乃至几乎所有手机芯片里的面积之最 考虑到封装限制 140平方毫米其实已经达到手机芯片的极限了 这也是为什么三星会把基带外置 这个SoC实在塞不下了 如果加上基带160多平方毫米那得和M5差不多大了
不含基带都这么大面积 这Exynos 2600里到底塞了些啥玩意啊?
其实这个面积主要是被他的GPU和NPU给占掉的 这片就是它的Xclipse 960 GPU了 它占据了整个SoC 23%的面积 远远大于其他家 单看GPU部分的话 它的面积比高通的GPU整整大出了46% 太吓人了
然后三星这个NPU也非常巨大 比其他几位对手要大得多 至于它的CPU部分呢 大小就比较正常了 和隔壁高通发哥的占地面积差不太多 那我们就先从这个CPU说起好了 三星这次的CPU也终于是抛弃了A5xx小核 转向了全大核架构 但是他的全大核
跟另外三家的全大核 有那么亿点点不一样 这次的Exynos 2600 用了一个C1 Ultra超大核 搭配9个C1 Pro中核!
中间完全没有拿C1 Premium大核来衔接 哇 一个爸爸带9个小朋友 这是不是有点太离谱了?
不过在三星这里 核心并不是被简单粗暴的分成1超大+9中 这9个中核还是被分成两组了的 其中一组3颗中核 峰值频率会拉高到3.25GHz来充当大核 剩下一组6颗中核 最高2.75GHz 所有的C1 Pro中核都配备1M L2缓存 最后就是这个光杆司令C1 Ultra超大核了 该说不说
三星在缓存配置上还是挺大方的 给了超大核3M L2缓存 比发哥的9500更大 再外加总共16M L3缓存和24M SLC系统缓存 这简直就跟缓存不要钱一样 那么问题来了 能不能从他这个CPU的单核能效 看出这次三星2nm工艺的电气性能呢?
我们首先就掏出SPEC 2017 来测一下它CPU超大核的能效 既然它的超大核用的是ARM的C1-Ultra 和台积电3nm的天玑9500同款 那么对比9500的单核能效就很有看头了 实测在整数测项里 Exynos 2600这颗超大核 能效好像完全不输给天玑9500啊
两位缠在一块非常焦灼 并没有出现以往三星芯片那种明显差很多的情况 三星中高频部分甚至还有些微的领先 相比8 Elite Gen5的超大核 Exynos 2600也是差距不大 莫非真给他三星整明白了?
这工艺的表现真的还可以啊 我们也看了下浮点测项 Exynos 2600这颗C1 Ultra 会比9500的C1 Ultra略微逊色一丢丢 但整体基本上还是半斤八两的水平 说他是当代旗舰水准的能效是绝对没毛病的 当然光看单核能效我也没办法直接下定论 毕竟哪怕用着一样的IP核
处理器后端设计也会影响表现 我们在玄戒那期视频里就证明了这一点 但至少能看出来三星这次的SF2工艺 应该是没有比台积电N3差多少的 这比以前还是强多了 三星工艺终于不算拖后腿了 不容易啊!
解开了三星2nm工艺的谜团 我还有个特别好奇的 就是这个1+9核的离谱CPU配置 到底疗效怎么样?
搞这么多小核 至少多核刷分应该非常在行吧 你还别说 他真就太适合刷分了 来 请看GB6的CPU多核能效曲线 你敢信?
Exynos 2600居然直接拉爆了8 Elite Gen5啊!
而且是全频段领先 多核相比发哥的9500那是强得不知到哪里去了 我去 三星登顶多核能效榜 搁以前你能想象的了吗?
太扯淡了!
十核打八核 优势在我啊!
其实玩PC比较多的同学早就已经看习惯了 前几年英特尔也好 这两年AMD的笔电U也好 都是在猛堆小核数量 拉高多核性能 三星这次只是做到了一个极端 就是完全没有中间性能段的核心 只堆一颗单核 剩下全拿小核刷高多核分 这下分确实刷上去了
能效曲线确实好看得很 但实际体验是不是也有那么强 我觉得并没有 因为如今的手机应用工况就没有那么两极化 要不只吃单核 要不吃满多核 根本不是这样的 很多应用都要求有多种性能级别的多个核心可以灵活调用 不管是苹果高通那种两个超大核
还是发哥的1+3+4 都是有一定梯度的 可以尽量合理地去调用 三星这个1+9 软件调度起来应该是很头大的 一方面它得把好几颗小核提频去充当大核 这几颗小核会离开甜点的能效区间 另一方面很多软件也调用不了这么多核心 可能最终还是有几个核一直都用不上
那它这个优秀的能效曲线就和实际体验脱节了 顺带一提 我们最近采购了全新的电源设备 压降比之前低很多 所以从这次开始 我们就把所有能效曲线都用新电源复测了一遍 应该越往高频段走 功耗会比之前要越准 所以大家如果看到能效曲线前后有点不一样 也不要觉得奇怪
我们之后也会把新测的能效曲线上传到socpk的 再来看看GPU 刚刚我们讲了这次Exynos的GPU占地面积巨大无比 这颗Xclipse 960到底堆了多少料呢?
我们知道 这玩意是基于AMD的RDNA4架构授权魔改来的 但和PC上的RDNA4显卡非常不一样 Exynos的GPU砍掉了大量特性 比如你在他的驱动里是完全找不到WMMA的 BF16/FP8/INT8这些加速他全都跑不了 因为他把AI加速单元全部砍掉了
这也意味着他不可能支持FSR4的超分 既然砍掉了大量三星认为不需要的单元 为啥这个GPU还这么庞大呢?
因为三星似乎是着了魔一样地在给他疯狂加料 作为一颗16CU的GPU 他的FP32 ALU规模要比PC上同为16CU的890M核显大得多!
正常RDNA2时期的GPU 每个CU里包含64组FP32 ALU 从RDNA3开始AMD带来了VOPD技术 每个ALU在合适指令组合下可以双发FP32 所以峰值情况下可以等效128组ALU 不管是780M、890M核显还是RDNA4桌面显卡 都是这个规格
那三星这个魔改RDNA呢?
哎!
他每个CU总共有224组FP32 ALU!
而且不是VOPD扩出来的 是实实在在堆了224组ALU!
我跟你说 就不管是N卡A卡还是I卡 目前市面上没有任何一家的GPU 单个计算单元规模有他大的 这个真的很离谱 造成的结果就是 三星这颗Xclipse 960 GPU的FP32浮点算力 我们测出来最高能干到7TFLOPS
比同样16CU的890M算力高得多 听起来很牛逼是吧?
但是,我要开始反转了 浮点算力高就代表图形性能一定高吗?
其实未必 还有一个决定性因素 是内存缓存的带宽 这个东西是遵循木桶原理的 你哪怕无脑堆算力 内存带宽不够 很多算法卡在内存瓶颈上发挥不出来 那你多堆的算力就浪费掉了 很不幸的是 手机的内存位宽只有主流PC轻薄本的一半
带宽比PC小得多 顶天80+G/s 而且和大方到缓存不要钱的CPU不同 Exynos 2600这么大一颗GPU也没有给特别多的L2缓存 给了2M吧 这也就和桌面端890M核显差不多 这点点内存缓存带宽其实只够这颗特大GPU跑在较低的频率上
当然这也无可厚非 毕竟手机GPU就是低频用的最多 那为什么不一开始就做小一点规模 抬点频率呢?
能效可能半斤八两 但面积却能小得多 节约了成本还能把基带集成进来 怎么想都感觉更合理啊 老实说我是有点没搞明白 为什么要在没有大缓存的情况下堆这么多ALU的 这里我做了一个非常粗略的屋檐模型来说明问题 咱们姑且不说缓存吧 就单说内存
底下这个数字代表了一个算法读写一次内存能续航多少次浮点运算 或者说得更直白一点 游戏里的各种算法对内存带宽有多敏感 三星这个GPU如果拉满跑 只有这个值达到82的算法才能完全吃满它的浮点算力 那我们来看看常见的一些图形算法是什么样的内存开销 比如最原始的模糊算法
这个是极端吃内存的 大概就只有零点几 意思是读写1byte内存只够做零点几次浮点运算 那像延迟渲染写入G-Buffer 差不多是1-10 SSR屏幕空间反射大概在5-20 哪怕是不那么吃内存的体积雾或者粒子特效 这个值也就20以上 只有PC上拉满设定可能才超过100
这种效果在手游里真的很罕见 所以大多数手游图形算法在这颗GPU满频率上都是撞内存墙的 当然前面也说了 正常工况GPU也不会跑高频 基本都是降到低频用的 那他这个线就降到和其他家差不多位置了 那就是花了更多芯片面积实现了跟别人一样的效果
怎么算都挺浪费的 但反正造芯片的钱是三星掏的 他也不外卖 面积大了造价贵了对于用户来说也未必感知很强 大家最关心的估计还是能效对吧?
这个RDNA4核显到底实际性能有多强呢?
我们测下来放在移动端确实还是挺强的 这是它的3DMark SNL能效曲线 他这颗GPU 毫不意外地能效全程压制高通的8 Elite Gen 5 相比目前手机GPU王者天玑9500 能效也已经很接近了 实际上 他这个SNL 3200多分的峰值成绩
确实超过了PC上的核显常青树780M 比起频率更高内存带宽更大的890M也差得不远 这波在核显上猛猛堆料 至少能效上还是挺好看的 只要没多收钱对于用户来说就没问题 但三星也确实是在工艺制程不差的情况下 用比别家大得多的GPU面积
实现了差不多的能效 所以你要问我这个芯片设计上好不好呢?
我也很难完全赞同它的设计思路吧 总的来看 这个Exynos 2600最大的好消息 确实还是这个三星2nm工艺制程不拉了 密度能效都过关 三星工艺总算支棱起来了 并且通过疯狂加中核实现了纸面上很好看的CPU多核能效 GPU大幅魔改AMD的RDNA架构
能效同样也很不错 但狂堆ALU也有点用力过猛了 占的面积过大 就没法内置基带了 我觉得这Exynos 2600虽然不是什么烂货吧 但我高低也得给他颁一个年度最抽象芯片奖 但是再怎么抽象 他相比前几代三星芯片还是好了太多太多
那么问题来了 理论能效这么强的一颗芯片 实际上在手机的各种应用里能打得过高通竞品吗?
我们干脆又买了台国行的S26 搭载骁龙8 Elite Gen 5 for Galaxy 直接拿它俩对比一下 三星打三星 够公平吧?
那首先就来玩点游戏看看好了 先来看一个它一定能跑动的游戏 原神 我的初衷是先找一个一定能跑60帧的游戏 这样能更准确地通过功耗看出来能效差别 但这一上来就给了我们一个下马威啊 没想到理论能效这么强的Exynos 2600 玩个原神也并不能全程贴满60帧
到了后半截17分钟开始也是会有一丁点降频掉帧的 那我们就对比前半截打满的功耗 这台Exynos 2600的S26是整机5.3W 作为对比 隔壁高通8E5的S26只有4.4W 搭载8E的S25也不过4.7W多 当然如果是拿出8Gen3机型
那个功耗就高太多了 三星这个Exynos2600再怎么说能效也是远远强于8Gen3的 但确实理论多核干8E5 游戏能效却打不过8E 还是稍微有点让人失望的 这其实我早先就预料到了 前面也讲了嘛 这9个中核就是刷分猛猛刷 实际用起来有得苦了
从原神的调度来看它就是乱七八糟 他的CPU7和CPU8会交替冲到很高的占用上 但一个核占用高另一个核是完全不干活的 CPU6和CPU9也都基本没动 与此同时看频率 玩个原神都要把这9个中核爆拉到将近2GHz 这个调度策略真的何意味 作为对比
8E5虽然三星也关掉了一个超大核用 但整体占用一直是比较低的 中核在数量少得多的情况下 频率也仅仅控在1.2GHz左右节省功耗 这才是一个正常的调度策略 Exynos这个跑法实在是很离谱啊 能效不好看也是情理之中了 只能说优秀的三星工艺 和最新的ARM架构还能carry它接近个8E水平 很不容易了
原神都跑这个性能 那其他游戏就更不必说了 一旦CPU不够用 要看调度的时候 你可想而知会有多拉 比如明日方舟终末地我们武陵城跑图实测30分钟下来 Exynos 2600只能跑到30多帧 远远不如8E和8E5的三星机型 这个性能仅仅和8Gen3机型半斤八两
当然5.4W的功耗还是比8Gen3低多了 但你也看到了三星根本没法调度好这个10核CPU 其实一开始这段它甚至是能跑满60帧的 因为超大核居然动起来跑高频了 那代价就是功耗跑到10W多 撑不了多久就降频了 不过一个三星手机居然十几瓦功耗还能撑两分钟
而不是秒降频 感觉HPB确实起到了一些作用啊 最后我们也测了一下鸣潮 拉海洛摩托跑图864P跑个40多帧 能效依然介于8Gen3和8E之间 忽略功耗单纯比游戏性能依然没干过8Gen3的S24 我说什么来着?
这玩意 确实是调度噩梦吧?
除了游戏之外 大家应该也比较好奇这个国际版S26续航表现怎么样?
Exynos 2600机型的续航 会和它的理论能效更接近 还是像游戏一样比较拉呢?
看起来 这个续航是比较拉的 国际版S26在我们的极客湾5G续航模型3.5里 仅仅坚持了6小时45分钟 相比S26国行少了整整一个小时续航 对于本就续航不长的机器来说 少一个小时是极为致命的 在电池加大的情况下
它续航也就和上一代8E的S25差不多 所以日用能效依然是干不过8E机型的 这个续航可能就比Google Pixel 10好那么一丝吧 都是吊车尾水平 不过续航差的锅并不能全部扣在Exynos 2600上 我觉得罪魁祸首可能是外挂基带 没办法
这基带不仅用着远不如SoC的三星4nm工艺制程 还需要额外的电路 有额外的启动功耗 还占了主板空间 外挂基带就是坏文明 这一点苹果已经深受其害了 去年小米玄戒我们也看到影响不小 三星这个我是真觉得很抽象 那两家实在是没办法
而你三星明明设计制造全靠自家 完全可以做到协调各部门设计 为什么还是把基带外置了呢?
堆这么大面积的GPU而不放基带真的合理吗?
反正我是有点看不明白 但不管这次的Exynos 2600在设计上有多少抽象问题 总体上还是被三星SF2工艺优秀的能效表现给盖过去了 从这个角度来看 工艺制程确实是当代芯片表现的决定性因素 以前三星工艺拉 芯片怎么做都拉 现在工艺赶上来了
芯片再怎么设计都差不到哪儿去 还是挺让人感慨的 讲到这里 我们对于三星Exynos 2600这颗神奇芯片的分析 就已经做得差不多了 这个视频信息量够大吧?
我们也是花了好长好长时间来分析 如果大家看得过瘾 有所收获的话 一定记得点赞 收藏 转发 支持我们一下 记得关注我们极客湾频道 也别忘了去关注一下@谈三圈的频道 这种干货满满的长视频我们可以多来一点 同时 也感谢“安全研究团队DARKNAVY·深蓝” 通过内核漏洞root了这台S26手机
我们才得以挖掘出这么多的信息 好了 以上就是本期节目的全部内容 我是云飞 我们下次再见了 bye bye
Loading video analysis...