AMD 新一代 Zen 5 架构处理器：揭开神秘面纱，更多性能数据、技术特性公布

aixo 2024-07-16 10:28:07

2024-07-16 10:28:07

6月初的台北电脑展上，AMD正式发布了基于新一代Zen 5架构的锐龙AI 300系列笔记本处理器、锐龙9000系列桌面处理器，均将在7月份上市。

当时，AMD比较罕见地大方公布了具体型号命名、规格参数(隔壁的Lunar Lake还只有架构和技术)，不过关于新的CPU/GPU/NPU架构并没有讲太多，桌面上的新一代主板芯片组也只说了一个大概，算是留了一些悬念。

上周，AMD特意在美国举办了一场Zen 5 Tech Day技术活动，终于揭开了新架构的神秘面纱，并公布了更多性能数据、技术特性，尤其是新的处理器与内存超频。

至于确切的上市时间，锐龙AI 300笔记本是7月28日，锐龙9000系列是7月31日。

【Zen 5架构：整体加宽加大、独享Intel秘笈】

Zen架构诞生于2017年，相比于此前的推土机架构IPC大幅提升52％，远超当初设定的40％目标，在整个微处理器历史上都是极为罕见的进步。

7年来，Zen架构不断深入打磨，如今已经演化到第五代，是一次相当大幅度的变革，包括增加每时钟周期指令数、拓展指令分派与执行带宽、翻倍缓存数据带宽、AI加速等等。

CPU架构设计是一个极为复杂的工程，哪怕是个升级版本。

Mike Clark已经在AMD工作了31年之久，如今是AMD院士、芯片设计工程师，也是历年来Zen架构研发的灵魂人物，被称为“Zen之父”( of Zen)、“Zen老爹”(Zen Daddy)。

他动情地表示，人们往往意识不到CPU架构设计有多难，需要多么漫长的时间，比如Zen 5的研发，就是全球多地大量的设计、验证、软件等团队多年来全身心投入的心血结晶，它甚至已经融入了大家的血液之中，很多人吃饭甚至做梦的时候都想着它，而最终看到自己的努力开花结果，是一件相当了不起的事情。

接下来我们就看看Zen 5架构在不同模块的变化，当然我们只能大略地讲一讲高级层面的，不涉及太深入的细节。

其实，现代CPU架构都有着成熟的体系，整体可分为前端、后端两大部分，细分包括指令预取与解码、整数执行、浮点执行、载入存储、缓存等不同单元模块。

除非出现完全颠覆性的计算体系，CPU架构设计师要做的，就是根据预设目标，确定不同单元模块的规格规模，然后有机地组合为一个整体，发挥出最大效率，既不能造成浪费，也不能出现瓶颈。

就像一条水渠或者水管，一般情况下自然是水流量越大越好，但也不能一味地加宽加粗，从源头到末端要整体协调一致，既不能让水不够了，也不能让水堵住了，讲究的就是一个平衡。

Zen 5的整体思路就是适当放大规模，很多地方甚至翻番，比如前端部分改成了双预取、双解码流水线，可以更高效地处理各种负载，打个比方就是源头水闸更开放，能释放的水流量更足。

同时，分支预测也做了极大提升，吞吐量更大，精度更高，延迟更低，而且指令缓存的延迟和带宽同样得到了提升，就像是水渠也更宽敞了，面对更多的水流不会出现溢出情况。

整数执行单元加宽了指令的分派与执行通道，包括分派与引退增加到8个宽度，执行窗口增大，一体化ALU调度器数量更多，包括六个ALU与四个AGU。

浮点与矢量执行单元那部分，最核心变化就是在Zen 4架构引入AVX-512指令集的基础上，从仅支持256位数据宽度，强化为支持完整的512位。

256位下的灵活性更高，因为不是所有的指令都需要用到512位这么宽，而现在加入512位满血版之后，可长可短，可以在保持灵活性的同时，大大提升执行效率和性能。

更耐人寻味的是，Intel方面由于异构混合架构设计的缘故，新一代的Lunar Lake、Arrow Lake都不支持AVX-512，何时能够回归也不一定。

谁能想到，Intel当年的独门武器，如今反而成了AMD的私房菜。

另外，浮点单元的流水线有6条，FADD指令的延迟只有2个时钟周期。

载入存储单元部分大大提升了数据带宽，其中一级数据缓存容量从32KB增大到48KB，同时从8路增强为12路。

通往一级缓存、浮点单元的最大带宽，也比上代翻了一番，并改进了相应的数据预取。

另外，数学加速单元的性能有了突飞猛进，单核心执行数学学习、AES-XTS指令的速度分别可提升最多32％、35％。

这有啥好处？当然是可以极大地加速AI运算的效率，更适应当下环境，特别是在EPYC处理器中搭配加速器，效果更是相得益彰。

凭借这一系列改进，Zen 5架构的IPC提升平均多达16％(可以理解为同频性能提升)，部分场景提升甚至高达35％。

其中贡献最大的是指令执行与引退部分的改进，然后是数据带宽、指令解码与OP缓存的提升，最后是指令预取与分支预测的变化。

根据历年的官方数据，Zen+、Zen 2、Zen 3、Zen 4相比前代的IPC提升平均幅度分别为3％、15％、19％、13％。

五代六个版本演进累积下来，Zen 5相比于初代Zen IPC平均提升幅度已经高达约85％！

别忘了频率也在不断拉高，初代最高只有4.0GHz，如今已经高达5.7GHz，提升幅度约43％。

产品方面，面向台式机的锐龙9000系列，会使用纯粹的Zen 5，还是CCD＋IOD的组合。

CCD部分工艺从5nm升级为4nm，每个里边最多8核心，总计最多16核心。

IOD部分沿用锐龙7000系列的，因此还是6nm，集成两个RDNA 2架构的GPU图形核心。

移动端的锐龙AI 300系列全部都是Zen 5、Zen 5c的组合，如上图右下角部分，下方四个橙色调的是Zen 5，上方八个紫红色调的是Zen 5c。

不同于Intel异构架构，Zen 5、Zen 5c还是完全相同的架构设计、IPC性能、ISA指令集，不同之处只是后者缓存更小、频率更低(但能效更高)。

锐龙AI 300系列的制造工艺为4nm，和上代锐龙7000/8000系列一样。

在数据中心端，第五代Turin EPYC将在今年下半年发布，使用先进的4nm、3nm工艺组合，这也是AMD第一次引入3nm。

Turin EPYC将升级到多达192核心384线程，新特性方面官方特别提到了基于Trust IO功能的AI加密，无疑可以更好地满足当今的云端AI部署需求。

接下来，我们将会看到Zen 6、Zen 6c，后续的Zen 7也在研发之中，你猜都会用什么工艺？

GPU

AMD 新一代 Zen 5 架构处理器：揭开神秘面纱，更多性能数据、技术特性公布

华铁应急遭证监会问询拟投资10亿开展智能算力业务

安兔兔后台完成iPadPro2024：性能提升50%

腺核苷三磷酸果壳:蛋白质分析AI工具全新升级

宁波人工智能超算中心二期完成200P智算算力资源扩容

DesaiGPU「唱」起了《一闪一闪亮晶晶》

微软：轻量级模型分析和自适应键值缓存来实现

美股三大指数录得历史新高超级权重股AI卖铲人

英伟达算力租赁市场缘何爆发？

英伟达股价飙升市值突破 3 万亿美元，拆股计划即将生效

人工智能加速从“+AI”向“AI+”转变