AMD 新一代 Zen 5 架构处理器:揭开神秘面纱,更多性能数据、技术特性公布
6月初的台北电脑展上,AMD正式发布了基于新一代Zen 5架构的锐龙AI 300系列笔记本处理器、锐龙9000系列桌面处理器,均将在7月份上市。
当时,AMD比较罕见地大方公布了具体型号命名、规格参数(隔壁的Lunar Lake还只有架构和技术),不过关于新的CPU/GPU/NPU架构并没有讲太多,桌面上的新一代主板芯片组也只说了一个大概,算是留了一些悬念。
上周,AMD特意在美国举办了一场Zen 5 Tech Day技术活动,终于揭开了新架构的神秘面纱,并公布了更多性能数据、技术特性,尤其是新的处理器与内存超频。
至于确切的上市时间,锐龙AI 300笔记本是7月28日,锐龙9000系列是7月31日。
【Zen 5架构:整体加宽加大、独享Intel秘笈】
Zen架构诞生于2017年,相比于此前的推土机架构IPC大幅提升52%,远超当初设定的40%目标,在整个微处理器历史上都是极为罕见的进步。
7年来,Zen架构不断深入打磨,如今已经演化到第五代,是一次相当大幅度的变革,包括增加每时钟周期指令数、拓展指令分派与执行带宽、翻倍缓存数据带宽、AI加速等等。
CPU架构设计是一个极为复杂的工程,哪怕是个升级版本。
Mike Clark已经在AMD工作了31年之久,如今是AMD院士、芯片设计工程师,也是历年来Zen架构研发的灵魂人物,被称为“Zen之父”( of Zen)、“Zen老爹”(Zen Daddy)。
他动情地表示,人们往往意识不到CPU架构设计有多难,需要多么漫长的时间,比如Zen 5的研发,就是全球多地大量的设计、验证、软件等团队多年来全身心投入的心血结晶,它甚至已经融入了大家的血液之中,很多人吃饭甚至做梦的时候都想着它,而最终看到自己的努力开花结果,是一件相当了不起的事情。
接下来我们就看看Zen 5架构在不同模块的变化,当然我们只能大略地讲一讲高级层面的,不涉及太深入的细节。
其实,现代CPU架构都有着成熟的体系,整体可分为前端、后端两大部分,细分包括指令预取与解码、整数执行、浮点执行、载入存储、缓存等不同单元模块。
除非出现完全颠覆性的计算体系,CPU架构设计师要做的,就是根据预设目标,确定不同单元模块的规格规模,然后有机地组合为一个整体,发挥出最大效率,既不能造成浪费,也不能出现瓶颈。
就像一条水渠或者水管,一般情况下自然是水流量越大越好,但也不能一味地加宽加粗,从源头到末端要整体协调一致,既不能让水不够了,也不能让水堵住了,讲究的就是一个平衡。
Zen 5的整体思路就是适当放大规模,很多地方甚至翻番,比如前端部分改成了双预取、双解码流水线,可以更高效地处理各种负载,打个比方就是源头水闸更开放,能释放的水流量更足。
同时,分支预测也做了极大提升,吞吐量更大,精度更高,延迟更低,而且指令缓存的延迟和带宽同样得到了提升,就像是水渠也更宽敞了,面对更多的水流不会出现溢出情况。
整数执行单元加宽了指令的分派与执行通道,包括分派与引退增加到8个宽度,执行窗口增大,一体化ALU调度器数量更多,包括六个ALU与四个AGU。
浮点与矢量执行单元那部分,最核心变化就是在Zen 4架构引入AVX-512指令集的基础上,从仅支持256位数据宽度,强化为支持完整的512位。
256位下的灵活性更高,因为不是所有的指令都需要用到512位这么宽,而现在加入512位满血版之后,可长可短,可以在保持灵活性的同时,大大提升执行效率和性能。
更耐人寻味的是,Intel方面由于异构混合架构设计的缘故,新一代的Lunar Lake、Arrow Lake都不支持AVX-512,何时能够回归也不一定。
谁能想到,Intel当年的独门武器,如今反而成了AMD的私房菜。
另外,浮点单元的流水线有6条,FADD指令的延迟只有2个时钟周期。
载入存储单元部分大大提升了数据带宽,其中一级数据缓存容量从32KB增大到48KB,同时从8路增强为12路。
通往一级缓存、浮点单元的最大带宽,也比上代翻了一番,并改进了相应的数据预取。
另外,数学加速单元的性能有了突飞猛进,单核心执行数学学习、AES-XTS指令的速度分别可提升最多32%、35%。
这有啥好处?当然是可以极大地加速AI运算的效率,更适应当下环境,特别是在EPYC处理器中搭配加速器,效果更是相得益彰。
凭借这一系列改进,Zen 5架构的IPC提升平均多达16%(可以理解为同频性能提升),部分场景提升甚至高达35%。
其中贡献最大的是指令执行与引退部分的改进,然后是数据带宽、指令解码与OP缓存的提升,最后是指令预取与分支预测的变化。
根据历年的官方数据,Zen+、Zen 2、Zen 3、Zen 4相比前代的IPC提升平均幅度分别为3%、15%、19%、13%。
五代六个版本演进累积下来,Zen 5相比于初代Zen IPC平均提升幅度已经高达约85%!
别忘了频率也在不断拉高,初代最高只有4.0GHz,如今已经高达5.7GHz,提升幅度约43%。
产品方面,面向台式机的锐龙9000系列,会使用纯粹的Zen 5,还是CCD+IOD的组合。
CCD部分工艺从5nm升级为4nm,每个里边最多8核心,总计最多16核心。
IOD部分沿用锐龙7000系列的,因此还是6nm,集成两个RDNA 2架构的GPU图形核心。
移动端的锐龙AI 300系列全部都是Zen 5、Zen 5c的组合,如上图右下角部分,下方四个橙色调的是Zen 5,上方八个紫红色调的是Zen 5c。
不同于Intel异构架构,Zen 5、Zen 5c还是完全相同的架构设计、IPC性能、ISA指令集,不同之处只是后者缓存更小、频率更低(但能效更高)。
锐龙AI 300系列的制造工艺为4nm,和上代锐龙7000/8000系列一样。
在数据中心端,第五代Turin EPYC将在今年下半年发布,使用先进的4nm、3nm工艺组合,这也是AMD第一次引入3nm。
Turin EPYC将升级到多达192核心384线程,新特性方面官方特别提到了基于Trust IO功能的AI加密,无疑可以更好地满足当今的云端AI部署需求。
接下来,我们将会看到Zen 6、Zen 6c,后续的Zen 7也在研发之中,你猜都会用什么工艺?