AMD 十年发展历程堪称奇迹,CEO 发文感慨,服务器 CPU 市场占有率屡创新高
如果您希望可以时常见面,欢迎标星收藏哦~
日前,AMD董事会主席及首席执行官Lisa Su博士在社交媒体发布消息表示:“10 年前,我有幸被任命为AMD首席执行官。这是一段令人难以置信的旅程,有很多值得骄傲的时刻。”诚然,翻看AMD过去十年的发展历程,也的确称得上是奇迹。
以服务器CPU为例,在Lisa Su出任CEO后,AMD加大了这个市场的投入,并于2017年推出了公司面向数据中心市场的EPYC系列。历经七年的发展,AMD在服务器CPU市场不但已经收复失地,甚至还屡创新高。如图所示,在今年上半年,公司EPYC CPU的市场占有率高达34%,这足以说明EPYC的成功。
但其实除了服务器CPU以外,AMD在面向PC的CPU和GPU、面向数据中心的GPU和DPU方面都取得了飞跃式的发展。在今日于旧金山举办的“AMD AI 2024”峰会现场,AMD还带来了面向AI PC、数据中心和人工智能的CPU、GPU和DPU的重磅更新。
紧盯AI市场,持续加码GPU
在AMD近些年发布的产品以来,面向AI市场的 GPU无疑是最受关注的一系列产品。因为以为代表的GenAI的火热,市场上对GPU的需求与日俱进。作为目前全球为数不多能与英伟达竞争的厂商之一,AMD的系列也发展迅猛。
根据Lisa Su在今年七月的财报会议中所说,AMD GPU在今年第二季度为数据中心带来了超过 10 亿美元的收入。她同时指出,这些加速器将在2024 财年为AMD带来超过 45 亿美元的收入,高于 4 月份预期的 40 亿美元的目标。
为了进一步抓住GenAI市场的机会,AMD在峰会上详细披露了更新版本的 加速器。
对于AMD有关注的读者应该知道,这款加速器早在今年六月的台北国际电脑展上就有披露。如图所示,作为的升级版本GPU,全新的AMD 加速器在大部分配置上都与前者相似,甚至连在基板服务器设计方面,也都是采用与前者相同的设计。不同之处在于, 将配备 288GB HBM3E 内存和 6TB/秒的内存带宽。作为对比,MI300采用的是192GB HBM3,内存带宽也只有5.2 TB/秒。
得益于这个更新,如上图所示,AMD 在多个模型的推理表现领域优于英伟达H200。AMD同时透露,公司基于的8路 OAM平台也将在今年Q4发货。如图所示,在与 H200 HGX相比时,新平台在内存容量(1.8倍)、内存带宽(1.3倍)和FP16 和FP8 Flops(1.3倍)上的表现都领先于前者。其在推理方面的表现也为前者的1.4倍。
来到训练方面,AMD 平台的表现也毫不逊色于 H200 HGX。如图所示,无论是在单GPU还是在8 GPU的Meta Llama-2训练场景,AMD 平台的表现都不逊色于后者,这让公司在这个市场上拥有了更多的筹码。
为了满足日益增长的 AI 计算需求,AMD强调,公司 加速器将执行年度更新的节奏。这就意味着公司该系列的下一代产品——AMD MI350系列或将于2025年上市。
据介绍,AMD将于明年推出的AMD MI350系列首款产品AMD 加速器预计基于AMD CDNA 4架构设计。如图所示,相比前代产品,新一代的GPU架构会获得大幅度的性能提升,使AMD 的性能得到了保证。
在架构表现大幅提升的同时,新一代的 GPU还使用了先进的3nm工艺技术构建,搭载高达288 GB的HBM3E内存,并支持FP4和FP6 AI数据类型,进一步提升了整体的性能表现。同时,因为采用了与其他MI300系列加速器相同的行业标准通用基板服务器设计,新的GPU让终端的芯片升级变得更简单。
与AMD 相比,如上图所示,新加速器的在多方面的表现都取得了不错的成绩。当然,基于打造的平台表现也同样出色。AMD方面透露,这个产品计划将在明年二季度正式准备好。
为了方便开发者更好地用上公司的GPU,AMD除了持续更新其ROCm系列,还在与业界生态伙伴紧密合作。
据介绍,AMD新版本的ROCm 6.2 现在提供了包括FP8 数据类型、Flash 3、 在内的多项关键 AI 功能的支持。有了这些新功能,与 ROCm 6.0 相比,ROCm 6.2 在推理6上的性能提升高达 2.4 倍,在各种 LLM7的训练上的性能提升高达 1.8 倍。
与此同时,AMD 还在推动最广泛使用的 AI 框架、库和模型(包括 、、 Face 等)对 AMD 计算引擎的支持。这项工作转化为 AMD 加速器在流行的生成 AI 模型(如 3、Meta 、3.1 和 3.2 以及 Face 上的一百多万个模型)上的开箱即用的性能和支持。
此外,AMD同时透露,公司最近斥资 6.65 亿美元收购的Silo AI将解决客户AI的最后一英里问题。如AMD 高级副总裁、AIG 总裁 Vamsi 所说:“Silo AI 团队开发了最先进的语言模型,这些模型已在 AMD 加速器上进行了大规模训练,他们在开发和集成 AI 模型以解决最终客户的关键问题方面拥有丰富的经验。我们期望他们的专业知识和软件能力将直接改善客户在 AMD 平台上提供最佳性能 AI 解决方案的体验。”
值得一提的是,按照这个更新节奏,AMD MI400系列或将于2026年亮相。
CPU不甘人后,推陈出新
如文章开头所说,在数据中心市场,EPYC系列CPU是AMD最引以为傲的产品,关于这系列产品近年的发展,在前面我们已经概述了。除此以外,面向消费级PC市场的锐龙 CPU,也是AMD近年来在CPU市场力挽狂澜的另一个倚仗。
在今天的峰会上,AMD也带来了CPU更新。分别是面向数据中心的第五代EPYC以及面向AI PC的锐龙 AI PRO 300系列。
首先看最新一代的EPYC处理器。如下图所示,AMD 基于 Zen 5 的 EPYC 服务器处理器代号为“Turin”,使用台积电3nm/4nm工艺制造,主频高达5Ghz。具体而言,Turin 有两种版本:一种配备Zen 5 内核(128内核、256线程),另一种配备 Zen 5c内核。
其中,经过密度优化的 CPU 内核Zen 5c 芯片将配备多达 192 个内核和 384 个线程,这些内核和线程采用 3nm 工艺制造,然后与塞入单个插槽的 6nm I/O 芯片 (IOD) 配对,整个芯片由 17 个(芯粒)组成;具有标准全性能 Zen 5 内核的型号则配备 12 个具有 N4P 工艺节点的计算芯片和一个中央 6nm IOD 芯片,共 13 个芯粒。
在基本内存和 I/O 方面,该系列则提供12 个 DDR5 内存通道和 160个 PCIe 5.0 通道。而基于这两个内核,AMD为Turin系列设计出多款SKU,以满足不同场景的多个需求。
从AMD提供的数据来看,第五代EPYC在多个方面表现优越。例如面向企业和云应用,Zen 5内核的IPC提升了17%;面向HPC和AI应用,其IPC提升了37%;其他如世界级的SPEC CPU 2017整数吞吐、领先的单核性能和出色的负载表现,也是第五代EPYC不得不提的又一个优势;此外,在AI如火如荼的当下,第五代EPYC在推理方面也交出了一份不错的答案。
在充当AI host 处理器的时候, 第五代 AMD EPYC 9575F CPU给GPU系统带来的改善也是有目共睹。
据AMD介绍,通过优化的 CPU + GPU 解决方案,第五代EPYC能够赋能传统计算、混合 AI 和大规模 AI。而经过多年的发展,该系列CPU也已经成为了机密计算领域安全领导者。更重要的是,因为其本身的X86架构以及成熟生态等天然特性,该系列处理器能够让开发者可以轻易从Intel平台迁移过来,实现数据中心现代化,增加更多容量以满足客户计算需求。
基于这些领先表现,第五代EPYC处理器是适用于云、企业和 AI 的全球最佳 CPU。
其次,来到锐龙AI CPU方面,这是AMD近年发力的又一个重点,也是GenAI崛起的一个产物。
据IDC在报告中介绍,在芯片厂商和ODM的推动下,2024年已经成为了AI PC发展的元年,虽然在整个PC的市场占有率仅为3%,但其崛起势头无法阻挡,预计到2028年出货量将达到今年的60倍。AMD的锐龙 AI 300 系列CPU,就是为这个市场准备的。
今天发布的锐龙 AI PRO 300系列,则是AMD面向这个市场推出的最新产品。
AMD方面表示,如图所示,该系列处理器主要由最新一代的Zen 5 CPU、RDNA 3.5 GPU和XDNA NPU组成。其中,在CPU方面有高达12个内核、24个线程;GPU方面有16个计算单元,NPU的算力则高达50到55 TOPS。
据介绍,新系列的处理器较之上一代有了明显的提升。而为了满足多个应用场景的需求,AMD 锐龙 AI PRO 300提供了三个SKU供选择。
在这些领先CPU、GPU和NPU的加持下,与竞争对手的同类型产品相比,锐龙 AI PRO 300系列的表现全面领先。例如在与Intel Core Ultra 7 w/ vPro 165U相比时,AMD 锐龙 AI 7 PRO 360的CPU性能领先30% ;与Intel Core Ultra 7 165H相比时,锐龙AI 9 HX PRO 375 CPU的性能更是领先40%。
在NPU方面,锐龙 AI PRO 300系列更是遥遥领先于竞争对手。这也让其在执行AI任务的时候游刃有余,而为了便利开发者,AMD在软件和生态方面也和合作伙伴强强联手,加快AI PC的普及。
网络,不容忽视的一环
我们平时谈及AI服务器系统的时候,很多时候关注的GPU或者CPU,甚至存储、功耗。但其实对于当前的AI系统而言,网络连接是最不容忽视的一环。
从芯片层面看,受困于摩尔定律放缓和光罩尺寸的影响,在单芯片上实现更多的算力变得越来越难,这也正是AMD大力推行的原因,而要为了将这些不同的连接起来,这就需要更好的网络连接;从系统层面看,因为单机柜的算力始终有限,因此如何在一个数据中心内将更多的节点连接到一起形成集群,就成为了整个行业操心的问题。同时,考虑到需要在系统中处理越来越多的数据,这就让网络变得空前重要。
据相关资料介绍,随着人工智能应用的增长和 GPU 在服务器中的使用,由服务器中使用的以太网交换机和网络适配器 (或 NIC) 组成的传统数据中心网络已成为“前端网络”。按照AMD所说,该网络连接到前端计算和存储服务器,这些服务器通常处理数据提取并支持访问 AI 服务的许多用户和设备。它们承载两种类型的流量 [南北 (NS)] 往返外部世界(互联网或其他数据中心)的流量和来自同一数据中心内网络端点的 [东/西 (EW)] 流量。这两者都有不同的要求。
与此同时,一种被称作“后端网络”的新网络也已经发展起来。该网络的主要作用是将 AI 节点相互连接以进行分布式计算。在AMD看来,后端网络需要高性能和低延迟,以支持 AI 工作负载的高速通信要求。有些机器通常称为 GPU 节点(包含一个或多个 CPU 和 GPU)。GPU 节点在两个网络上都有多个网络接口。如今,GPU 节点每个 GPU 都有一个 RDMA NIC。节点集合形成 pod(连接到同一节点并可用于并行处理的 GPU 组)。一组相互连接的节点共同为特定计算任务提供加速计算能力,形成一个集群。
为了处理这些问题,不同厂商都在采用不同的解决方案。AMD则认为,DPU和以太网会是一个解决办法。
基于这些思考,AMD首先以约 19 亿美元收购数据中心优化初创公司。该公司的产品包括可编程数据包处理器(DPU),可管理工作负载在硬件基础设施中的移动方式,尽可能将工作从 CPU 上移开以提高性能;同时,AMD还参与推动Ultra 的发展。
“对于后端网络而言,无论从成本还是可扩展性上看,Ultra 都是首选”,AMD方面强调。
在AMD等超高速以太网联盟 (UEC:Ultra )的推动下,Ultra 的相关协议表现优越。与此同时,AMD在今天的峰会上也发布了第三代的P4引擎和 400以及 400。
据介绍, 400是一个面向前端网络的DPU,也是是全球性能最高、可编程性最强的 DPU 的第三代产品。与上一代产品相比,其性能、带宽和规模提高了 2 倍。同时,该DPU还支持 400G 吞吐量以实现快速数据传输速率,这就让AMD DPU 成为AI 前端网络集群中的关键组件,可优化数据驱动型 AI 应用的性能、效率、安全性和可扩展性。
至于搭载了AMD P4 可编程引擎的 400则是业内首个UEC ready AI NIC。支持下一代 RDMA 软件,并由开放的网络生态系统支持。在AMD看来, 新的 400 对于在后端网络中提供加速器到加速器通信的领先性能、可扩展性和效率至关重要。
凭借这些领先产品,AMD在巨大的网络系统市场中,也能分一杯羹。AMD同时透露,公司的 DPU 和 400 均在 2024 年第四季度向客户提供样品,并有望在 2025 年上半年上市。
自Lisa Su出任AMD CEO以来,AMD市值和营收实现了指数级增长,公司也成为了AI芯片市场为数不多的全能型选手。这一方面受惠于在Lisa Su带领下的管理团队的运筹帷幄;另一方面,AMD的团队能够坚定地执行公司领导层的策略,也是AMD取得当前成功的关键。
现在,随着LLM规模的越来越大,如何搭建一个拥有更强CPU和GPU的集群已经成为了全球追逐的共同目标,这也是LLM参与者的共识。拥有丰富算力和网络产品线布局,并在软件生态有广泛投入的AMD已然成为算力市场的举足轻重的角色。
正如Lisa Su在社交媒体中所说:“尽管过去 10 年令人惊叹,但最好的还在后头。”
半导体精品公众号推荐