AMD 十年发展历程堪称奇迹,CEO 发文感慨,服务器 CPU 市场占有率屡创新高

aixo 2024-10-11 12:05:06
算力 2024-10-11 12:05:06

如果您希望可以时常见面,欢迎标星收藏哦~

日前,AMD董事会主席及首席执行官Lisa Su博士在社交媒体发布消息表示:“10 年前,我有幸被任命为AMD首席执行官。这是一段令人难以置信的旅程,有很多值得骄傲的时刻。”诚然,翻看AMD过去十年的发展历程,也的确称得上是奇迹。

以服务器CPU为例,在Lisa Su出任CEO后,AMD加大了这个市场的投入,并于2017年推出了公司面向数据中心市场的EPYC系列。历经七年的发展,AMD在服务器CPU市场不但已经收复失地,甚至还屡创新高。如图所示,在今年上半年,公司EPYC CPU的市场占有率高达34%,这足以说明EPYC的成功。

gpu虚拟化_gpu是什么_GPU

但其实除了服务器CPU以外,AMD在面向PC的CPU和GPU、面向数据中心的GPU和DPU方面都取得了飞跃式的发展。在今日于旧金山举办的“AMD AI 2024”峰会现场,AMD还带来了面向AI PC、数据中心和人工智能的CPU、GPU和DPU的重磅更新。

紧盯AI市场,持续加码GPU

在AMD近些年发布的产品以来,面向AI市场的 GPU无疑是最受关注的一系列产品。因为以为代表的GenAI的火热,市场上对GPU的需求与日俱进。作为目前全球为数不多能与英伟达竞争的厂商之一,AMD的系列也发展迅猛。

根据Lisa Su在今年七月的财报会议中所说,AMD GPU在今年第二季度为数据中心带来了超过 10 亿美元的收入。她同时指出,这些加速器将在2024 财年为AMD带来超过 45 亿美元的收入,高于 4 月份预期的 40 亿美元的目标。

为了进一步抓住GenAI市场的机会,AMD在峰会上详细披露了更新版本的 加速器。

gpu虚拟化_gpu是什么_GPU

对于AMD有关注的读者应该知道,这款加速器早在今年六月的台北国际电脑展上就有披露。如图所示,作为的升级版本GPU,全新的AMD 加速器在大部分配置上都与前者相似,甚至连在基板服务器设计方面,也都是采用与前者相同的设计。不同之处在于, 将配备 288GB HBM3E 内存和 6TB/秒的内存带宽。作为对比,MI300采用的是192GB HBM3,内存带宽也只有5.2 TB/秒。

GPU_gpu虚拟化_gpu是什么

得益于这个更新,如上图所示,AMD 在多个模型的推理表现领域优于英伟达H200。AMD同时透露,公司基于的8路 OAM平台也将在今年Q4发货。如图所示,在与 H200 HGX相比时,新平台在内存容量(1.8倍)、内存带宽(1.3倍)和FP16 和FP8 Flops(1.3倍)上的表现都领先于前者。其在推理方面的表现也为前者的1.4倍。

gpu是什么_GPU_gpu虚拟化

来到训练方面,AMD 平台的表现也毫不逊色于 H200 HGX。如图所示,无论是在单GPU还是在8 GPU的Meta Llama-2训练场景,AMD 平台的表现都不逊色于后者,这让公司在这个市场上拥有了更多的筹码。

gpu是什么_gpu虚拟化_GPU

为了满足日益增长的 AI 计算需求,AMD强调,公司 加速器将执行年度更新的节奏。这就意味着公司该系列的下一代产品——AMD MI350系列或将于2025年上市。

gpu是什么_GPU_gpu虚拟化

据介绍,AMD将于明年推出的AMD MI350系列首款产品AMD 加速器预计基于AMD CDNA 4架构设计。如图所示,相比前代产品,新一代的GPU架构会获得大幅度的性能提升,使AMD 的性能得到了保证。

GPU_gpu虚拟化_gpu是什么

在架构表现大幅提升的同时,新一代的 GPU还使用了先进的3nm工艺技术构建,搭载高达288 GB的HBM3E内存,并支持FP4和FP6 AI数据类型,进一步提升了整体的性能表现。同时,因为采用了与其他MI300系列加速器相同的行业标准通用基板服务器设计,新的GPU让终端的芯片升级变得更简单。

GPU_gpu是什么_gpu虚拟化

gpu虚拟化_gpu是什么_GPU

与AMD 相比,如上图所示,新加速器的在多方面的表现都取得了不错的成绩。当然,基于打造的平台表现也同样出色。AMD方面透露,这个产品计划将在明年二季度正式准备好。

GPU_gpu是什么_gpu虚拟化

gpu是什么_gpu虚拟化_GPU

为了方便开发者更好地用上公司的GPU,AMD除了持续更新其ROCm系列,还在与业界生态伙伴紧密合作。

据介绍,AMD新版本的ROCm 6.2 现在提供了包括FP8 数据类型、Flash 3、 在内的多项关键 AI 功能的支持。有了这些新功能,与 ROCm 6.0 相比,ROCm 6.2 在推理6上的性能提升高达 2.4 倍,在各种 LLM7的训练上的性能提升高达 1.8 倍。

gpu是什么_gpu虚拟化_GPU

与此同时,AMD 还在推动最广泛使用的 AI 框架、库和模型(包括 、、 Face 等)对 AMD 计算引擎的支持。这项工作转化为 AMD 加速器在流行的生成 AI 模型(如 3、Meta 、3.1 和 3.2 以及 Face 上的一百多万个模型)上的开箱即用的性能和支持。

gpu是什么_gpu虚拟化_GPU

此外,AMD同时透露,公司最近斥资 6.65 亿美元收购的Silo AI将解决客户AI的最后一英里问题。如AMD 高级副总裁、AIG 总裁 Vamsi 所说:“Silo AI 团队开发了最先进的语言模型,这些模型已在 AMD 加速器上进行了大规模训练,他们在开发和集成 AI 模型以解决最终客户的关键问题方面拥有丰富的经验。我们期望他们的专业知识和软件能力将直接改善客户在 AMD 平台上提供最佳性能 AI 解决方案的体验。”

值得一提的是,按照这个更新节奏,AMD MI400系列或将于2026年亮相。

CPU不甘人后,推陈出新

如文章开头所说,在数据中心市场,EPYC系列CPU是AMD最引以为傲的产品,关于这系列产品近年的发展,在前面我们已经概述了。除此以外,面向消费级PC市场的锐龙 CPU,也是AMD近年来在CPU市场力挽狂澜的另一个倚仗。

在今天的峰会上,AMD也带来了CPU更新。分别是面向数据中心的第五代EPYC以及面向AI PC的锐龙 AI PRO 300系列。

gpu虚拟化_gpu是什么_GPU

首先看最新一代的EPYC处理器。如下图所示,AMD 基于 Zen 5 的 EPYC 服务器处理器代号为“Turin”,使用台积电3nm/4nm工艺制造,主频高达5Ghz。具体而言,Turin 有两种版本:一种配备Zen 5 内核(128内核、256线程),另一种配备 Zen 5c内核。

其中,经过密度优化的 CPU 内核Zen 5c 芯片将配备多达 192 个内核和 384 个线程,这些内核和线程采用 3nm 工艺制造,然后与塞入单个插槽的 6nm I/O 芯片 (IOD) 配对,整个芯片由 17 个(芯粒)组成;具有标准全性能 Zen 5 内核的型号则配备 12 个具有 N4P 工艺节点的计算芯片和一个中央 6nm IOD 芯片,共 13 个芯粒。

GPU_gpu是什么_gpu虚拟化

在基本内存和 I/O 方面,该系列则提供12 个 DDR5 内存通道和 160个 PCIe 5.0 通道。而基于这两个内核,AMD为Turin系列设计出多款SKU,以满足不同场景的多个需求。

GPU_gpu是什么_gpu虚拟化

从AMD提供的数据来看,第五代EPYC在多个方面表现优越。例如面向企业和云应用,Zen 5内核的IPC提升了17%;面向HPC和AI应用,其IPC提升了37%;其他如世界级的SPEC CPU 2017整数吞吐、领先的单核性能和出色的负载表现,也是第五代EPYC不得不提的又一个优势;此外,在AI如火如荼的当下,第五代EPYC在推理方面也交出了一份不错的答案。

GPU_gpu虚拟化_gpu是什么

在充当AI host 处理器的时候, 第五代 AMD EPYC 9575F CPU给GPU系统带来的改善也是有目共睹。

GPU_gpu是什么_gpu虚拟化

gpu虚拟化_GPU_gpu是什么

据AMD介绍,通过优化的 CPU + GPU 解决方案,第五代EPYC能够赋能传统计算、混合 AI 和大规模 AI。而经过多年的发展,该系列CPU也已经成为了机密计算领域安全领导者。更重要的是,因为其本身的X86架构以及成熟生态等天然特性,该系列处理器能够让开发者可以轻易从Intel平台迁移过来,实现数据中心现代化,增加更多容量以满足客户计算需求。

gpu虚拟化_gpu是什么_GPU

基于这些领先表现,第五代EPYC处理器是适用于云、企业和 AI 的全球最佳 CPU。

gpu虚拟化_gpu是什么_GPU

其次,来到锐龙AI CPU方面,这是AMD近年发力的又一个重点,也是GenAI崛起的一个产物。

据IDC在报告中介绍,在芯片厂商和ODM的推动下,2024年已经成为了AI PC发展的元年,虽然在整个PC的市场占有率仅为3%,但其崛起势头无法阻挡,预计到2028年出货量将达到今年的60倍。AMD的锐龙 AI 300 系列CPU,就是为这个市场准备的。

今天发布的锐龙 AI PRO 300系列,则是AMD面向这个市场推出的最新产品。

gpu虚拟化_gpu是什么_GPU

AMD方面表示,如图所示,该系列处理器主要由最新一代的Zen 5 CPU、RDNA 3.5 GPU和XDNA NPU组成。其中,在CPU方面有高达12个内核、24个线程;GPU方面有16个计算单元,NPU的算力则高达50到55 TOPS。

gpu是什么_GPU_gpu虚拟化

据介绍,新系列的处理器较之上一代有了明显的提升。而为了满足多个应用场景的需求,AMD 锐龙 AI PRO 300提供了三个SKU供选择。

gpu是什么_gpu虚拟化_GPU

在这些领先CPU、GPU和NPU的加持下,与竞争对手的同类型产品相比,锐龙 AI PRO 300系列的表现全面领先。例如在与Intel Core Ultra 7 w/ vPro 165U相比时,AMD 锐龙 AI 7 PRO 360的CPU性能领先30% ;与Intel Core Ultra 7 165H相比时,锐龙AI 9 HX PRO 375 CPU的性能更是领先40%。

gpu是什么_gpu虚拟化_GPU

在NPU方面,锐龙 AI PRO 300系列更是遥遥领先于竞争对手。这也让其在执行AI任务的时候游刃有余,而为了便利开发者,AMD在软件和生态方面也和合作伙伴强强联手,加快AI PC的普及。

GPU_gpu虚拟化_gpu是什么

网络,不容忽视的一环

我们平时谈及AI服务器系统的时候,很多时候关注的GPU或者CPU,甚至存储、功耗。但其实对于当前的AI系统而言,网络连接是最不容忽视的一环。

从芯片层面看,受困于摩尔定律放缓和光罩尺寸的影响,在单芯片上实现更多的算力变得越来越难,这也正是AMD大力推行的原因,而要为了将这些不同的连接起来,这就需要更好的网络连接;从系统层面看,因为单机柜的算力始终有限,因此如何在一个数据中心内将更多的节点连接到一起形成集群,就成为了整个行业操心的问题。同时,考虑到需要在系统中处理越来越多的数据,这就让网络变得空前重要。

据相关资料介绍,随着人工智能应用的增长和 GPU 在服务器中的使用,由服务器中使用的以太网交换机和网络适配器 (或 NIC) 组成的传统数据中心网络已成为“前端网络”。按照AMD所说,该网络连接到前端计算和存储服务器,这些服务器通常处理数据提取并支持访问 AI 服务的许多用户和设备。它们承载两种类型的流量 [南北 (NS)] 往返外部世界(互联网或其他数据中心)的流量和来自同一数据中心内网络端点的 [东/西 (EW)] 流量。这两者都有不同的要求。

GPU_gpu是什么_gpu虚拟化

与此同时,一种被称作“后端网络”的新网络也已经发展起来。该网络的主要作用是将 AI 节点相互连接以进行分布式计算。在AMD看来,后端网络需要高性能和低延迟,以支持 AI 工作负载的高速通信要求。有些机器通常称为 GPU 节点(包含一个或多个 CPU 和 GPU)。GPU 节点在两个网络上都有多个网络接口。如今,GPU 节点每个 GPU 都有一个 RDMA NIC。节点集合形成 pod(连接到同一节点并可用于并行处理的 GPU 组)。一组相互连接的节点共同为特定计算任务提供加速计算能力,形成一个集群。

gpu虚拟化_gpu是什么_GPU

为了处理这些问题,不同厂商都在采用不同的解决方案。AMD则认为,DPU和以太网会是一个解决办法。

基于这些思考,AMD首先以约 19 亿美元收购数据中心优化初创公司。该公司的产品包括可编程数据包处理器(DPU),可管理工作负载在硬件基础设施中的移动方式,尽可能将工作从 CPU 上移开以提高性能;同时,AMD还参与推动Ultra 的发展。

“对于后端网络而言,无论从成本还是可扩展性上看,Ultra 都是首选”,AMD方面强调。

GPU_gpu是什么_gpu虚拟化

在AMD等超高速以太网联盟 (UEC:Ultra )的推动下,Ultra 的相关协议表现优越。与此同时,AMD在今天的峰会上也发布了第三代的P4引擎和 400以及 400。

GPU_gpu是什么_gpu虚拟化

据介绍, 400是一个面向前端网络的DPU,也是是全球性能最高、可编程性最强的 DPU 的第三代产品。与上一代产品相比,其性能、带宽和规模提高了 2 倍。同时,该DPU还支持 400G 吞吐量以实现快速数据传输速率,这就让AMD DPU 成为AI 前端网络集群中的关键组件,可优化数据驱动型 AI 应用的性能、效率、安全性和可扩展性。

gpu虚拟化_GPU_gpu是什么

至于搭载了AMD P4 可编程引擎的 400则是业内首个UEC ready AI NIC。支持下一代 RDMA 软件,并由开放的网络生态系统支持。在AMD看来, 新的 400 对于在后端网络中提供加速器到加速器通信的领先性能、可扩展性和效率至关重要。

GPU_gpu是什么_gpu虚拟化

凭借这些领先产品,AMD在巨大的网络系统市场中,也能分一杯羹。AMD同时透露,公司的 DPU 和 400 均在 2024 年第四季度向客户提供样品,并有望在 2025 年上半年上市。

自Lisa Su出任AMD CEO以来,AMD市值和营收实现了指数级增长,公司也成为了AI芯片市场为数不多的全能型选手。这一方面受惠于在Lisa Su带领下的管理团队的运筹帷幄;另一方面,AMD的团队能够坚定地执行公司领导层的策略,也是AMD取得当前成功的关键。

现在,随着LLM规模的越来越大,如何搭建一个拥有更强CPU和GPU的集群已经成为了全球追逐的共同目标,这也是LLM参与者的共识。拥有丰富算力和网络产品线布局,并在软件生态有广泛投入的AMD已然成为算力市场的举足轻重的角色。

正如Lisa Su在社交媒体中所说:“尽管过去 10 年令人惊叹,但最好的还在后头。”

半导体精品公众号推荐

GPU