八家公司制定新互联技术,打破英伟达在人工智能芯片市场的垄断

aixo 2024-06-01 10:13:56
算力 2024-06-01 10:13:56

据最新消息披露,包括AMD、博通()、思科(Cisco)、、惠普( ,HPE)、英特尔(Intel)、Meta和微软()在内的八家公司宣告,他们已经为人工智能数据中心的网络制定了新的互联技术(Ultra Link)。通过为人工智能加速器之间的通信建立一个开放标准,以打破市场领导者 的垄断。

众所周知,英伟达是人工智能芯片市场最大的参与者,他们在GPU上拥有了绝对领先的份额。但其实除此以外,英伟达还拥有一系列技术,可用于在多个 GPU 和系统上扩展工作负载。其中包括其片上和封装互连、用于服务器或 pod 中 GPU 到 GPU 通信的 、用于扩展 pod 之外的 以及用于连接到更广泛基础设施的以太网。

现在,该行业的其他公司正试图用开放标准进行反击,以争夺这些细分市场。去年,我们看到了 Ultra ,它使用增强型以太网旨在取代 的 高性能互连,后者已迅速成为连接 GPU 加速节点的事实标准,并且获得了丰厚的利润。

今年,我们将获得 Ultra Link 或 ,一项旨在取代 的 协议和 (有时称为 )内存结构新标准。在具体介绍 之前,我们先对进行介绍。

英伟达的隐形护城河

过去,我们看到了很多有关英伟达GPU和CUDA护城河的介绍。诚然,经过多年的投入,他们已经建立起了难以逾越的优势。但除此以外,如上所述,英伟达还有很多隐形护城河,就是其中的一个,一个为GPU到GPU互联提供高速连接的技术。

在摩尔定律逐渐失效,但对算力要求越来越高的当下,这种互联显得尤为必要。

按照英伟达在官方网站中表示, 是全球首创的高速GPU 互连技术,为多GPU 系统提供另一种选择,与传统的PCI-E 解决方案相比,速度方面拥有显著提升。使用 连接两张 GPU,即可弹性调整记忆体与效能,满足专业视觉运算最高工作负载的需求。

相关资料显示, 最初是一种将 GPU 卡上的内存组合在一起的方法,最终 实现了一个交换机来驱动这些端口,允许 以杠铃拓扑( )连接两个以上的 GPU,或以十字交叉方形拓扑( )连接四个 GPU,这种拓扑几十年来通常用于创建基于 CPU 的双插槽和四插槽服务器。

几年前,AI 系统需要八个或十六个 GPU 共享内存,以简化编程,并使这些 GPU 能够以内存速度(而不是网络速度)访问数据集。因此,实验室中的 于 2018 年在基于“Volta”V100 GPU 加速器的 DGX-2 平台上迅速商业化。

目前,可在 GPU 之间以每秒 1.8 TB 的速度传输数据。此外,还有一个 机架级交换机,能够在无阻塞计算结构中支持多达 576 个完全连接的 GPU。通过 连接的 GPU 称为“pod”,表示它们有自己的数据和计算域。

其实除了以外,还有两种连接GPU的方法,分别是PCI总线和-to-互联。据了解,标准服务器通常可以在 PCI 总线上支持 4-8 个 GPU。通过使用 内存结构等技术,可以将这个数字增加到 32 个。

除此以外,以太网或 可以连接包含 GPU 的服务器。这种连接级别通常称为横向扩展,其中较快的多 GPU 域通过较慢的网络连接以形成大型计算网络。

其实自从比特开始在机器之间移动以来,以太网一直是计算机网络的主力。最近,通过引入超级以太网联盟,该规范已被推动以提供高性能。事实上,英特尔已经在以太网上插上了互连旗帜,因为英特尔 Gaudi -2 AI 处理器在芯片上拥有 24 个 100 千兆以太网连接。

不过, 没有加入超级以太网联盟,因为他们在 2019 年 3 月收购 后,基本上独占了高性能 互连市场。超级以太网联盟旨在成为其他所有人的“”。值得一提的是,英特尔曾经高举 大旗。

因此在这种情况下,对于其他人来说,除了用于连接 APU 的 AMD 之外,没有其他选择。与 /以太网的情况类似,需要某种“超级”竞争对手联盟来填补非 的“pod 空缺”。而这正是推出的重要原因。

什么是?

超级加速器链(Ultra Link,)同样是一种可提高新一代AI/ML集群性能的高速加速器互连技术。八家发起厂商(和超级以太网联盟一样,我们也没有在联盟中看到英伟达的身影)也成立了一个开放行业标准机构来制定相关技术规范,以促进新使用模式所需的突破性性能,同时支持数据中心加速器用开放生态系统的发展。

在他们看来,发起这个标准很有必要。因为随着AI计算需求的增长,拥有稳健、低延迟且可高效纵向扩展的网络,从而轻松将计算资源添加到单个实例中至关重要。而针对纵向扩展功能制定开放的行业标准规范,有助于为AI工作负载创建开放的高性能环境,从而提供尽可能高的性能。

正是由于这个原因,和行业规范对于新一代AI数据中心用AI和机器学习、HPC和云应用程序的接口标准化及其实现至关重要。该工作组将制定相应的规范来界定AI计算容器组中加速器与交换机之间进行纵向扩展通信所需的高速低延迟互连。

从相关资料可以看到,Ultra Link 联盟的核心于去年 12 月就已经建立,当时 CPU 和 GPU 制造商 AMD 和 PCI- 交换机制造商博通表示,博通未来的 PCI- 交换机将支持 xGMI 和 协议,用于将其 GPU 内存相互连接,以及使用 CPU NUMA 链接的加载/存储内存语义将其内存连接到 CPU 主机的内存。相关消息显示,这将是未来的“Atlas 4”交换机,它将遵循 PCI- 7.0 规范,并于 2025 年上市。博通数据中心解决方案集团副总裁兼总经理 Jas 证实,这项工作仍在进行中,但不要妄下结论。换而言之,我们不要以为 PCI- 是唯一的 传输,也不要以为 xGMI 是唯一的协议。

AMD 为 项目贡献了范围更广的 共享内存协议以及功能更有限且特定于 GPU 的 xGMI,而所有其他参与者都同意使用 作为加速器互连的标准协议。英特尔高级副总裁兼网络和边缘事业部总经理 Katti 表示,由 AMD、博通、思科系统、谷歌、惠普企业、英特尔、Meta 和微软组成的 Ultra Link“推动者小组”正在考虑使用以太网第 1 层传输层,并在其上采用 ,以便将 GPU 内存粘合到类似于 CPU 上的 NUMA 的巨大共享空间中。

如下图所示,我们分享了如何使用以太网将 Pod 链接到更大的集群:

如所说,没人期望将来自多个供应商的 GPU 连接到一个机箱内,甚至可能是一个机架或多个机架中的一个Pod内。但 联盟成员确实相信,系统制造商将创建使用 的机器,并允许在客户构建其舱时将来自许多参与者的加速器放入这些机器中。您可以有一个带有 AMD GPU 的Pod,一个带有 Intel GPU 的Pod,另一个带有来自任意数量的其他参与者的自定义加速器Pod。它允许在互连级别实现服务器设计的通用性,就像 Meta 和 发布的开放加速器模块 (OAM) 规范允许系统板上加速器插槽的通用性一样。

总而言之, 的一大优势是让业内其他所有人都有机会与 保持同步。 现在有能力制造盒并将这些 托盘放入 DGX GB200 NVL72等产品中。

英特尔今年的 AI 加速器销售额达数亿美元,这可能意味着它只卖出几万台加速器。AMD 今年将销售数十亿美元的 ,但这仍然远不及 的 AI 规模。拥有 允许像 这样的公司制造 交换机来帮助其他公司扩大规模,然后在多家公司的加速器上使用这些交换机。

我们已经报道了 Atlas 交换机计划与AMD AFL Scale Up 竞争 即将出现在 PCIe Gen7 中的 交换机上。我们在简报中被告知,这些可能会实现 的 V1.0。当然, V1.0 规范尚未出台。

他们表示,1.0版的规范将允许在AI容器组中连接不超过1,024个加速器,支持在容器组中挂载到加速器(例如GPU)的内存之间进行直接加载和存储。发起人工作组已经成立了联盟,预计将在2024年第三季度正式成立。1.0版规范预计将于2024年第三季度推出,并向参加超级加速器链()联盟的公司开放。

CXL怎么办?

其实在过去几年,行业参与者已经承诺过在 PCI- 结构上运行的 Link (CXL) 协议将提供同样的功能。例如 子集就已经提供了 CPU 和 GPU 之间的内存共享吗。

但在分析人士看来,PCI- 和 CXL 是更广泛的传输和协议。

Katti 指出,AI 加速器模块的内存域比 CPU 集群的内存域大得多,我们知道 CPU 集群的扩展范围从 2 个到 4 个,有时到 8 个,很少到 16 个计算引擎。许多人认为,AI 加速器的 GPU 模块可扩展到数百个计算引擎,并且需要扩展到数千个。更重要的是,与 CPU NUMA 集群不同,GPU 集群(尤其是运行 AI 工作负载的集群)对内存延迟的容忍度更高。

为此The Next 表示,我们不要指望看到 将 CPU 捆绑在一起,但没有理由相信未来的 CXL 链接最终不会成为 CPU 共享内存的标准方式——甚至可能跨越不同的架构。

这实际上是为了打破 在互连结构内存语义方面的垄断。无论 如何使用 和 ,它的几家竞争对手都需要为潜在客户提供可靠的替代方案——无论他们是销售 GPU 还是其他类型的加速器或整个系统——这些潜在客户肯定希望为 AI 服务器节点和机架式设备提供比 互连更开放、更便宜的替代方案。

“当我们审视整个数据中心对 AI 系统的需求时,有一点非常明显,那就是 AI 模型继续大规模增长,”AMD 数据中心解决方案事业部总经理 说道。“每个人都可以看到,这意味着对于最先进的模型,许多加速器需要协同工作以进行推理或训练。能够扩展这些加速器对于推动未来大规模系统的效率、性能和经济性至关重要。扩展有几个不同的方面,但 Ultra Link 的所有支持者都非常强烈地感受到,行业需要一个可以快速推进的开放标准,一个允许多家公司为整个生态系统增加价值的开放标准。并且允许创新不受任何一家公司的束缚而快速进行。”

毫无疑问,AMD 说的这家公司就是,他们通过投资了,并创建了具有绝对超大网络带宽的 来为 GPU 进行 NUMA 集群。当然,他们最初这样做的是因为 PCI- 交换机在总带宽方面仍然有限。

有趣的是, 1.0 规范将在今年第三季度完成,届时 Ultra 也将加入进来,拥有知识产权并推动 标准的发展。今年第四季度, 1.1 更新将发布,这将进一步提高规模和性能。目前尚不清楚 1.0 和 1.1 规范将支持哪些传输,或者哪些将支持 PCI- 或以太网传输。

使用 4 端口的 3 结构理论上可以在共享内存 pod 中跨越多达 256 个 GPU,但 的商业产品仅支持 8 个 GPU。借助 4 和 5 端口, 理论上可以支持跨越多达 576 个 GPU 的 pod,但实际上,商业支持仅在 DGX B200 NVL72 系统中最多 72 个 GPU 的机器上提供。

如今,许多公司都在尝试采用标准 PCIe 交换机并构建基于 PCIe 的结构以扩展到更多加速器。业内大公司似乎将此视为权宜之计。相反, 的 更像是业内扩展的黄金标准。

现在,团队正准备发布专有 的公开竞争对手。

所有这些都需要时间。记者在简报会上问这是否是一个 2026 年左右的实施目标。2024 年还太早,即使它被融入到产品中,目前也不太可能成为 2025 年初的产品。如果你看看CXL或UCIe,这些标准需要很长时间才能最终成为产品。2026 年将是一个快速实施的时间。

对于 AMD 和英特尔等公司来说,这提供了一条复制 和 功能并与其他公司共享开发成果的途径。像博通这样的公司很可能是最大的赢家,因为它定位为非 系统的连接提供商,无论是用于纵向扩展还是横向扩展。无论是 AMD 还是英特尔获胜,博通都在销售连接。对于超大规模企业来说,无论谁制造端点,投资标准化结构的能力都非常有意义。

顺便说一句,在 2019-2020 年期间,行业考虑将 CXL in-box 和Gen-Z作为扩展解决方案。许多当年展示 Gen-Z 的人现在都在 AMD 工作,就像 AMD 多年来一直在组建一支团队,他们看到并一直在努力解决扩展挑战。

希望我们能够尽快看到 投入使用。对啦,多说一句,貌似没有看到的身影?