AMD 有望成为数据中心 GPU 市场有力竞争者，或超越英伟达

aixo 2024-06-28 10:49:06

2024-06-28 10:49:06

英伟达（）一直是数据中心最主要的 GPU 供应商，这已不是什么秘密，但现在随着需求的增长，AMD 很有可能成为这一市场的有力竞争者。最近，一位客户找到 AMD，要求创建一个由 120 万个 GPU 组成的人工智能训练集群。这有可能使它比目前速度最快的超级计算机还要强大 30 倍。2023 年，AMD 供应的数据中心 GPU 还不到 2%。

AMD 数据中心解决方案总经理在接受The Next 采访时透露，他们收到了客户关于使用 120 万个 GPU 构建人工智能训练集群的真实询问。从这个角度来看，目前的人工智能训练集群通常使用数千个 GPU，通过高速互连连接到多个本地服务器机架上。

目前正在考虑的人工智能开发规模是前所未有的。诺罗德说："正在筹建的一些训练集群确实强大得令人匪夷所思。事实上，目前已知用于训练人工智能模型的最大超级计算机是，它拥有37888个 GPU，这使得AMD潜在的超级计算机比强大30倍。"

当然，事情没那么简单。即使以目前的功率水平，在创建人工智能训练集群时也有大量隐患需要考虑。人工智能训练需要较低的延迟来提供及时的结果，需要消耗大量的电能，而且必须考虑到硬件故障，即使只有几千个 GPU 也不例外。

大多数服务器的利用率在20%左右，并在远程机器上处理数千个小型异步作业。然而，人工智能培训的兴起正在导致服务器结构发生重大变化。为了跟上机器学习模型和算法的发展，人工智能数据中心必须配备专门为这项工作设计的大量计算能力。人工智能训练本质上是一项大型同步作业，需要集群中的每个节点尽可能快地来回传递信息。

最有趣的是，这些数据来自 AMD，而 AMD 在 2023 年的数据中心 GPU 出货量中只占不到 2%。而占据另外 98% 市场份额的则对客户要求其开发的产品守口如瓶。作为市场领导者，我们只能想象他们正在开发什么。

虽然拟议中的 120 万 GPU 超级计算机可能看起来有些离谱，但诺罗德称，"非常清醒的人"正在考虑在人工智能训练集群上花费多达千亿美元。这并不令人震惊，因为在过去几年里，人工智能在科技界的发展可谓突飞猛进。看来，企业已经准备好在人工智能和机器学习上投入巨资，以保持竞争力。

GPU

AMD 有望成为数据中心 GPU 市场有力竞争者，或超越英伟达

华铁应急遭证监会问询拟投资10亿开展智能算力业务

安兔兔后台完成iPadPro2024：性能提升50%

腺核苷三磷酸果壳:蛋白质分析AI工具全新升级

宁波人工智能超算中心二期完成200P智算算力资源扩容

DesaiGPU「唱」起了《一闪一闪亮晶晶》

微软：轻量级模型分析和自适应键值缓存来实现

美股三大指数录得历史新高超级权重股AI卖铲人

英伟达算力租赁市场缘何爆发？

英伟达股价飙升市值突破 3 万亿美元，拆股计划即将生效

人工智能加速从“+AI”向“AI+”转变