NVIDIA xAI 的 Colossus 超级计算机集群达到 10 万颗 NVIDIA Hopper GPU 规模

aixo 2024-10-30 12:07:34

2024-10-30 12:07:34

近日宣布，xAI位于田纳西州孟菲斯市的超级计算机集群达到了10万颗 GPU的巨大规模。该集群使用了 -X以太网网络平台，该平台是专为多租户、超大规模的AI工厂提供卓越性能而设计的RDMA（）网络。

是世界上最大的AI超级计算机，目前正被用于训练xAI的Grok系列大语言模型，以及作为X 用户功能之一的聊天机器人（）。xAI正在将的规模进一步扩大一倍至20万颗 GPU。

xAI和仅用了122天就建成了所有配套设施和这台最先进的超级计算机，从第一个机架落地到开始训练任务，只用了19天。而建造这种规模的系统通常需要数月乃至数年的时间。

在训练Grok这种超大型模型时，实现了空前的网络性能，在三层网络架构下，整个系统未出现任何因流量冲突而造成的应用延迟增加或数据包丢失的情况。凭借-X先进的拥塞控制功能，系统数据吞吐量一直保持在95%。

这一性能水平是传统以太网在大规模的情况下根本无法实现的，传统以太网在数千条流发生冲突时，只能提供60%的数据吞吐量。

网络高级副总裁Gilad 表示：“AI正变得至关重要，对性能、安全性、可扩展性和成本效益提出了更高的要求。 -X以太网网络平台专为那些如xAI一样的创新企业提供更快的处理、分析和执行AI工作负载的速度，进而加速AI解决方案的开发、部署和上市。”

埃隆·马斯克在X上表示：“是世界上最强大的训练系统。xAI团队、和我们的众多合作伙伴及供应商干得漂亮。”

xAI发言人表示：“xAI构建了全球规模最大、性能最强的超级计算机。借助 GPU和-X，我们得以突破大规模AI模型训练的边界，打造基于以太网标准并经过超级加速和优化的AI工厂。”

-X平台的核心是以太网交换机，它支持高达800Gb/s的端口速度，采用了-4交换机ASIC。xAI采用了-X 交换机与 -3 的端到端解决方案，实现了前所未有的性能。

专门面向AI的-X以太网网络具有先进的功能，可在提供高效、可扩展的带宽的同时，实现低延迟和短尾延迟，而这些功能之前是网络所独有的。-X的功能包括基于 DDP（ Data ）技术的动态路由、拥塞控制计算，以及增强了AI网络的可视性和性能隔离，所有这些功能都是多租户生成式AI云和大型企业应用环境的关键要求。

NVIDIA xAI 的 Colossus 超级计算机集群达到 10 万颗 NVIDIA Hopper GPU 规模

腾讯设计杰出专家:大模型加速产业进入全新智能时代

涉及量子计算！美国将中国科大、中国科学院物理所等37个实体列入“实体清单”｜硅基世界

站长之家：正筹备展示革命性的人机对话技术

AI搜索的战场，我们为什么要在意的？

联合创始人Mike被任命为首席产品官

微软 Phi-3-vision 基准测试,主打“视觉能力”

中国品牌人物500强前十回应：别在意低头做事

以专业知识内容助力民众跨越自媒体运营门槛

Temu们狂卷低价，亚马逊也坐不住了

微信加大“自媒体”造谣治理力度：限制增粉、阶梯封号