Nvidia 转型平台企业:芯片不再是唯一,集成与连接成关键

aixo 2024-10-21 09:20:44
算力 2024-10-21 09:20:44

如果您希望可以时常见面,欢迎标星收藏哦~

来源:内容来自,谢谢。

“我们实际上并没有考虑芯片。”

伊恩·巴克 (Ian Buck) 一生中的大部分时间都在思考芯片。但现在,这位全球最大芯片公司 的加速计算主管,正在做更宏大的事情。

“你不能把 当作芯片来买,”Buck 告诉DCD,他指的是下一代 GPU 产品线,Buck 也是该公司数据中心和 HPC 业务的副总裁。“这是有原因的 - 它希望与 CPU 集成。它希望与 NV Link 集成。它希望连接起来。”

不再专注于单一的半导体业务,而是转型成为一家平台企业。它不再为单一的加速器而烦恼,而是专注于大型集成系统。

“这是我们在 一代(2016 年)做出的决定,因为人工智能需要跨多个 GPU,”Buck 说道。“P100 时代改变了我们构建的东西以及我们推向市场或提供的东西。现在,是系统。”

Buck 表示,这已经开始改变数据中心的构成。“计算变革的机会始于超级计算,但随着人工智能的出现,这一机会已经扩大。

“每个数据中心都变成了一个 AI 工厂。它不是以浮点运算次数或兆瓦来衡量的,而是以每秒令牌数以及您将多少 TB 的数据转化为公司的生产力收益来衡量的。”

无论是否是泡沫,这一机遇都引发了新数据中心建设热潮。“但他们不能等两年才进行建设项目,”Buck 说道。“因此,我们看到人们加速淘汰旧基础设施;他们只是将 CPU 基础设施移出,将 GPU 移入,然后加速建设,这样每个数据中心都可以成为 AI 工厂。”

他补充道:“你将看到的不仅仅是 的一款 GPU,而是多种平台和生态系统的混合体,让每个人都能构建自己所需的 AI 工厂和工作负载。每个人都将处于这一旅程的不同阶段或不同的优化点。”

当然,尽管 试图摆脱对这些所谓“AI 工厂”内特定芯片的关注,但它们的热设计点 (TDP) 决定了系统其余大部分部件的构成。“ 的功率为 700W,我们确实采用了空气冷却,”Buck 说道。

“ 的功率也是 700W,它的设计正好适合 的位置,”他补充道。“因此,当 上市时,我们所有的服务器、整个数据中心,甚至机架功率都可以保持不变。”

Buck 声称,行业可以“利用整个生态系统,对其进行升级并大规模部署”。他还表示,客户“可以充分利用 GPU,因为 P4 是转换引擎,可以将 NV Link 速度提高一倍。因此, 的上市速度将比 快得多,部分原因就在于此。”

该公司还推出了 1,000W 版本的 HGX - “同样的硅片,略微修改了服务器,它们必须稍微高一点,并且采用不同的空气冷却解决方案。基本上,这是空气冷却所能达到的最大效果。”

但在那之后,事情就变得有点复杂了。“对于 NVL72,我们希望确保拥有最好的产品,”Buck 说道,机架配有 B200 GPU。“每个 GPU 的功率为 1,200W,这成为液体冷却的真正驱动力。

“1U 中有 4 个 GPU? 对于发挥 NVL72 的优势至关重要。这可为您带来 30 倍以上的推理性能。”

然而,最好的并不总是最好的。“TDP 并不是回答这个问题的正确方式,”他辩称。“工作负载是多少,什么最适合您的配置?如果您正在进行 70 亿或 700 亿的参数模型推理,HGX 可能是理想的选择,它可能不需要一直使用 100% 的功率。”

然而,趋势显然是芯片尺寸更大、功耗更大、需要冷却到更低的温度。 本身是美国能源部 项目的一部分,该项目专注于为越来越热的半导体提供彻底的冷却解决方案。

Buck 拒绝评论 TDP 的发展方向,尤其是在公司转向每年发布 GPU 的情况下。“我们只是尽可能快地运行,”他说。“不等待。不保留任何东西。我们将尽我们所能打造最好的产品并继续前进。”

半导体精品公众号推荐

GPU