Nvidia 转型平台企业：芯片不再是唯一，集成与连接成关键

aixo 2024-10-21 09:20:44

2024-10-21 09:20:44

如果您希望可以时常见面，欢迎标星收藏哦~

来源：内容来自，谢谢。

“我们实际上并没有考虑芯片。”

伊恩·巴克 (Ian Buck) 一生中的大部分时间都在思考芯片。但现在，这位全球最大芯片公司的加速计算主管，正在做更宏大的事情。

“你不能把当作芯片来买，”Buck 告诉DCD，他指的是下一代 GPU 产品线，Buck 也是该公司数据中心和 HPC 业务的副总裁。“这是有原因的 - 它希望与 CPU 集成。它希望与 NV Link 集成。它希望连接起来。”

不再专注于单一的半导体业务，而是转型成为一家平台企业。它不再为单一的加速器而烦恼，而是专注于大型集成系统。

“这是我们在一代（2016 年）做出的决定，因为人工智能需要跨多个 GPU，”Buck 说道。“P100 时代改变了我们构建的东西以及我们推向市场或提供的东西。现在，是系统。”

Buck 表示，这已经开始改变数据中心的构成。“计算变革的机会始于超级计算，但随着人工智能的出现，这一机会已经扩大。

“每个数据中心都变成了一个 AI 工厂。它不是以浮点运算次数或兆瓦来衡量的，而是以每秒令牌数以及您将多少 TB 的数据转化为公司的生产力收益来衡量的。”

无论是否是泡沫，这一机遇都引发了新数据中心建设热潮。“但他们不能等两年才进行建设项目，”Buck 说道。“因此，我们看到人们加速淘汰旧基础设施；他们只是将 CPU 基础设施移出，将 GPU 移入，然后加速建设，这样每个数据中心都可以成为 AI 工厂。”

他补充道：“你将看到的不仅仅是的一款 GPU，而是多种平台和生态系统的混合体，让每个人都能构建自己所需的 AI 工厂和工作负载。每个人都将处于这一旅程的不同阶段或不同的优化点。”

当然，尽管试图摆脱对这些所谓“AI 工厂”内特定芯片的关注，但它们的热设计点 (TDP) 决定了系统其余大部分部件的构成。“ 的功率为 700W，我们确实采用了空气冷却，”Buck 说道。

“ 的功率也是 700W，它的设计正好适合的位置，”他补充道。“因此，当上市时，我们所有的服务器、整个数据中心，甚至机架功率都可以保持不变。”

Buck 声称，行业可以“利用整个生态系统，对其进行升级并大规模部署”。他还表示，客户“可以充分利用 GPU，因为 P4 是转换引擎，可以将 NV Link 速度提高一倍。因此，的上市速度将比快得多，部分原因就在于此。”

该公司还推出了 1,000W 版本的 HGX - “同样的硅片，略微修改了服务器，它们必须稍微高一点，并且采用不同的空气冷却解决方案。基本上，这是空气冷却所能达到的最大效果。”

但在那之后，事情就变得有点复杂了。“对于 NVL72，我们希望确保拥有最好的产品，”Buck 说道，机架配有 B200 GPU。“每个 GPU 的功率为 1,200W，这成为液体冷却的真正驱动力。

“1U 中有 4 个 GPU？对于发挥 NVL72 的优势至关重要。这可为您带来 30 倍以上的推理性能。”

然而，最好的并不总是最好的。“TDP 并不是回答这个问题的正确方式，”他辩称。“工作负载是多少，什么最适合您的配置？如果您正在进行 70 亿或 700 亿的参数模型推理，HGX 可能是理想的选择，它可能不需要一直使用 100% 的功率。”

然而，趋势显然是芯片尺寸更大、功耗更大、需要冷却到更低的温度。本身是美国能源部项目的一部分，该项目专注于为越来越热的半导体提供彻底的冷却解决方案。

Buck 拒绝评论 TDP 的发展方向，尤其是在公司转向每年发布 GPU 的情况下。“我们只是尽可能快地运行，”他说。“不等待。不保留任何东西。我们将尽我们所能打造最好的产品并继续前进。”

半导体精品公众号推荐

GPU