谷歌云推出最节能的张量处理单元
谷歌云今天宣布即将推出迄今为止最强大、最节能的张量处理单元 TPU。
谷歌的 TPU 与 公司的图形处理单元类似,后者已成为运行生成人工智能工作负载的最受欢迎的硬件。谷歌希望通过 为企业提供 GPU 的替代品。
今天在 I/O 2024上推出,是该公司的第六代 TPU。它旨在为最苛刻的生成式人工智能模型和工作负载提供支持,提供比现有 TPU 显着增强的计算、内存和网络功能。
谷歌云机器学习、系统和云 AI 副总裁兼总经理 Amin 表示,与谷歌宣布的目前最强大的芯片TPU v5e相比, TPU 的峰值计算性能提高了 4.7 倍。Cloud Next 去年八月。为了实现更高的性能, 投入了大量精力来扩展执行计算的矩阵乘法单元或 MXU 的大小,并提高了其整体时钟速度。
此外, GPU 的高带宽内存容量和带宽是原来的两倍,而芯片间互连带宽也增加了一倍。Amin 表示,这些增强功能将显着缩短大型语言模型的训练时间和服务延迟。
另一项新的创新是第三代,它是一个专业加速器,用于处理先进的基于人工智能的排名和推荐系统中的超大嵌入。借此, TPU 将能够训练下一代基础人工智能模型,并以更低的延迟和成本为它们提供服务。Amin 表示,与此同时,它们的能效提升高达 67%,这意味着比 TPU v5e 更低的运行成本和更小的碳足迹。
谷歌表示, 将于今年晚些时候推出,能够在单个高带宽、低延迟 Pod 中扩展到超过 256 个 TPU。通过利用 在 Pod 级可扩展性、多切片技术和 智能处理单元方面的进步,用户将能够链接数百个 TPU 的单独 Pod,以构建 PB 级超级计算机和数据中心网络。
Cloud 的一些客户已经制定了使用 TPU 的计划。例如,谷歌将使用新芯片来训练和服务下一代谷歌模型,并且比以前更快、更高效、延迟更低。此外,一家名为Deep Inc. 的公司正计划使用 TPU 来推进人工智能药物发现。
Deep 创始人兼首席信息官 Frey 表示:“我们的使命是创建和应用先进的人工智能模型,以突破 RNA 治疗领域的可能性界限。”他希望 TPU 能够改善其人工智能的训练和运行基础模型100倍。“先进的人工智能模型突破了 RNA 治疗领域的可能性界限。”
TPU 还将与 Cloud 的 AI 超级计算机项目集成,该项目是一个超级计算机平台,旨在运行尖端的 AI 工作负载。AI超级计算机将最先进的TPU和GPU与开源软件框架和灵活的消费模型集成在一起,以支持极其强大的新型AI工作负载的开发。
当 推出时,它将作为另一个硬件选项添加到 AI 超级计算机中,与谷歌的 TPU v5p 和 的 H100 GPU 一起。该公司还计划将 的新型 GPU 与 AI 超级计算机集成,但尚未透露具体时间,因此尚不清楚 TPU 是否会首先推出。
谷歌推出第六代 Cloud TPU
生成式人工智能正在改变我们与技术互动的方式,同时为业务影响带来巨大的效率机会。但这些进步需要更大的计算、内存和通信来训练和微调最有能力的模型,并以交互方式为全球用户群提供服务。十多年来,谷歌一直在开发定制的人工智能专用硬件、张量处理单元(TPU),以推动规模和效率的前沿发展。
该硬件支持我们今天在 I/O 上宣布的多项创新,包括 1.5 Flash、 3和Gemma 2等新型号;所有这些模型都经过 TPU 训练并提供服务。为了提供下一代前沿模型并让您也能做到这一点,我们很高兴推出第六代 TPU ,它是迄今为止性能最强、能效最高的 TPU。
与 TPU v5e 相比, TPU 的每芯片峰值计算性能提高了 4.7 倍,令人印象深刻。我们将高带宽内存 (HBM) 容量和带宽增加了一倍,并将 TPU v5e 的芯片间互连 (ICI) 带宽增加了一倍。此外,还配备了第三代,这是一种专用加速器,用于处理高级排名和推荐工作负载中常见的超大嵌入。 TPU 可以更快地训练下一波基础模型,并以更少的延迟和更低的成本为这些模型提供服务。至关重要的是,我们的第六代 TPU 也是最具可持续性的: TPU 的能效比 TPU v5e 高出 67% 以上。
可以在单个高带宽、低延迟 Pod 中扩展到多达 256 个 TPU。除了这种 Pod 级可扩展性之外,借助多切片技术和 智能处理单元 (IPU ), TPU 还可以扩展到数百个 Pod,从而连接建筑物级超级计算机中的数万个芯片,这些芯片通过每秒数 PB 的速度互连数据中心网络。
十多年前,谷歌认识到需要首款用于机器学习的芯片。2013 年,我们开始开发世界上第一个专用人工智能加速器 TPU v1,随后于 2017 年推出了第一个云 TPU。如果没有 TPU, 的许多最受欢迎的服务(例如实时语音搜索、照片对象识别、交互式语言翻译以及 、 和 Gemma 等最先进的基础模型都是不可能的。事实上,TPU 的规模和效率为 的基础工作奠定了基础,而 是现代生成人工智能的算法基础。
TPU 是专为神经网络而设计的,我们始终致力于改善 AI 工作负载的训练和服务时间。与 TPU v5e 相比,每芯片的峰值计算量提高了 4.7 倍。为了达到这种性能水平,我们扩大了矩阵乘法单元 (MXU)的大小并提高了时钟速度。此外, 通过战略性地卸载来自 的随机和细粒度访问来加速嵌入繁重的工作负载。
HBM 容量和带宽加倍使 能够处理具有更多权重和更大键值缓存的更大模型。下一代 HBM 可实现更高的内存带宽、更高的能效以及灵活的通道架构,以提高内存吞吐量。这可以缩短大型模型的训练时间和服务延迟。这是模型权重和键值缓存的两倍,访问速度更快,计算能力更强,可加速 ML 工作负载。ICI 带宽加倍使训练和推理作业能够扩展到数万个芯片,这得益于定制光学 ICI 互连与 Pod 中 256 个芯片的战略组合以及 (将可扩展性扩展到集群中的数百个 Pod)。
TPU 将为下一波人工智能模型和代理提供动力,我们期待帮助我们的客户获得这些先进的功能。例如,自动驾驶汽车公司Nuro致力于通过机器人技术通过使用 Cloud TPU 训练模型来创造更美好的日常生活;Deep 正在利用人工智能为药物发现的未来提供动力,并期待他们的下一个由 提供支持的基础模型将如何改变患者的生活;谷歌云年度人工智能合作伙伴德勤将提供 ,通过生成式人工智能实现业务转型。对 TPU 上长上下文、多模式模型的训练和服务的支持也将使 能够比以往更快、更高效、延迟更低地训练和服务未来几代 模型。
TPU 是 Cloud人工智能超级计算机的一部分,这是一种专为尖端人工智能工作负载而设计的突破性超级计算架构。它集成了性能优化的基础设施(包括 TPU)、开源软件框架和灵活的消费模型。我们对 JAX、/XLA 和 Keras 3 等开源库的承诺为开发人员提供支持。对 JAX 和 XLA 的支持意味着为任何上一代 TPU 编写的声明性模型描述直接映射到 TPU 的新硬件和网络功能。我们还与 Face 在 -TPU 上合作,以简化模型训练和服务。
“我们与 Cloud 的合作使 Face 用户可以更轻松地在 Cloud 的 AI 基础设施(包括 TPU)上微调和运行开放模型。我们很高兴能够通过即将推出的第六代 TPU进一步加速开源 AI ,并且我们预计开放模型将继续提供最佳性能,因为与上一代相比,每个芯片的性能提高了 4.7 倍。我们将通过我们新的 -TPU 库,让所有 AI 构建者轻松获得 的性能!” - Face 产品主管 Jeff 说。
自 2017 年以来,Sada 每年都荣获年度合作伙伴奖,并提供 云服务以实现最大影响。
作为值得骄傲的 Cloud 首要合作伙伴,SADA 与全球知名的 AI 先驱有着 20 年的悠久历史。我们正在为数千名不同的客户快速集成人工智能。凭借我们丰富的经验和人工智能超计算机架构,我们迫不及待地想帮助我们的客户利用 释放生成人工智能模型的下一个前沿领域的价值。- Miles Ward,Sada 首席技术官说
AI 超级计算机还提供 AI/ML 工作负载所需的灵活消费模型。动态工作负载调度程序 (DWS) 让访问 AI/ML 资源变得更加容易,并帮助客户优化支出。Flex 启动模式可以通过同时调度所需的所有加速器来改善突发工作负载(例如训练、微调或批处理作业)的体验,无论您的入口点是什么: AI 、 (GKE) 或 Cloud 引擎。
很高兴能够通过 AI 超级计算机的性能提升和效率提升来重新获得价值。
“自 Cloud TPU v4 以来,我们一直在将 TPU 用于文本到图像和文本到视频模型。凭借 TPU v5p 和 AI 超级计算机的效率,我们的训练速度实现了 2.5 倍的惊人提升!第六代 TPU 令人难以置信,与上一代相比,每芯片的计算性能提高了 4.7 倍,HBM 容量和带宽提高了 2 倍。当我们扩展文本到视频模型时,这对我们来说来得正是时候。我们还期待使用 的弹性启动模式来管理我们的批量推理作业并管理我们未来的 TPU 预留。” - 核心生成人工智能研究团队负责人Yoav 博士说。
Cloud TPU 是人工智能加速领域的前沿技术,经过定制设计和优化,可为大规模人工智能模型提供支持。TPU 独家通过 Cloud 提供,为训练和服务 AI 解决方案提供无与伦比的性能和成本效益。无论是复杂的大型语言模型还是图像生成的创造性潜力,TPU 都有助于开发人员和研究人员突破人工智能世界的可能界限。