存储在 AI 工作负载中的重要性:从集中式到分布式,闪存存储的机会与挑战
“为什么存储对AI至关重要?”(Why for AI)是AI Field Day 4中一个重要的会议主题。的Ace 和Alan 讨论了存储在AI工作负载中的重要性。他们解释说,随着人工智能模型和数据集的增长,高效和高性能的存储变得越来越重要。
本次演讲涉及几个关键点:
1. AI市场持续增长,以及从集中式向分布式计算和存储,包括边缘计算。
2. 硬盘驱动器在AI数据中的主导地位,以及向闪存存储过渡的机会。
3. 存储在AI工作流中的作用,包括数据摄取、准备、训练和推理。
4. 考虑到功耗、空间和冷却等因素,SSD相对于硬盘驱动器的总拥有成本(TCO)优势。
5. 介绍产品组合,强调不同的SSD适用于各种类型的AI任务,以及根据工作负载需求选择正确存储的重要性。
6. 来自金山软件的客户案例研究表明,通过迁移到全闪存阵列,数据处理时间显著缩短。
面向AI存储的使命
for AI
当我们谈论AI硬件时,毫无疑问的,计算通常是首先被提及的部分。计算确实是AI服务器成本的主要构成部分,但随着行业的日益成熟和工作负载的多样化,今天我们将重点揭示存储如何逐渐展现出其重要性。我们将逐步解析AI工作流程的各个环节,并阐明存储设备在每个环节中所发挥的作用,以及这些环节所产生的IO需求。
事实证明,AI确实是一项具有重大意义的技术。随着应用场景的不断拓展和架构的演变,特别是当模型所依赖的训练数据集变得越来越大时,我们观察到了一些数据趋势:存储的角色正变得愈发重要。无论是对于有效的扩展还是运营效率的提升,这一点都至关重要。因此,我们将对比SSD与硬盘的性能,探讨在AI服务器中,SSD在空间、冷却和功耗方面所带来的效率提升。
拥有一系列广泛的产品组合,这些产品能够与各种应用场景完美匹配,具体取决于负责训练和部署模型的人员的特定目标和策略。在未来的几个月和几年里,你将会听到更多关于我们的消息,因为我们正逐步深入这一领域,并更加关注未来的机遇和技术创新。
市场环境和我们的机遇
and Our
目前,AI芯片的支出呈现迅猛增长态势,预计将从2022年的440亿美元成长至2027年的1190亿美元。同时,计算和存储的分散化趋势也日益明显。相对传统的核心数据中心集中模式,目前的趋势是更多的工作向边缘迁移。在边缘侧,我们可以执行更强大的任务,如实时推理和强化学习。因此,在设计和部署这些解决方案时,分布式架构的重要性日益凸显。同时,核心的成长迅速,但边缘的增长速度超过核心,预计边缘侧的成长速度是核心的两倍。
AI服务器中存储内容密度,即存储容量增加了3倍。对于训练环境的AI服务器来说,它们处理的数据量确实远大于大多数基于数据库的事务服务器。短期内和中期内,硬盘在这个领域依然占据着重要地位。我们将就此展开讨论,并对比各种观点。根据我们的市场分析和与客户的交流,目前仍有80%到90%的数据存储在硬盘上,用于模型训练的准备工作。然而,我们也看到了一个巨大的机遇:加速向闪存存储的过渡,以更高效地完成这些工作。
此外,还有另一个值得关注的角度,它结合了来自“Our World in Data”这一庞大知识库的数据,该知识库由牛津大学运营。其中涵盖了一些大家可能非常熟悉的模型等内容。从这里的趋势线,我们可以观察到一些明显的变化。众所周知,模型正变得越来越大、越来越复杂,参数数量也在不断增加。同时,原始数据集也在扩大,经过标记和输入,使这些模型在生成洞察力和与人类交互方面表现得更加出色。为了支持这种发展,所需的计算量也相应增加。训练的计算量、数据集尺寸、模型参数大小一直在指数级增长,而且接近2020年代开始的增长明显加速。
我们也观察到,随着模型复杂性的提升,应用程序也在不断地丰富和扩展。尽管有些个人生活领域尚未被AI触及,但这并不妨碍AI在其他领域的广泛应用。技术的不断演进,为我们带来了许多新的机遇。其中,一个显著的机会是,我们可以借助技术来加速工作流程。而在这些领域中,存储需求无处不在。
为什么存储对AI如此重要呢?数据集的增长速度呈现对数级态势,左上角的“Data Set Size”这张图表清晰地展示了这一点:从2018年的第一代GPT开始,GPT模型的训练参数数量持续攀升,GPT-3已经拥有数十亿个参数,而GPT-4更是高达数万亿个参数。当你引入更多的数据并供模型学习时,它的智能水平也会随之提升。
如果你正在研究大型语言模型,你会发现许多模型都是基于 Crawl (常见爬虫语料库)构建的。这个语料库每三到四个月就会对网页进行抓取,从2008年起一直在持续进行,目前已累积了13到15PB的文本数据,并且这一数字仍在不断增长,左下角部分的图表展示了这一趋势。
存储对AI的重要性还体现在成本、功耗和空间的优化上。我们深知算力的投入巨大,AI服务器60~90%的物料成本用于各种计算资源(CPU、GPU、NPU等)。但XPU需要高性能的存储来高效地提供数据,并在整个过程中保持高利用率。特别是在关键时刻,如我们即将讨论的检查点,存储对于训练过程的顺利进行至关重要。如果存储性能不足,XPU可能会长时间处于空闲状态。因此,高性能存储在这些领域具有显著的优势。
关于功耗方面,中间下方的柱状图来源于Meta和斯坦福大学共同发布的一篇论文。他们指出,在特定应用场景中,存储消耗了整个服务器功耗的35%。如果能通过采用更高密度的存储和其他优化措施来降低这一比例,我们将能够节省大量的电力和资金。这也是我们强调高性能存储的重要原因之一。
至于分布式方面,我们讨论的是从核心数据中心完成摄取()、数据准备(Data Prep)、训练()、检查点的建立与恢复(/)、推理()等工作流的一体化模式,转变为整个工作流在特定地点进行端到端处理的情况。这种转变发生的具体位置,实际上取决于具体应用场景的需求,可能在多个不同的位置发生。我想强调的是,当我们查看这张图表和我们即将展示的其他内容时,请理解AI并不是一个单一的概念。对于不同的部署和应用,具体情况当然会有所不同。
在这里提到了“近边缘”(Near Edge)和“远边缘”(Far Edge)的概念。“远边缘”指的是那些可能位于外部环境、远离核心数据中心的设备。它们可能安装在卡车上,经过加固处理,或者就是终端用户与之交互的端点。而“近边缘”则相对较近,可能距离“远边缘”只有几英里的距离,它通常是一个区域性的数据中心。举个例子,托管数据中心就是典型的“近边缘”。而一个“远边缘”设备可能安装在电话杆上,或者嵌入在工厂的机械设备中,甚至是在汽车等物联网设备里。
强化学习()并不一定需要将数据反馈到核心数据中心来改进模型,在上图中,它发生在远边缘。实际上,我们有很多客户与我们合作,他们出于各种考虑,不愿意将数据发送到数据中心。他们可能在某些地方设有服务器,但那里的网络连接并不稳定。譬如电力变电站、偏远地区的机械工厂等脱离电网的地方,这些地方都有大量的机床和机器人在运作。你希望能够分析来自这些设备的数据,找出趋势、故障或不同的模式。实际上,这样的应用场景几乎无穷无尽。因此,他们更倾向于在边缘端处理数据,并定期获取数据的快照,以便在条件允许时带回核心数据中心进行训练。