人工智能大模型时代,存储行业如何应变?华为副总裁周跃峰这样说
华为高管谈存储创新:漂亮的存储成就聪明的AI
人工智能大模型时代,各行各业对计算服务提出各种新的需求,作为“三大件”之一的存储需要怎样应变?对此,华为公司副总裁、数据存储产品线总裁周跃峰有许多切身感受。
“存储的创新是由应用驱动的,上层应用变了,存储一定要变化,否则就不是一个负责任的存储厂商。”在华为全联接大会2024期间,接受《中国科学报》等媒体专访时,周跃峰开门见山。
他说,当前许多用户的AI建设正处于初级或探索阶段,但“数据准备”这件事可以从现在开始。存储行业的创新,也正围绕“数据准备”和“AI-Ready”展开。
周跃峰(左)和华为闪存存储领域总裁黄涛接受媒体采访。华为供图
面向AI训练的存储:“做不好会更‘缺电’”
众所周知,大模型训练系统对算力需求很大,计算密度空前。与此同时,这类计算对数据吞吐量的要求也与时俱增。
“这对于存储来说,首要就是快速地将数据源源不断送上去。”周跃峰说,以往计算系统对存储是没有“快速”这个要求的,但现在,大规模参数的模型训练同时意味着对海量大数据的学习,计算系统需要十倍、数十倍的数据吞吐和带宽。“如果让机器在那儿等数据,那就是空转。”
联想到此前业界戏称“大模型训练的尽头是用电”,周跃峰诙谐地说:“如果存储做不好,我们的训练系统就更‘缺电’了。”
近期,中国移动将华为AI存储用于大模型训练,实现150PB单存储集群、8TB/s带宽和2.3亿IOPS的能力,端到端训练效率提升5%。
“这证明使用AI存储可以达成AI训练不中断、不空转的目标。”周跃峰说,华为和中国移动这一实践,算是为后续更大规模大模型训练“打了样儿”。
存储系统的第二个应变,则是要面对越来越复杂的计算集群。
“万卡、十万卡的AI训练系统,集群内部网络互联关系非常复杂,人们期待存储系统能够跟万卡、十万卡级别的训练系统直连,而且能够共享存储数据。”周跃峰举例说,美国Meta公司用于训练的存储系统,基于目前公开的信息是由8100台服务器搭建而成,内部互联、通讯等非常复杂。
他介绍说,华为新推出的AI存储—— A800,单存储集群(128台设备构成)就能支持十万卡级训练集群,不仅性能得到了提升,空间占用和故障率也大大降低。
面向AI推理的存储:聪明AI背后的漂亮存储
AI训练集群之外,与应用和场景更为贴近的是AI推理实现。
“现在用大模型产品,问一句答一句,马上就能得到答案,这是‘快思考’;但其实人区别于机器,人有大量的慢思考,许多问题都需要慢慢梳理逻辑,慢慢想出解决之道。”周跃峰说,要让AI变得更“聪明”,像人一样也有“慢思考”,需要存储发挥作用。
AI怎样产生“慢思考”?他告诉记者,关键在于推理过程中的每一次思考结果都要记下来:“这样未来再有相同问题就不需要重新计算了,可以以存代算,这样整个系统就会更快、性价比更高。”
周跃峰称之为“长记忆内存型存储”,在这类存储中,存储作为内存的扩展,以分级的方式实现了长周期的记忆能力,甚至是终生记忆。
“人的一些思考是需要通过推理慢慢梳理逻辑,过程中有些‘素材’是现成的,只需要把记忆中的内容直接‘剪切’进来就可以了。”周跃峰说,如果每个节点都要重新计算,再加上是在复杂的层层逻辑上计算,“这个‘脑袋’恐怕要炸”。
他特别谈到,推理相对训练而言,是一个“弱算力、强缓存”的需求,就如人类大脑一样,不同脑区的构造和功能有所区分,用于推理的存储也可以选择不同类型的存储介质进行“混搭”(如高带宽存储和DDR、SSD等介质协同),从而可以实现以相对经济可靠的方式构造出“漂亮的存储”。
A800就集成了这一理念,成为业界首款提供长记忆能力的存储。据介绍,它通过“多级键-值缓存(KV-Cache)机制”将所有的思考结果持久化保存并高效使用,让大模型推理具备长记忆能力,以减少大模型在预填充阶段的重复计算。如此,客户推理的时延可降低近八成,单个计算卡的吞吐量提升约2/3,实现了推理体验提升的同时降低成本。
“人脑有时也记不住一些信息,但可以通过查词典、上网查资料来弥补。存储也是这个道理,没必要都是比较昂贵的、可以即时访问的‘高级内存’,以存代算的系统是可行的。”周跃峰说:“所以推理系统要想做得好,一定要有漂亮的存储。”
存储“必须强调安全”
采访中,周跃峰多次强调存储安全的重要性。
“国内一些所谓中高端存储,都没有集成数据安全相关的功能,这让人很不解。”他说,一方面,中国是全球范围内勒索病毒发生最频繁的区域,另一方面,中国也是许多企业最不关心数据安全和保护的区域,“令人很困惑”。
周跃峰觉得,存储应从被动应对攻击走向主动全面防护。企业在构建存储系统时要注重建设备份存储和多层防勒索机制,这就好比保险箱在遭到暴力撬锁时,要有发出警报声并再加一把锁的反应。
“我们认为,存储既要有其功能,也要在发生勒索事件时及时‘关门’的能力。”在周跃峰看来,避免人因损害等数据的内生安全,应成为存储的基本要求甚至强制要求,否则会留下重大隐患:“有时候数据的安全问题一旦爆发就是0和1的区别,数据丢了就是丢了。”
存、算、网须紧密协同
在华为全联接大会2024期间,中国工程院院士倪光南在相关主题发言中谈到,智算集群建设就好比构建一个足球冠军团队,不仅需要有优秀球员,还需要球员之间的协同和配合以达到最高效能。智算集群是一个复杂工程系统,而不是简单的软硬件的堆砌,它要求“3+1”算力体系,即存、算、网和服务的紧密协同。
他说,也正是基于复杂工程系统思维,智算集群在算力规模、算力利用率、集群可靠性等关键指标上,才可以持续“挑战”和“对抗”源于单模块、单机、单系统的各种物理极限和物理失效问题。
“以国内刚刚建成的某运营商超大规模集群为例,它共含近2万张算卡,2000多台智算设备,近8万根线缆互联,700多台RoCE高速交换机,以及800多台通用计算、存储设备,10万+光模块占用1千多个机柜。数量巨大的这些设备之间相互交织互联,任何一个关键点出现问题都可能影响训练任务中断,“一卡断,万卡停”。
“一个典型的超大规模集群一年的运营成本超过亿元,假设由于各种单点故障导致了训练时间上5%的浪费,都会带来上千万元的直接经济损失。”倪光南说。
周跃峰对上述观点无比认同。“西方发达国家在构建AI基础设施的时候,是存、算、网协同发展的。”他谈到,英伟达构建的AI超级计算机——DGX ,不单单是靠GPU,它收购了这家网络公司,同时跟许多存储厂商合作,搭建了许多私有协议,最终才搭建出了这台全球超算排名前十的“巨无霸”。
“如果有所谓专家只是学计算机的,不懂网络、不知存储,他一定不能领导整个IT基础设施的建设和发展。”周跃峰说。