华为云举办专题论坛,阐述 AI Native Cloud 全栈系统性持续创新如何重塑云基础设施
近日,在华为全联接大会2024( 2024)期间,华为云举办以“AI Cloud 全新为AI负载和应用设计的云基础设施”为主题的专题论坛。论坛上,华为云首席产品官方国伟发表了“AI Cloud 全栈系统性的持续创新”主题演讲,详细阐述了在AI时代,华为云如何通过AI Cloud 全栈系统性持续创新,全面重塑云基础设施。
华为云首席产品官 方国伟
在演讲中,方国伟表示,全新一代的AI技术将驱动全行业进一步加速数字化、智能化升级已成为产业共识。随着人工智能进入大模型时代,云基础设施所面临诸多挑战。方国伟以业界趋势和华为云自身实践,总结出AI时代的云基础设施面临五大关键挑战,包括AI算力资源建设与管理挑战、极致性能与成本挑战、稳定性与快速恢复挑战、工具链完备性与易用性挑战、大模型安全风险挑战。
针对云基础设施面临的五大挑战,为了更好的支撑AI模型和应用生于云、长于云。方国伟提出,华为云AI原生云基础设施围绕五大方面持续创新“全景算力、高性价比、稳定可靠、开箱即用、安全可信”。
· 全景算力
为了更好的满足新一代模型对于训练算力的规模倍增需求以及未来推理场景可能无处不在的前景。华为云的云基础设施,主要向两个方向演进:
1、 华为云将算力平台从传统的单体、通用算力,升级到基于的下一代AI原生云算力平台,通过全栈系统性设计,突破算力边界和网络边界,为客户提供一切可池化、一切皆对等、一切可组合的云矩阵算力。采用新型高速互联总线,将CPU、NPU、DPU、存储和内存等多种资源完全对等互联起来,实现从集群到数据中心级的资源池化,满足AI时代对于算力的大规模、高效稳定、弹性灵活的需求,并能为业务带来明显的效率提升。
2、 进一步推进全场景分布式云的构建,让算力可以无处不在,并实现全局调度。从客户访问的时延维度角度,华为云通过部署中心、区域IEC和客户本地系列化的云基础设施,提供少于30ms、10ms、5ms的接入时延,为企业打造满足不同场景业务需求的“确定性时延”体验。
·高性价比
单个GPU/NPU的显存有限,是业界公认的影响大模型训练和推理效率的一个难点,即业界的内存墙难题。华为云首创EMS弹性内存存储服务,在NPU显存和持久化存储两层间增加弹性内存存储层。基于 专利技术,通过显存扩展、算力卸载、以存代算三大创新来打破内存墙。
1、 首先是显存扩展。大模型训练通常采用参数并行,将模型参数分别存到多张卡的显存中。在盘古大模型5.0的训练中,华为云将模型参数分层存储在显存和EMS,只用了不到一半的NPU卡,就存下了万亿参数的大模型,算力节省超过50%。
2、 其次是算力卸载。大模型推理过程中包括模型计算和KV计算,其中KV计算的显存占用很大。华为的一张NPU卡在运行大模型推理时原本只能支持8个并发。华为云将KV计算任务卸载到EMS和CPU上,而模型计算仍在显存和NPU进行。单卡的并发提升到了16个,AI推理性能提升100%。
3、 最后是以存代算。大模型推理中为了节省显存,历史对话的KV计算结果都不会保存,后续都只能重新计算,导致新推理的首Token时延超过1秒。现在,华为云可以将历史KV计算结果保存在EMS里,供后续推理直接调用。优化后推理的首Token时延降低到0.2秒以内,优化了80%。
·稳定可靠
几乎所有训练大模型的客户均会面临到大规模集群训练稳定性的问题,华为云也把它作为一个重点的难题来进行攻关。华为云昇腾AI云服务,通过搭建覆盖全链路场景的可观测性和可靠性管理方案,实现故障可诊断、可衡量、可恢复。
可诊断:可诊断全链路多部件的故障(服务器、网络、平台、作业等),支持诊断300+通用故障,100+NPU故障,50+网络故障,故障诊断覆盖度95%+。
可衡量:1分钟故障检测,5分钟故障诊断。
可恢复:故障诊断根因后,10分钟进行故障隔离和恢复,故障恢复成功率99%。全链路恢复加速,实现CKPT写入读取、图编译、建链、调度全链路优化。华为云已实现千卡集群长稳训练40天以上,故障自动恢复,无需人工介入,故障端到端恢复时长小于30分钟。下一步华为云还将持续优化,预计24年底端到端故障恢复时长将降低至10分钟以内。
·开箱即用
为了方便客户获取和使用AI算力,更好的基于百模千态进行业务创新。华为云全新升级了 ,聚焦优质大模型全场景性能精度提升,构建云上大模型一站式模型开发托管服务,践行大模型即服务MaaS(Model-as-a-)理念。
开箱即用,一站式模型应用托管服务:提供模型调优、压缩、部署、评测等全栈工具,功能覆盖大模型全生命周期,支持用户即开即用,低门槛使用各类大模型。
模型全、免配置、免调优、性能优:业界SOTA大模型覆盖度99%,预置最优超参配置,基于昇腾算子、显存优化,大模型训练与推理性能大幅提升;并围绕大模型性能与精度评价体系构建标准化自动流水线。
同时,华为云基于OBS对象存储服务之上提供了构建了实现语义向量化的知识湖存储,简化客户针对海量非结构化数据实现RAG方案的难度。基于将对象的读、写、算分离,可以把千亿级对象规模场景下的读性能,从百毫秒级降到十毫秒以内,实现大规模低延时的效果。同时,华为云把对性能要求比较高、频繁访问的索引层放在了内存层,并结合更便宜的对象存储来实现持久化层。这样通过高低结合,把整个成本做得更优,能做到50%成本降低。
·安全可信
人工智能进入大模型时代,引入了新的攻击面,平台、插件、环境、工具链等都面临新的威胁风险,结合安全权威机构OWASP的总结及华为的自身实践,从全栈和大模型生命周期关键阶段视角看大模型安全风险,总结了四大安全风险,包括:基础运行环境安全风险、训练数据安全风险、模型内生安全风险、内容应用安全风险。针对大模型四大安全风险,华为云推出4+1大模型安全解决方案:
基础环境安全:通过安全云服务,提供基础环境安全,默认合规等保三级。
数据安全:通过数据安全中心DSC和的数据工程平台,保证训练数据防污染防泄露,推理数据隐私合规。
模型安全:通过给模型加密,实现模型资产防盗取。
内容安全:通过 Guard,防御攻击,提供内容审核合规。
最后通过安全云脑实现一图可视,感知威胁,全局联动处置的安全运营。
最后,方国伟总结到:“华为云在过去数年中专注于云基础设施的全栈系统性创新,为即将到来的企业智能化浪潮做好了充分准备。今天,向大家分享了华为云AI原生云基础设施在‘全景算力、高性价比、稳定可靠、开箱即用、安全可信’等五个关键维度所取得的重大突破。这些创新将使企业能够将最先进的AI技术无缝集成到其核心业务中,更好支撑企业AI业务的创新生于云、长于云。华为云的愿景是让AI业务在云端蓬勃发展,为客户提供持续创新的沃土,助力客户在AI 驱动的新世界中保持领先地位。”