中兴通讯云及智算产品总经理谈如何应对 AI 时代算力需求挑战
随着人工智能大模型参数量呈指数级增长,智算中心正面临前所未有的算力和带宽压力。如何有效应对这些挑战,提升计算集群的整体效能和可扩展性。在9月27日至29日于河南郑州举行的2024中国算力大会上,如何满足AI时代急剧攀升的算力需求成为与会各方关注的热点议题。对此,中兴通讯云及智算产品总经理余方宏接受《人民邮电》报记者专访,并深入阐述了中兴通讯提出的“以网强算”核心主张,以及如何通过引入高带宽域来应对这些挑战。
大参数模型的训练日益依赖于庞大的算力支持。有数据显示,大模型的参数规模从2022年的1750亿迅速跃升至如今的1.8万亿,未来甚至有望达到十万亿级别。余方宏谈到,这种前所未有的规模扩展,不仅极大地提升了模型的复杂程度,还促使训练方式从传统的3D并行模式向更加高效、多维度的并行训练策略转变。这些策略涵盖了专家并行(EP)、张量并行(TP)、流水线并行(PP)以及数据并行(DP)等多种创新方式。
这些并行训练方法使得对计算资源和通信带宽的需求急剧增加。余方宏举例说,以专家并行(EP)策略为例,All-to-All通信模式的引入对带宽资源提出了严苛的要求,要求系统具备极高的数据传输效率和低延迟特性,以确保训练过程的顺畅与高效。
驱动AI大模型演进的强大算力背后,离不开底层通信网络的支持。网络性能的优劣直接关系到GPU集群所能释放的算力上限,而网络的可靠性则决定了这一算力能否稳定持续地服务于复杂的计算任务。余方宏谈到,在此背景下,中兴通讯提出“以网强算”的核心主张,通过OLink开放互联,实现更多GPU之间的高速互联,从而构建起更强大的网络和计算资源体系。这不仅是支撑当前及未来AI大模型不断进化的关键,更是推动智算技术不断突破的坚实基础。
OLink开放互联意味着采用了一种开放标准的互联协议,允许不同厂商的设备能够高效地进行数据交换和通信,从而构建起更加灵活和扩展性强的计算环境。余方宏进一步解释道,中兴通讯推出的基于OLink技术的高带宽域解决方案,能够实现更多GPU之间的高速互联,为构建高密度、超节点服务器奠定了基础。
与传统的Full Mesh互联架构相比,OLink在扩展能力方面极具优势,余方宏谈到,OLink采用开放的总线协议,兼容RDMA标准,能够提供高达800GB/s的带宽,极大提升了数据传输效率。此外,OLink还支持在网计算,这一特性能够显著降低通信时延,提升集群的整体性能和扩展潜力。这些创新不仅能推进计算与网络的深度融合,更满足了AI浪潮下对带宽和算力的严苛需求。
基于OLink大容量交换芯片,中兴通讯推出了超节点方案以满足超大参数模型的训练需求。超节点通过优化的通信协议和大带宽的通信设计,将多个GPU或计算节点连接在一起,以实现高速的数据交换和处理能力。余方宏谈到,超节点的设计突破了传统单机仅支持8张GPU卡的限制,实现了节点内GPU规模的扩展,提升互联效率。他进一步指出,这不仅有效缓解了流水线并行计算过程中常见的资源空置现象,还针对MoE( of ,专家混合)架构下频繁发生的All-to-All通信导致的GPU闲置问题提供了强有力的解决方案,从而实现系统性能的提升。
余方宏表示,随着大模型的快速迭代与AI计算需求的攀升,中兴通讯将聚焦AI技术前沿,引领技术创新,推动行业变革,携手生态伙伴共同打造更强大、更高效的智能计算平台,开启AI算力新时代。