中兴通讯副总裁陈新宇:超节点方案助力 AI 大模型训练

aixo 2024-09-25 00:14:24
服务器 2024-09-25 00:14:24

在2024中国国际北京通信展期间,中兴通讯副总裁陈新宇介绍了中兴通讯在超节点方案的最新突破,彰显了中兴通讯在算力和网络技术上的强大创新能力。

中兴通讯副总裁陈新宇

随着人工智能技术的飞速发展,AI大模型的参数规模正以超越摩尔定律的速度急剧扩张。在此背景下,探索如何在超大规模智算集群中实现GPU之间的高速互联,从而显著提高GPU的利用率,已成为行业面临的重要挑战。

中兴通讯凭借其在算力和网络技术领域的深厚积累,推出了更先进的超节点方案。陈新宇在介绍时强调:“我们的超节点方案能够实现更多GPU之间的高速互联,为大模型的训练提供了强有力的支撑。”

大模型驱动,超节点成为AI进阶的必然选择

AI大模型的迅猛发展对计算能力提出了前所未有的挑战。为应对这一需求,企业纷纷构建智算集群,并引入并行计算技术,以加速模型训练。然而,尽管并行计算提升了整体计算效率,它也带来了同步开销和通信延迟的问题。

陈新宇指出:“在万亿参数规模的模型训练中,跨机并行在带来计算效率提升的同时,也带来了新的问题——空泡现象。” 具体来说,模型在不同GPU和服务器间进行数据传输时,GPU因等待无法充分利用,导致计算过程中出现‘空泡’,从而影响了模型训练的整体效率。他进一步解释,混合专家模型(MoE)引入专家并行训练,进一步加剧了通信带宽和时延问题,使得GPU空转时间显著增加,成为大模型训练中的技术瓶颈。

为了应对这一问题,中兴通讯推出超节点解决方案。陈新宇解释道:“在单个节点内增加GPU的数量,能够显著减少跨节点的通信量,进而大幅提升GPU的利用率。”由于机内带宽通常远高于跨机带宽,因此,增加单机内的GPU数量,充分利用机内带宽,是降低GPU空转比例的关键。

突破算力拓展瓶颈 ,OLink助力构建超节点

随着大模型训练对算力需求的不断提升,传统的机内点对点Full Mesh互联架构逐渐暴露出其扩展性不足的弊端。Full Mesh架构虽然能够提供高带宽和低延迟的通信能力,但其扩展能力有限,尤其是在GPU数量增加时,点对点的通信方式难以实现线性扩展。通常,Full Mesh架构最多只能支持单机8张GPU卡,这大大限制了大模型的训练效率。

为了构建超节点,中兴通讯创新性地推出了OLink交换技术。通过这种技术,GPU之间的通信从传统的点对点互联模式转向交换互联模式,显著提升了单机的扩展性和通信带宽,突破单机8卡的限制。陈新宇强调:“通过OLink技术,可以打造更大规模的高带宽域(HBD),从而大幅提升集群算力。”通过OLink高速交换,还可以将高带宽域从机内拓展到机间,从而实现更高的扩展性,能够支持16卡以上的扩展。这种线性扩展能力,为构建更高密度的超节点奠定了坚实基础。

开放互联,构建多元化智算生态

当前,GPU互联私有总线协议的封闭性已成为多厂家芯片兼容的主要障碍,限制了硬件系统的扩展性,并增加了技术升级和维护的难度。为克服这一局限,中兴通讯在其OLink技术中采用了开放标准。

陈新宇强调:“我们的OLink标准是开放的,它不仅促进了多厂家生态的繁荣,还为企业提供了更加灵活的选择。”这一技术开放性为行业带来了更大的灵活性和可持续性,有助于推动智算技术的多元化发展。

在未来的规划中,机内和机间将统一采用OLink交换高速互联,通过OLink互联协议和交换芯片,提供端到端的GPU高速互联方案。这不仅简化了智算集群的组网复杂度,还有效提升了整个系统的扩展能力和性能,使得AI模型训练和推理变得更加高效。

智算未来,超节点加速AI落地

在AI技术变革的浪潮中,中兴通讯凭借其在智算和网络领域的创新技术,正加速推动AI技术在各行业的应用落地。其新一代超节点方案在硬件架构上实现了重大突破,展现出极高的开放性和兼容性,能够在各种场景中广泛应用,促进AI技术的普及和行业发展。

陈新宇强调:“通过持续的技术创新,我们将引领AI产业迈向更高效、开放的智算未来,为行业带来更多的发展机遇。”

此次采访,展现了中兴通讯在智算架构优化方面的深度研究与技术创新。未来,随着AI模型参数的不断增长和应用场景的不断扩展,中兴通讯将继续通过技术创新,助力各行各业实现数字化转型和智能化升级。