DPU 技术:应对算力基础设施挑战的利器,走向广泛应用仍需克服多重难题

aixo 2024-08-17 08:22:44
算力 2024-08-17 08:22:44

DPU是应对智能计算时代算力基础设施的面临的运行效率低、数据传输不可靠、系统可扩展性差等重要挑战的利器,被行业公认为继CPU、GPU之后数据中心中的第三颗主力芯片。

过去五年,DPU技术高速发展,特别是近三年,数家国际芯片业巨头短时间内组织研发力量并投入巨资“抢滩”式发布DPU产品。发展至今,DPU技术无论从性能、稳定性,还是成本效益上,都取得了长足的进步,达到了商用部署的成熟阶段。

值得注意的是,在DPU技术走向广泛采纳与实际应用的过程中,仍尚需应对一系列深层次挑战,包括但不限于系统架构的优化、现有环境的兼容适配,以及运维流程的简化革新。这对于DPU技术能否顺利融入既有IT生态,实现效能最大化,以及降低运营复杂度至关重要,因而构成了其长远发展与市场渗透的关键环节。

聚焦于DPU在云计算领域的深度整合与优化,由中科驭数联合处理器芯片全国重点实验室、中国计算机学会集成电路设计专业委员会共同主编的《IaaS on DPU(IoD):下一代高性能算力底座技术白皮书》在第二届中国计算机学会芯片大会期间正式发布。

这本白皮书中将焦点转向了DPU在云计算领域的应用场景和技术落地,重点阐述了IoD技术的构成以及与当前主流云计算体系的融合方案,从计算、网络、存储、安全、管控等方面进行深度分析,论证了基于DPU构建云计算基础设施服务的性能优势与建设路径,为DPU在云计算的落地沉淀了“Iaas on DPU(IoD)”的技术路线,为DPU的商业化进程谋划了一条技术通路。更重要的是,白皮书还勾勒了一条清晰的建设路径,指导企业如何逐步引入并部署IoD技术,以实现其数据中心向高性能算力底座的平滑迁移。

计算云是什么意思_云计算_计算云创新式海报

IaaS on DPU,让DPU不再为行业巨头“专享”

IaaS on DPU是一种探索将云计算的基础设施组件尽可能下沉到DPU的技术路线,目标是节约基础设施层算力开销并提升系统性能。

伴随着云计算的蓬勃发展,当前世界上的主要算力基础设施几乎都是通过云计算技术进行管理与调度,云计算技术已经成为数字世界的“操作系统”。

为了充分发挥算力基础设施的能力,云计算系统整体架构也在不断演进。传统的IaaS 平台组件功能全部由CPU 算力承载,但是在业务驱动之下,云计算性能提升需求以及极致利用CPU 算力需求也随之水涨船高,基于DPU构建IaaS平台的理念被提出与论证。

DPU作为数据中心的第三颗“主力芯片”,主要通过其专用处理器优化数据中心的网络、存储、安全等处理性能,助力服务器运行效率显著提升,有效降低成本。因此,在新型数据中心建设时,围绕DPU构建数据中心网络的基础设施,在其上挂载了各种计算、存储资源的节点,对于系统的资源弹性、运行效率、性能都大有益处。

以云计算的佼佼者以亚马逊网络服务(AWS)为代表,根据披露的材料分析,自2013 年发布Nitro(DPU) 设备以来,AWS的云计算服务体系逐渐改造为基于DPU 构建并运行在Nitro 设备中,服务器上的CPU 算力被完全池化并以近乎100% 的原始算力性能向客户售卖。以此为基础,AWS 构建了一整套高性能、高稳定性的云服务体系,成为全球范围内最大的云服务供应商。国内阿里云也采用类似的体系,其云服务体系与其自研的DPU 设备紧密配合,帮助阿里云取得了巨大的成功。

这正向循环促进了DPU技术栈的快速迭代与成熟,也帮助他们发展成为云计算业务领域的领军企业。然而,我们也需要看到,这种使用方式的变化,意味着对现有云计算架构进行一定程度的变革,才能充分发挥出DPU的优势。这样“高度定制化”带来的平台架构革新,自然难以简单在业内推广开来。

如何探索出一条通用云计算系统与标准DPU产品结合的路径成为业内关注的焦点。众多芯片厂商投身到DPU 技术领域,在他们的努力之下,DPU的产品形态定义逐渐清晰,DPU的技术标准也在不断完善。与此同时,基础设施与云计算相关产业参与者也正在寻求一种简单高效的方法,将DPU的优势运用到自身业务系统之中,让DPU不再是行业巨头的“专享”技术,例如、、Palo Alto 等公司纷纷推出相关解决方案。

这些方案背后共同的本质思想是:将云计算的IaaS层组件从服务器侧卸载后围绕DPU 构筑高性能算力底座,与AWS、阿里云的技术路线不谋而合。白皮书将这种思想所代表的技术路线统一归纳命名为“IaaS on DPU (IoD)”技术路线,简称IoD。

IoD技术全面赋能高性能云计算基础设施建设

IoD 技术的核心思想是依托于DPU的异构运算能力,将云计算平台的基础设施组件尽可能下沉到DPU承载,实现节约CPU开销与提升IaaS服务性能的目的。同时,基础设施组件下沉到DPU之后,可以为服务器侧运行的各种业务提供一致的网络、存储与安全底座,可以更好地将虚拟机、容器与裸金属的业务调度收敛到统一平台。

通过IoD 技术,可以为云计算体系提供以DPU 为核心构造、软硬件一体化高性能计算底座,对外提供统一管理、高可扩展性、高性能、低成本的IaaS 服务。在硬件层面为“3U 一体”和“一云多芯”的异构算力管理提供更好的解决方案。通过对网络、存储、安全、管理等负载的卸载,释放服务器的硬件资源,实现性能加速,提升基础设施运行效率。此外,通过IoD 的统一底座技术,可以为云计算系统提供容器、虚拟机、裸金属业务的统一调度和运维管理能力,提升运维管理效率。

云计算_计算云是什么意思_计算云创新式海报

赋能通用算力,为卸载提供最佳支撑:在现代云计算环境中,虚拟化技术扮演着至关重要的角色。。其中,计算系统虚拟化的核心通常是基于KVM-QEMU 架构的 系统。IoD 技术能够将 的部分功能卸载到DPU上,采用的方式是在服务器侧运行一组轻量级组件。一方面响应DPU 的业务事件,辅助完成与KVM、LXC 等系统交互,实现云计算业务调度;另一方面辅助将服务器侧文件系统透传给DPU,帮助下沉的云管系统完成对服务器侧的业务监控。通过这种方式,可以满足云业务平台下沉DPU 的功能需求。此方法的优势是可以用最小的改造成本完成业务卸载,最终目标是实现主机CPU 资源占用接近” 零” 的理想状态。

赋能智能算力,实现性能与灵活性兼备的无损网络:AI 应用对网络的需求极为严苛,当前主要通过无损网络(IB、RoCE)承载RDMA应用,尤其是通过GDS、GDR 技术实现GPU 之间以及GPU 与后端存储之前的高效互联。在无损网络中,DPU 担任了至关重要的角色,作为网络接入点设备,DPU 实现了RDMA 协议栈与拥塞处理技术的硬件卸载,大幅提升了网络性能。由于拥塞处理的复杂性,现在业界在重点探索软件定义拥塞控制的新型解决方案,IoD 技术可以在DPU 侧通过软件定义的方式实现网络拥塞状态的监控与拥塞处理控制,将网络处理与上层业务解耦,为整个拥塞处理机制提供更好的灵活性。

赋能云计算网络,助力算力连通、算力开放:随着数据量的激增和计算需求的多样化,网络性能成为了制约高性能云计算发展的关键因素之一。网络卸载技术利用DPU的计算能力,将数据包的接收、解析、加密/解密、压缩/解压缩、流量控制、负载均衡等网络处理任务从CPU 上卸载下来。这样一来,CPU就可以专注于运行应用程序和执行更为复杂的计算任务,而不再需要频繁地处理网络数据包,从而提高了CPU 的使用效率和系统的整体性能。网络卸载通过优化网络数据处理流程,不仅提高了系统的性能和效率,还增强了安全性,降低了成本,提升了资源分配的灵活性,对于需要处理大量网络数据、实时通信和高并发访问的系统尤为重要,是高性能云计算网络架构中优化性能和资源利用的关键技术之一。

赋能云计算存储,提升存算分离架构下的处理性能:在复杂的云计算场景中,DPU 在存储方向上扮演关键角色。DPU 通过存储加速、数据处理、数据安全和智能存储管理等功能,优化存储系统性能和效率,适用于不同云计算业务需求。结合云计算业务,DPU 可提供高性能存储加速,满足对速度和响应时间要求高的应用;其数据处理功能减轻主机CPU 负担,提高整体计算效率;其数据安全功能保护云端数据免受攻击,确保数据隐私和完整性;其智能存储管理功能优化资源利用率,提高云端存储系统的可靠性和可扩展性。通过与网络存储设备集成,DPU 实现高效数据传输和存储管理,为云计算业务提供高性能、安全可靠的存储解决方案,满足多样化的存储需求。

赋能云计算安全,构建“零信任”网络:作为下一代云安全的基础构成,零信任安全的应用离不开DPU 基础设施,借助DPU 的各种硬件加速引擎和网络可编程引擎,从底层硬件信任根开始构建逐层的安全应用功能,凭借与业务和安全应用的深度融合,与云控制平台的分布式安全策略联动,最终实现面向云计算场景的零信任网络安全体系。DPU 零信任安全架构,可以促进零信任安全技术和应用的快速发展。

赋能云计算服务治理,有效降低服务治理业务的处理时延:在IoD 技术体系下,可以将原有体系中用来做服务治理的容器下沉到DPU,同时采用“集中式”网关的模式来完成服务,这一思想也契合了当前服务治理的技术发展方向,如 Mesh 与Istio 等都采用了类似的方案。同时结合主机侧协议栈 技术与DPU 优化的Data Plane 设计,可以有效降低服务治理业务的处理时延。

未来展望

当前,云计算产业正从单纯的软件主导向着软硬件融合的新模式演进,传统云服务在依赖DPU、GPU 等高性能硬件重构技术体系的同时,也将对产业内各个角色的职责和交互模式进行重新定义:

其一,硬件制造和芯片设计厂商将成为云基础资源的重要提供者。除了传统通用服务器供应商外,GPU 和智算服务器厂商将为MaaS 等新型云计算服务提供高性能算力基础,而DPU 厂商则将围绕异构算力资源和高性能网络充分释放资源潜力、打造3U一体的云计算基础设施。

其二,云服务和软件提供商将重构云计算软件以适应新型基础架构。云计算操作系统和应用将根据全新的基础架构进行设计,以充分利用GPU 的并行处理和DPU 的任务卸载能力。与此同时,针对新型基础架构的开发框架和服务也将融入云平台当中,成为云操作系统不可或缺的一部分。

其三,芯片、服务器、云服务商等多方联合方案将成为主流。多芯片、多架构组成的云计算基础设施将使单一厂商打造软硬件融合解决方案的难度呈指数性增长,而这将加速产业内各方走向各抒所长、联合打造方案的道路。IoD 技术正是多方联合打造的新型技术方案的典型代表。