中国移动牵头的异构智能算力硬件统一通信机制技术要求行业标准获批立项

aixo 2024-08-07 08:32:10
算力 2024-08-07 08:32:10

近日,在CCSA (中国通信标准化协会)(数据中心)工作组会议上,中国移动牵头的《异构智能算力硬件统一通信机制技术要求》行业标准获批立项,标准获得信通院、燧原、天数智芯、瀚博、曙光、中兴、中国信息通信科技集团等产业伙伴的支持及共同参与。

当前云计算数据中心内智能算力形态呈现多样化发展趋势,不同厂商、不同类型的智能算力硬件,如GPGPU(通用图像处理器)、NPU、DSA(领域专用加速器)等,亟需一体协同工作,充分发挥各自计算优势,充分释放系统整体效能。而异构混合算力集群中,智能算力硬件互联方式各异、通信协议、数据格式及通信接口不一致,各硬件厂商通信库不兼容,难以实现异构硬件设备间的信息传递及参数同步,亟需面向异构混合算力环境设计一套异构算力分布式统一通信标准。

根据统一通信技术与智算芯片软件栈关系,智能算力硬件统一通信是面向分布式训推场景的通信机制标准约束,是面向异构智算芯片定义的一套统一通用的通信方法,可用于处理异构智算芯片训推过程所涉及的参数传递、梯度更新等数据传输协同相关操作。

统一通信技术与智算芯片软件栈关系示意图

基于统一通信技术研究目标,标准从数据传输架构、流程及接口等方面制定了一系列规范化约束,旨在实现同一训推任务下的跨架构分布式并行数据传输及协同。标准内容将包括统一通信机制架构、异构算力通信初始化流程及接口、异构算力通信拓扑发现流程及接口、异构算力数据传输通道建立流程及接口等。

未来,中国移动将与产学研用各界合作伙伴一起,推动不同厂家、不同架构异构智能算力间形成统一通信机制,助力我国智算生态融通发展。