2024 中国算力大会:确定性网络成中国算力网建设重要基础
记者骆轶琪 郑州报道
作为AI大生态的一部分,随着大模型快速发展,“运力”的核心部分网络传输的技术升级诉求也日益迫切起来。
在9月28日举行的2024中国算力大会上,中国工程院院士刘韵洁在发言时指出,确定性网络是中国算力网建设的一个重要基础。
从产业背景来看,今年1月,国家数据局和工信部等17部门联合印发《“数据要素×”三年行动计划(2024-2026)》,而数据要素是人工智能最重要的基础。同月,工信部等七部门联合印发《关于推动未来产业创新发展的实施意见》,从技术角度明确提出,加强新型网络架构研究,加快促进关于低时延、智能互联的要求。7月,党的二十届三中全会在公告中首次提出,建设和运营国家数据基础设施,促进数据共享。数据基础设施的重要内容就包括网络、算力、传输交换平台、安全。
刘韵洁指出,随着AI发展,在智能时代的数据传递与计算,对网络提出三大新挑战:一是“AI大模型”对算力提出巨大需求,由此对网络有新需求、新标准,需要1万个GPU进行协同计算;二是“空间计算”的出现,开启前所未见的虚拟时代,虽然苹果发布的 Pro价格高昂,但Meta最新发布的Quest 3S价格在300美元,这类产品对算力与时延同时提出要求,需要提供更高速率、更低时延;三是“具身智能”构筑未来工业智能机器人,特斯拉人形机器人的最终目标是取代人类完成劳动,具备精准操作的能力,这对算力、时延、可靠性提出新要求。
由此,时延敏感型、计算密集型是智能互联网时代新型网络业务的两个最核心特征。
刘韵洁指出,当前国内算力产业面临的现状是,一方面,大模型算力需求激增,算力组网需求迫切,网络带宽成为瓶颈;在过去5年时间,GPU算力增长近90倍,但网络带宽仅增长10倍,模型训练时间也随之增长。带宽瓶颈逐渐显现。
另一方面,广域算力资源互联共享需要解决并行协同计算来提升算能;远程使用算力资源,需要提升传输效率、节约传输成本。这些都需要确定性网络提供支撑。
以美国微软公司为例,Azure云游70%以上的流量都使用RDMA协议,在2023年初步实现80KM广域RDMA互联;国内华为公司也提到,在100GE环境下,8节点的VGG16模型训练RDMA性能是TCP的8倍多。因此,构建“无损确定性广域传输能力”成为算力高效传输互联的重要基础。
同时,国家数据局下发的《数据基础设施建设(试点试验)任务书——数据流通方向》中提到,加快推动数联网数据流通利用基础设施建设,开展数联网基础设施建设任务。在投标方面提出,要求千公里传输抖动不高于50微秒,传输效率要大于90%、丢包率要小于十万分之一并支持跨域网络资源统一调度和编排。
要实现这些指标,没有确定性网络技术完成不了。因此确定性网络是中国算力网建设的一个重要基础。
从国际态势看,美国正在构建能源科学网络(ESnet),这实际上是美国的“科研算力网络”,其在2022年10月升级到第六代,2023年迅速发布了第七代,就是因为发现网络环境满足不了算力的需求。
在ESnet网络的下一步技术和能力规划中,提到的其中三个目标:端到端的确定性网络能力;网络可编程、可重构、可定制;整个网络资源的一体化调度——这三个能力,中国的团队都已经实现了。
刘韵洁综合分析,“以网强算”成为我国提升综合算力的新路径。让网络与算力深度融合,构建“全域超级计算机”,让超算、智算、通算等各类型计算能力,通过计算机总线技术连接在一起,才能更好赋能数字经济发展。
这就需要确定性网络体系架构的不断迭代开发。举例来说,目前的互联网只是普通马路,通过确定性网络要实现算力网成为高速公路,进而满足算力需求。
刘韵洁还指出,目前中国在通用大模型方面与国际领先水平短期内还有差距,但也要重视发展行业大模型。“如果在通用大模型的基础上,把行业数据训练好、行业大模型做好,完全可以走出中国自己的道路。”刘韵洁指出。
他分析道,因为中国的行业数据最为完整和全面,但这需要政府、企业、资本等多方共同解决课题,才是真正支持实体经济、新质生产力发展的必然渠道。