2024 中国算力大会：确定性网络成中国算力网建设重要基础

aixo 2024-09-30 09:12:21

2024-09-30 09:12:21

记者骆轶琪郑州报道

作为AI大生态的一部分，随着大模型快速发展，“运力”的核心部分网络传输的技术升级诉求也日益迫切起来。

在9月28日举行的2024中国算力大会上，中国工程院院士刘韵洁在发言时指出，确定性网络是中国算力网建设的一个重要基础。

从产业背景来看，今年1月，国家数据局和工信部等17部门联合印发《“数据要素×”三年行动计划（2024-2026）》，而数据要素是人工智能最重要的基础。同月，工信部等七部门联合印发《关于推动未来产业创新发展的实施意见》，从技术角度明确提出，加强新型网络架构研究，加快促进关于低时延、智能互联的要求。7月，党的二十届三中全会在公告中首次提出，建设和运营国家数据基础设施，促进数据共享。数据基础设施的重要内容就包括网络、算力、传输交换平台、安全。

刘韵洁指出，随着AI发展，在智能时代的数据传递与计算，对网络提出三大新挑战：一是“AI大模型”对算力提出巨大需求，由此对网络有新需求、新标准，需要1万个GPU进行协同计算；二是“空间计算”的出现，开启前所未见的虚拟时代，虽然苹果发布的 Pro价格高昂，但Meta最新发布的Quest 3S价格在300美元，这类产品对算力与时延同时提出要求，需要提供更高速率、更低时延；三是“具身智能”构筑未来工业智能机器人，特斯拉人形机器人的最终目标是取代人类完成劳动，具备精准操作的能力，这对算力、时延、可靠性提出新要求。

由此，时延敏感型、计算密集型是智能互联网时代新型网络业务的两个最核心特征。

刘韵洁指出，当前国内算力产业面临的现状是，一方面，大模型算力需求激增，算力组网需求迫切，网络带宽成为瓶颈；在过去5年时间，GPU算力增长近90倍，但网络带宽仅增长10倍，模型训练时间也随之增长。带宽瓶颈逐渐显现。

另一方面，广域算力资源互联共享需要解决并行协同计算来提升算能；远程使用算力资源，需要提升传输效率、节约传输成本。这些都需要确定性网络提供支撑。

以美国微软公司为例，Azure云游70%以上的流量都使用RDMA协议，在2023年初步实现80KM广域RDMA互联；国内华为公司也提到，在100GE环境下，8节点的VGG16模型训练RDMA性能是TCP的8倍多。因此，构建“无损确定性广域传输能力”成为算力高效传输互联的重要基础。

同时，国家数据局下发的《数据基础设施建设（试点试验）任务书——数据流通方向》中提到，加快推动数联网数据流通利用基础设施建设，开展数联网基础设施建设任务。在投标方面提出，要求千公里传输抖动不高于50微秒，传输效率要大于90%、丢包率要小于十万分之一并支持跨域网络资源统一调度和编排。

要实现这些指标，没有确定性网络技术完成不了。因此确定性网络是中国算力网建设的一个重要基础。

从国际态势看，美国正在构建能源科学网络（ESnet），这实际上是美国的“科研算力网络”，其在2022年10月升级到第六代，2023年迅速发布了第七代，就是因为发现网络环境满足不了算力的需求。

在ESnet网络的下一步技术和能力规划中，提到的其中三个目标：端到端的确定性网络能力；网络可编程、可重构、可定制；整个网络资源的一体化调度——这三个能力，中国的团队都已经实现了。

刘韵洁综合分析，“以网强算”成为我国提升综合算力的新路径。让网络与算力深度融合，构建“全域超级计算机”，让超算、智算、通算等各类型计算能力，通过计算机总线技术连接在一起，才能更好赋能数字经济发展。

这就需要确定性网络体系架构的不断迭代开发。举例来说，目前的互联网只是普通马路，通过确定性网络要实现算力网成为高速公路，进而满足算力需求。

刘韵洁还指出，目前中国在通用大模型方面与国际领先水平短期内还有差距，但也要重视发展行业大模型。“如果在通用大模型的基础上，把行业数据训练好、行业大模型做好，完全可以走出中国自己的道路。”刘韵洁指出。

他分析道，因为中国的行业数据最为完整和全面，但这需要政府、企业、资本等多方共同解决课题，才是真正支持实体经济、新质生产力发展的必然渠道。

算力

2024 中国算力大会：确定性网络成中国算力网建设重要基础

华铁应急遭证监会问询拟投资10亿开展智能算力业务

安兔兔后台完成iPadPro2024：性能提升50%

腺核苷三磷酸果壳:蛋白质分析AI工具全新升级

宁波人工智能超算中心二期完成200P智算算力资源扩容

DesaiGPU「唱」起了《一闪一闪亮晶晶》

微软：轻量级模型分析和自适应键值缓存来实现

美股三大指数录得历史新高超级权重股AI卖铲人

英伟达算力租赁市场缘何爆发？

英伟达股价飙升市值突破 3 万亿美元，拆股计划即将生效

人工智能加速从“+AI”向“AI+”转变