AI 应用驱动光网络迭代升级,中国联通专家深入解读

aixo 2024-07-19 08:14:40
服务器 2024-07-19 08:14:40

7月18日消息(南山)大模型等AI应用,带来了汹涌的算力需求,驱动着作为基础承载的光网络快速迭代升级。在CIOE中国光博会与C114通信网联合推出的大型研讨会系列活动——“2024中国光通信高质量发展论坛”之智算光网络技术专场上,中国联通研究院总工程师王光全发表演讲,对此进行了深入解读。

王光全介绍,发展东数西算、超算智算是实现网络强国的重要战略方向。智算新业务驱动流量高速增长,需要更大带宽的网络进行承载;同时随着大模型参数量的增加,到万亿级、十万亿级时,其训练不可能由一个算力中心高效完成,而是需要多个互联的算力中心来协同完成训练,呼唤更强的算力中心互联能力。“2000年的PC互联网时代,主要是PC上网,内容也不多,几M的带宽就可以满足要求;2010年的移动互联网时代,应用层出不穷,带宽需要到百兆来匹配。当前,迈向智能时代可能需要千兆、万兆带宽。”

一方面,实现智算中心互联,数据更多的交互,要求更极致的网络成本,以便提供更有竞争力的算力服务;更快的TTM,用于快速的入算联算;以及更高的可用率,以减少大模型训练中断造成的损失。据了解- 4训练一次的成本是6300万美元。网络需要提供更极致的可用率,尽可能地减少智算训练带来的损失。

另一方面,从骨干网看,算力驱动下400G代际发展已经成熟,已成为新一代骨干网的主流选择。“我们以公路交通出行为例,完整的高速驾驶系统需要有汽车发动机、需要有加油站,需要有高速公路、立交桥,为了安全可靠,还需要自动驾驶等。”王光全形象地比喻,400G/800G高速光传输系统非常复杂,如同一套高速驾驶系统,端到端包含四大关键技术:

一是电层的高速相干光模块,用于承载业务,需要支持单波400G/800G传输速率,这是传输系统的源头,相当于汽车的发动机;二是光层物理传输系统,核心单元包括光放大、光交叉,相比100G系统,需要扩展光谱,光谱宽度由C6T扩展到C6T+L6T,相当于高速公路上需要修建更大的加油站、更宽的路面、以及四通八达的立交桥;三是C+L系统的特有的均衡技术,需要克服SRS效应,构筑一个稳态的光系统;四是管控运维能力,需要具备智能化、数字化,网络高可靠性,构筑400G/800G高速光传输系统的自动驾驶能力。

面向新一代光传输系统,从系统架构来看,王光全认为,C+L波段一体化是必然发展趋势,从应用场景来看,尤其是支持ASON的ROADM网络,一体化更是刚需。当前中国联通已经联合产业实现了WSS一体化,未来将继续推进OTU/OA一体化。从动态恢复能力来看,光电协同保护提供差异化SLA和业务敏捷能力,增强网络可靠性,满足算力业务的高价值、高效率、智能化的承载需求,提供高可用率的算力网络。

据悉,中国联通2023年上半年在浙江、广东、河南、山东等省进行了400G PCS-16QAM的实验网验证,下半年完成400G QPSK技术验证并启动了800G技术试点;今年第一季度进行了超高速的光电协同现网验证,二季度则完成了800G PCS-16QAM的实验网验证并开展了空芯光纤的探索性验证。

此外,面向东数西算的全光直连需求,中国联通开展了DC间高通量高性能长距离RDMA无损传输试验,首次实现了基于OTN无损流控和端网协同拥塞控制的3000公里长距RDMA流量传输现网验证,端口带宽利用率从20%提升到90%以上,为远程协同智算奠定了技术基础。

王光全最后指出,智算联网目标架构,是基于全光底座实现算间高速互联和高品质灵活入算。其整体架构基于中国联通算力时代全光底座构建,通过算网大脑、智能管控系统实现智能管控。枢纽间通过400G、800G OTN、OXC以及光电协同技术构建10ms时延圈,实现算间高速智连,架构稳定,极简,提供大带宽、低时延能力;枢纽内通过端到端ROADM/OXC + OTN 和光电协同调度,实现一张全光网一跳直达,稳定低时延构建5ms时延圈;城市内通过ROADM+100G 到站将全光锚点升级为算力锚点实现多业务接入和灵活入云,用户入算时延小于1ms。