第 25 届中国国际光电博览会开幕,腾讯工程师探讨光网络自动驾驶与风险管控

aixo 2024-09-14 02:13:30
服务器 2024-09-14 02:13:30

9月13日消息(焦焦)9月11日,第25届中国国际光电博览会在深圳开幕,在同期举办的“智算中心光技术创新发展论坛”上,腾讯网络运营工程师陆佳宁发表了以《数据中心开放光网络中的“自动驾驶”与全局风险管控》为主题的演讲,与大家深入探讨了在数据中心开放光网络环境中,光网络中光纤变化所带来的挑战及“自动驾驶”的核心技术与未来展望。

陆佳宁表示,随着数据中心基础设施海量运营,光纤数量增多,光网络运维中遇到最大的问题是光纤故障,主要包括:中断,劣化,抖动/变化等。对于光纤中断或是出现较大幅度变化等较严重光纤事件时,则采取建单,报障运营商,波分运营配合修复。而对于时常会出现的光纤小幅度抖动和变化时,出单几率低,维修困难。若光纤衰耗与光放增益失配,无自动化手段恢复,会导致严重的系统隐患。

当前光纤量越来越大,造成衰耗抖动愈发频繁,对于业务的影响逐渐增多,光纤和增益的适配,不仅会影响波道性能,在收端的倒换也会受到影响,甚至会失效。因此,在系统建设初期,要保证余量足够,用光放增益和衰耗配置的方法,可以顺利运营系统整个生命周期。同时,系统配置自动追踪是提升系统稳定性的关键。

五大核心设计理念为“自动驾驶”保驾护航

陆佳宁介绍,所谓“自动驾驶”,实际上就是让系统自动追踪光纤的变化,并且准确配置光放板卡的增益和VOA。

首先,“自动驾驶”设计以基准衰耗为基础。系统准确捕捉光纤衰耗的真实变动,排除瞬时抖动或异常值的干扰,用拟合算法得到真实的光纤基准衰耗。当基准衰耗变化值超过一定的范围,触发“自动驾驶”系统,以基准衰耗为基础,计算光放配置,准确配置光放板卡的增益和VOA。

第二,“自动驾驶”需进行模块化解耦设计。“自动驾驶”模块化设计的原理为:创建调测任务触发“自动驾驶”,再进一步调度任务,执行任务。整体流程需要模块化解耦对系统进行设计。为了后续的全局管控和任务调度,需对整体任务进行分层设计,分为平面任务、复用段任务和子任务,按优先级进行管控。任务创建后,由任务自动调度模块传递到调测流程中,正式开始配置计算和调测流程,此外还需要全局管控模块,统筹风险管控。

第三,“自动驾驶”设计要有全局视角调度和控制能力。全局控制调度包含系统划分,顺序保障以及临时暂停和恢复。系统划分是以传输系统的物理层面进行划分,保障不同调优拓扑的独立性。顺序保障需确保同一个系统中的所有子任务均已完毕,才开始调测下一个拓扑。暂停和恢复则是当“自动驾驶”过程出现其他意外动作状态,如故障或认为结束命令时,暂停当前调优,意外动作状态结束时,恢复调优。

第四,“自动驾驶”要有全局视角调度顺序。自动调度任务顺序是核心,要确保链路调测顺序符合人工运维习惯。点对点系统调测顺序无分叉,依据是简单的上下游关系的顺序;ROADM系统调测顺序,带分叉,依据业务流向定义顺序。

第五,“自动驾驶”设计需明确调测流程关键点。调测流程设计要点为准确性和安全性。在任务执行时,配置准确计算,以性能拟合值而非瞬时值计算,还需要对器件类型进行区分。在调测过程中分布下发,并且进行校验,确保配置下发成功,性能符合标准。此外还设置安全机制,一定时间内OSC无抖动开始任务调度,规避故障叠加,任务执行过程中若发生非稳态抖动则中止任务,继续等待稳态,如果有异常直接回退处理。

“自动驾驶”需全局风险管控

为何要做全局风险管控?陆佳宁解释到,主要是因为波分系统承载了整个腾讯云骨干网的流量。两者的关系可以理解为一套波分系统有两个平面,两个波分平面分别是一套独立的波分的物理系统,两个波分平面,承载着骨干网的多个平面。

陆佳宁表示,实际上光放增益配置调节存在理论风险,考虑到骨干网风险管控需求,多个波分平面不能同时中断,所以仅从波分网络视角的风险管控,不足以对数通层面的风险进行管控,需对不同波分网管统一管控,才能同时进行“自动驾驶”。而“自动驾驶”系统是放在每个网管上面,不同网管的“自动驾驶”无法互通,所以腾讯云网络进一步引入了全局风险管控,对各网管的“自动驾驶”统一加锁管控,集中式管控波分“自动驾驶”任务。

演讲最后,在谈到对“自动驾驶”的未来展望时,陆佳宁提出,“自动驾驶”实际上是通过对光网络配置项做出相应动作,让光网络处于最优状态。今后,可以对光纤故障处理动作精细化,根据实时光纤余量进行光纤故障场景自动决策。目前,光纤余量计算的精度已经得到实验室的验证。

此外,陆佳宁认为,对于C+L的“自动驾驶”思路也需转变,从单一的衰耗补偿思路转变为综合的入纤谱稳定思路。这也是对C+L系统提出的新要求,需考虑光放增益/voa,斜率,WSS voa等配置项,进行统一的“自动驾驶”设计。