近年来,光纤网络已经变得更加复杂,由于流量增加和服务多样化,网络运营商,它变得越来越难以监视大规模通信网络和跟踪状态,以及控制和操作上运行的各种服务网络。这一问题激发了对自主光网络诊断的需求,对机器学习和深度学习的应用也越来越期待。另一个趋势是通过使用白盒硬件、开源App和开放接口,积极减少光传输设备的资本支出(CAPEX)/运营支出(OPEX)。在本文中,大家详细描述了白盒应答器的一系列工作流程的概念,包括从相干光收发器获取光性能数据,将深度神经网络应用于采集的数据诊断光传输线状况,并将诊断结果通知远程网管系统。此外,作为一个用例,大家演示了基于诊断流程的光纤弯曲检测。离线和在线演示表明,在大家的评估环境中,部署的诊断系统可以识别光纤弯曲,准确率高达99% 1.INTRODUCTION 互联网上的各种服务和应用使人们的生活更加方便和丰富。云中的数据中心(这是大多数服务的基础)之间的流量,以及从数据中心到最终用户的网络流量随着Internet服务的发展而不断增加。特别是,视频流服务已经成为近年来流量增长的主要驱动因素,随着视频分辨率的提高、互联网用户数量的增长和移动设备数量的增加,流量预计将继续增长。 网络运营商面临的问题是,资本支出(CAPEX)和运营支出(OPEX)随着互联网流量的增加而增加。就资本支出而言,由于一系列的技术创新(如技术创新),每位通信成本一直在下降。(如光通信领域的波分复用和数字相干技术)。尽管如此,为了在未来流量更大的情况下继续提供网络服务,仍需要进一步创新,以提高传输能力和更有效地利用通信资源。在运营成本方面,处理无声故障是增加运营成本的因素之一。光网络故障除了光纤切断外,还包括线路卡、收发器和其他有源设备的故障。这些故障中的大多数都可以通过信号丢失(LOS)等告警检测到,但也有静默故障,即没有告警产生,只能通过客户的报告识别故障。特别是在无声故障的情况下,需要专门常识来识别故障的位置和分析故障的原因;由于需要进行现场恢复工作,一般恢复时间较长。所有这些工作量也可能是提高运营成本的一个因素。 克服这种情况的一种方法是在光网络监测和诊断中加入自主性元素。自主光网络诊断的最基本要素是监测、准确了解网络状态和远程实时采集设备数据的遥测。通过从各种设备上收集设备状态、传输状态等信息,远程快速检测网络状态的变化和异常的发生。此外,通过这种方式收集的大量数据对于机器学习(ML)应用程序了解网络状态和提高ML模型本身的估计精度是必不可少的。 自主光网络诊断的目标是在检测到异常时能够快速识别异常的位置和原因。大家提出了CAT循环的概念,如图1所示。它由三个重复处理的动作组成:从设备中收集信息(收集)、分析收集到的信息(分析)、根据分析结果实行控制和测试(控制和测试)[2]。为了保证对大型网络的可扩展性,更现实的做法是采取探索性的方法,重复CAT循环,逐步缩小收集信息的范围,增加收集信息的类型和频率。 如果自主网络诊断技术足够成熟,通过对获取的数据进行监测和分析,可以检测出异常,那么就有可能在故障实际发生之前采取措施解决故障原因,即预测性维护。例如,在[3]中,基于检测异常(本文中的光纤弯曲),在接收节点的先进先出(FIFO)存储器中调整工作路由和保护路由之间的延迟差,成功切换光传输单元4 (Optical Transport Unit 4, OTU4)信号,无比特丢失。如本例所示,如果能够在异常检测的基础上自主、主动地进行网络维护,可以降低突发故障的风险,从而降低运营成本。 近年来,特别是在网络维护和运行领域,人们一直在努力将使用ML的自治纳入此类网络。Rafique和Velasco对网络自动化[4]中的ML方法进行了全面综述。本文以预测维护为例,先容了将预测维护应用于节点获取的多个参数(如功率、温度、电流),并利用预测维护分析节点内部故障原因的实例。组织了光网络故障管理的分类,并对每一类故障进行了详细的实例说明。提出了一种集监控和数据分析功能于一体的网络管理体系结构。本文提供了一些使用这些工具的场景:流量预测、故障定位和故障根本原因识别的误码率(BER)分析。比较分析了在误码率训练下的几种ML算法在软故障检测和故障原因识别中的应用。提出了一种基于支撑向量机(SVM)和双指数平滑(DES)[8]的性能监测和故障预测方法。本文提出了一种用于光网络预测维护的光链路监测与诊断系统,该系统采用白盒转发器、开源App和开放接口。在下一节中,大家将回顾用于自主网络诊断的准确网络状态监测的概念和基本技术。然后,在第三部分中,大家描述了一个使用传输参数监测和ML应用的光链路诊断系统,大家在白盒转发器中实现了该系统。此外,大家还描述了一个ML应用程序如何智能地估计光链路状态,以及估计数据如何被远程网络管理系统(NMS)收集和利用。第四节演示了使用该诊断系统的离线和在线光纤弯曲估计实验,第五节总结了一个总结。 2 实现光链路监测和诊断系统技术 先容光纤链路监控与诊断的使能技术 A基于深度神经网络的光链路诊断 在数据速率不断提高的光通信中,光链路监控是保证传输质量和快速检测状态变化的一项非常重要的技术。光信噪比(OSNR)、误码率(BER)、q因子(Q-factor)、色散(CD)、偏振模色散(PMD)等参数可以用来测量链路特性和光路的传输性能。随着数字相干技术的出现,精确估计和补偿数字领域的波长色散和偏振态成为可能。最近,T电信基础设施项目(TIP)推出了GNPy[9]这一开源规划工具,该工具使用高斯模型(考虑了放大自发辐射(ASE)和非线性噪声)来估计信噪比和广义信噪比。它的估计精度正在积极地应用于变速器设计中。本文简要先容了神经网络的运行机制。神经网络是受人脑神经元工作原理启发而形成的网络,由神经元对应的节点和连接节点的连接(突触)的权重组成。与逻辑回归具有层次结构,没有中间层(隐含层)不同,这种神经网络的特点是用一个或多个隐含层将输入和输出层分离,以表示非线性状态。在有监督学习的情况下,即从输入数据和标签的组合中学习,数据输入到输入层,将输出层得到的结果与标签进行比较,计算损耗,并通过误差反向传播法调整节点间链路的权重系数,以减小目标函数,即损耗。模型训练过程包括输入数据,将输出结果与标签进行比较,反复调整节点之间的权重以减少损失,并重复此过程直到损失收敛。一旦这个训练过程成功完成,训练后的模型就可以正确地估计出输入的数据是否有未知标签。证明了任意连续函数可以用多个隐层逼近。此外,卷积神经网络(cnn)已经在各个领域带来了创新,包括图像识别,其具有多个卷积层。通过重复对图像数据进行卷积,并通过多层池化提取图像的部分特征,CNN不仅可以获取图像的形状,还可以获取图像的意义和概念。包含CNN在内的多个隐藏层的神经网络被称为深度神经网络(DNN)。 利用神经网络对接收的传输信号进行特征提取已有很多报道。通过提取40 Gbit/s归零、正交相移键控(RZ-QPSK)信号[11]的星座形状特征,成功估计了信噪比、CD和PMD。通过将CNN应用于从数字相干接收机[12]获得的数字信号,演示了对多种调制方案的信噪比估计。Shiner等人利用神经网络识别和去除非线性噪声对估计的信噪比[13]的贡献。Fan等人提出了一种基于CNN的误差矢量幅值(EVM)估计方案,将星座图作为CNN的输入来估计误差矢量幅值EVM[14]。There have been many reports on extracting features by applying neural networks to received transmission signals. Jargonet al.has successfully estimated OSNR, CD, and PMD by extracting features from the constellation shape of 40 Gbit/s return-to-zero, quadrature phase-shift keying (RZ-QPSK) signals [11]. T animuraet al.demonstrated OSNR estimation for multiple modulation schemes by applying a CNN to digital signals obtained from a digital coherent receiver [12]. Shiner et al.employed a neural network to identify and remove the nonlinear noise contribution to the estimated OSNR [13]. Fan et al.proposed a CNN-based error vector magnitude (EVM) estimation scheme, where the constellation diagram is used as an input of a CNN to estimate the EVM [14]. B 在线光链路诊断的T元法 为了实现网络自主诊断,NMS network management system 必须能够准确地了解当前网络的详细状态,并实时收集这些信息,以便能够对路径配置请求、故障等事件马上做出决策。由于数据处理的可伸缩性限制,大规模的网络操作使得从所有设备收集详细信息变得不可行。因此,希翼能够灵活设置从每个设备收集的信息的类型和粒度(收集频率)。收集到的数据,可以从光网络设备不同参数直接相关的光学路径的建立和维护通信质量,如数量、光功率发射器/接收器,和波长,这些设备本身有关,如设备温度和风扇转速。近年来,这些参数经常使用YANG以人们容易理解的形式进行描述,它指定了设备[15]的配置项、状态和程序。YANG是一种用于描述数据模型的语言,最初是专门用于NETCONF协议的,但它正越来越频繁地与通信协议(如RESTCONF和gRPC[16])结合使用。YANG可以根据设备的规范进行灵活描述,OpenConfig[17]以厂商中立的方式实现统一的控制接口规范,也在使用YANG进行定义。而NETCONF/RESTCONF采用拉式协议,控制器向设备发送请求,通过响应获取设备状态,而gRPC近年来被广泛采用,特别是在云计算领域。指定通信的push类型,其中设备除了pull-type响应外还向控制器发送消息。此外,gRPC还具有流类型通信的特性,即消息在协议缓冲区中进行二进制编码并连续发送,这减少了数据量并提高了速度。这些功能特别适合实时流遥测技术。此外,gNMI[18](一种基于gRPC的网络管理接口,它指定了setRequest/getRequest等命令)的出现鼓励了gRPC作为通信控制和管理协议的使用。作为下一代网络管理和控制系统[19]的μ - ONOS,采用gRPC和gNMI作为μ - ONOS微服务接口的标准协议。在[20]中,编辑先容了一些通过遥测从各种设备(如放大器、白盒/黑盒)收集信息的体系结构,演示了利用收集的信息检测软故障,并评估了gRPC的性能。Sgambelluriet提出并演示了部分分解光网络的工作流程,以检索传输性能,并使用OpenConfig NETCONF代理和gRPC遥测[21]确定最合适的操作模式。Mayeret等用遥测[22]收集的几个传输参数训练神经网络,模拟故障定位的可行性。 C 带有开放源码App和开放接口的白盒应答器 白盒型服务器和交换机的部署在数据中心已经很普遍了。通过将硬件从以独立于供应商的方式控制硬件的App中分离出来,已经实现了资本支出的显著减少。一般使用性价比较高的白盒作为设备,使用开源App作为控制白盒的操作系统。在光网络中采用这一概念的趋势继续增长。TIP致力于促进电信设备和相关App的开放性,目前正在领导Voyager、Cassini和Galileo等设备的开发,这些设备是将应答器与第二层分组交换ASIC结合在一起的开放分组应答器,以及凤凰号(400G分解应答器[23])。图2显示了TIP的两个白盒应答器,以及一个可以在它们上实现的基于开源的系统层次结构示例。 在App方面,他们正在推动开源开发,如Goldstone[24],这是一种用于包应答器的网络操作系统(NOS),运行在open network Linux (ONL)之上,ONL是一种用于白盒交换机的 开源计算机 Linux操作系统。组合这些生态系统的好处之一是能够在应答器上运行基于linux的应用程序。例如,通过在应答器上运行容器协调器Kubernetes,并以Docker容器的形式运行应用程序,同一个应用程序就可以在任何设备上运行,而不必担心由于操作环境或App版本的差异而产生的依赖关系。运行App开发人员熟悉的基于linux的应用程序的能力,将降低通信App开发的门槛,并导致开放源码社区的复兴和通信App质量的提高。 通过将开放设备和App与上一节描述的通信协议相结合,大家可以预期,不仅可以显著降低运营成本/资本支出,还可以显著提高光网络中数据采集和遥测的灵活性。然而,要实现包括光传输参数在内的数据的灵活、自适应遥测,不仅需要设备间接口的开放性,而且还需要组件或设备层面的更深层次的可配置性。为了监测光通信的状态,从光收发器和数字信号处理器(dsp)中获取数据是最重要的,但可获取的参数和采集方法随收发器的形状因数而变化。多源协议(MSA,如CFP2ACO, CFP2DCO, QSFP-DD)和收发器供应商。这阻碍了灵活和自适应数据遥测系统的发展。幸运的是,应答器抽象接口(TAI)可以抽象收发器差异[25]。TAI被定义为一个C头文件,并且,通过接口,可以为NOS供应商消除收发器的复杂性。网络运营商可以有更多的选择自由,比如选择单个收发器和开放源代码NOS的能力。收发器供应商可以通过定义一组通用的硬件抽象接口来消除自己的开发冗余。该TAI已被Goldstone NOS及其他NOS产品采用。通过这些努力,可以配置一系列监测和遥测流程,其中白盒转发器的NOS通过TAI获取收发机的光传输相关参数,远程NMS也通过gRPC/gNMI从白盒转发器获取这些参数。在[26]中,编辑通过gNMI的TAI成功地演示了来自不同厂商的两个收发器的波长配置,[27]中详细先容了其他多厂商互连的演示。 3 在白盒应答器上部署使用DNN的光链路诊断系统
|