「直播回看」5GC和电信云构建云网络可观测性的必要性

SDN in China | 2022-06-13

“云原生可观测性分享会”第六期《5GC和电信云构建云网络可观测性的必要性》由云杉网络 售前解决方案专家 李飞演讲,针对5GC运维剖析为什么云网络可观测性是拉通5GC和网络云之间运维能力,讲解如何消除三层解耦的阻塞点,实现网络云和云上5GC业务高效、可靠的运行。

点击 5GC和电信云构建云网络可观测性的必要性-第六期云原生可观测性分享会-云杉网络 售前经理 李飞_哔哩哔哩_bilibili 可前往直播回看地址。下文为直播实录,接下来请大家开启沉浸式阅读模式吧。

大家好,我是云杉网络李飞。今天由我为大家带来第六期云原生可观测性分享会直播。在本期直播中我将带领大家梳理电信运营商5G核心网和电信云在过去、现在和未来的运维中遇到的问题和困境,并用IT领域的可观测性理论为大家剖析这些问题的根源,以及如何通过云网络可观测性来解决5G核心网和电信云的运维困难、三层解耦的困难。

期待通过这次分享能为各位带来一些新的思考、新的理念、新的方法,为奋战在运营商核心网运维一线的工程师、运营商的技术研究人员、设备商的产品设计人员提供一些借鉴。

Why——5GC和电信云构建云网络可观测性的必要性

各位听众可能首先有一个疑惑,什么是云网络可观测性?为什么5G核心网和电信云需要云网络可观测性。在解答这个问题之前,需要先了解5G核心网和电信云的运维遇到了哪些问题。

1)过去:全球发生多次5GC故障

5G通信网的稳定运行是保障社会稳定运行的重要基础,而5G核心网则是5G通信网的枢纽和大脑,是整个通信网运行、维护、保障的重中之重。在过去的2021年,其实5G核心网在全球发生了多次影响范围大、持续时间长、社会影响广的故障。

在2021年的4月份加拿大Rogers发生了一次长达26个小时全国范围的移动通信网故障,经过事后分析,是由于某厂商的5GC软件升级触发了隐性的Bug,故障发生后缺乏快速定位手段,导致故障难以在短时间内定位、消除。

在2021年的年底,国内某省也发生了一次持续7个小时的大规模断网事件,影响了全省移动网用户的业务使用,据称在定位过程中一直难以锁定故障点,只能通过重新部署网元软件恢复故障。

在过去发生的这些影响范围大、持续时间长、业务恢复困难的5G核心网运行故障,一方面说明5G核心网的运行稳定性有待提升,另一方面说明现有的故障监测、快速定位、快速恢复能力存在短板。

2)现在:5GC的运维困境

经过我们对很多运营商一线运维技术人员的调研和交流,现阶段5G核心网的运维总结下来就是:(1)云网络“黑盒化”:(2)运维技术难度高;(3)故障定责定界难;(4)云平台面向业务的保障难

什么是云网络“黑盒化”?5G核心网自身运行的网络IP节点数量已经百倍以上规模的增长,容器化微服务POD形成一个Full-Mesh的网络,网络的虚拟化、弹性变化,使得整个5G核心网的内部网络“黑盒化”。

为什么说运维技术难度高?我们会发现5G核心网引入了云、容器技术所需的运维技术横跨数通、服务器、SDN、虚拟化、容器、5G等诸多技术专业,各技术专业领域跨度大、技术协同难度高。

由此导致在具体的运维排障过程中,故障的定责定界难,业务问题在网元层、云平台之间非常难以界定,专业间扯皮多,严重影响故障处理效率,也非常影响团队间的合作。

最后,云平台运维缺乏直接面向上层网元层业务质量的运维保障手段,基本处于被动消除告警的状态,网元层的DPI信令分析能力也止步于NFV网元SBI接口,对网元内部网络的运维保障存在短板。

对于大型分布式系统运行、维护、保障,团队的紧密沟通合作是极其重要,包括在SRE、DevOps等运维方法论中,均特别强调了团队的重要性。但在5G核心网的运维中,核心网与云平台的紧密沟通、协作还存在不小的挑战。以下举几个实际例子。

例子一:当PCF出问题的时候,核心网运维可能会联系云平台“我们这里的PCF1服务不正常,看到服务器上有告警,你们赶紧处理一下”,而云平台运维可能会觉得“服务器的告警好像和PCF的服务异常没什么关系,是不是PCF软件出问题了?”

例子二:某个VNF升级之后,服务有异常,核心网运维查了半天也找不出原因,最后看到虚拟机有告警,反馈给网络云运维后,很可能得到这样的反馈“升级前后都有相同的告警,升级前没有问题,是不是你们新版本软件的原因?”

例子三:还有一种情况,当核心网发现VNF内部微服务有访问慢的情况,怀疑网络中存在丢包、拥塞问题时,反馈到云平台运维,而云平台的运维除了检查一下虚拟机、服务器的告警,再做一些ping测试验证,似乎也没有别的什么办法。

3)未来:5GC三层解耦的阻塞点

与此同时,运营商集团公司还在努力推进5G核心网的三层解耦工作。所谓三层解耦,即5G核心网在硬件层、虚拟层、网元层真正解除厂商耦合、绑定关系,使得5G核心网真正的云化、云原生化。现阶段,移动、联通、电信基本采用两层解耦或者完全不解耦的建设模式。

三层解耦能够为5G核心网带来灵活泛在部署、弹性扩缩容、减少厂商依赖、增强竞争、降本增效等诸多好处,三层解耦一直是运营商非常关注的技术演进工作,但实际推进起来却困难重重,某运营商在经过实际验证之后不得不暂缓推进,三层解耦工作看起来成为一个无法逾越的鸿沟。

为什么会遇到这么大的困难呢?因为完全解耦后,网元层、虚拟层之间的运维界面在厂商之间完全分离,现阶段的运维能力无法做到在网元层、虚拟层之间做快速故障定界,所以与其解耦后在厂商间扯皮,不如暂时妥协由网元层厂家提供自有的云平台。

4)根源

为什么5G核心网的运维和可靠性保障会遇到这么多的难题?我们从技术架构上来分析问题的根源。

首先传统的核心网,它是通过ATCA专用硬件+专用操作系统,提供软硬完全绑定的整体解决方案;而5GC和电信云则是通过通用x86+云技术、容器技术,提供软硬解耦的解决方案。

相比较来说,ATCA专用硬件和专用操作系统,经过多年的迭代和持续优化,稳定性和可靠性可以说非常的高。而通用x86和通用操作系统的稳定性和可靠性相比之下则低了许多,更多的需要依靠云、容器的动态、弹性能力提供相对的可靠性。

除此之外,传统的核心网ATCA网元,在网元内部通过ATCA背板交换,网元之间通过光纤直连或L2/L3层交换,网络拓扑极其的简单,甚至可以在一张A4纸上手绘出一个省的核心网互联拓扑。但5G核心网完全承载在一个Overlay叠加Underlay的网络上,网元内部复杂的微服务通过一个Full-Mesh的网络互联,网元之间的边界不清晰、路径不清晰,网络基本处于“黑盒化”状态。

传统核心网的运维理念是网元网管,即通过对每一个网络中的设备、节点全方位的告警管理、运行状态监测、业务性能监测、日志分析,确保每一个网元的可靠运行。而5G核心网的运维理念仍还是网元网管的理念,即通过VIM、PIM、VNFM来管理好VNF、虚拟机、主机,确保这些逻辑或物理的网元的可靠运行。

在传统核心网中我们只需要确保数量有限的光纤链路的光强、误码率无问题即可高枕无忧,而到了5G核心网,一个AMF内部即有数百、数千个微服务POD通过虚拟网络互联互通,我们还能忽略这一部分网络的存在吗?

5)可观测性理论分析

既然5G核心网的基础设施已经由CT的专用设备演变为IT云平台,那么我们可以用IT领域的方法、理念来分析、讨论、尝试解决5G核心网业务可靠性的问题。

经过多年的发展,可观测性已经成为IT领域解决业务可靠性的重要理论,“可观测性=可靠性”基本成为IT运维的共同认识。所谓的可观测性,简单来说就是如何简单有效的洞察复杂业务系统的内部运行状态。

在可观测性理论中三大支柱说也深入人心,通过Metrics、Traceing、Logging三类数据的采集、分析、观测,实现对业务系统状态洞察、问题洞察。

结合云杉网络在云原生时代的大量运维实践,我们总结出云上业务系统另一个维度的三支柱,即:应用可观测性、网络可观测性、系统可观测性。这三方面的可观测性是实现业务系统全面可观测性的基础,任何一方面的缺失则会导致业务可靠性保障的短板。

应用可观测性:即应用软件运行状态可观察性、可洞察性,我们对应用日志、应用指标、应用追踪的分析可以归为此类。

系统可观测性:即系统运行状态的可观察性,我们计算资源、操作系统的运行指标、运行日志可以划归为系统可观测性。

网络可观测性:可能比较听到的比较少,这里指的是对网络运行质量的可观察性和洞察能力,对网络流量的指标解读、流量日志分析、流量追踪可以归为网络可观测性。在运营商生产网的DPI系统、互联网业务感知系统、流量流向分析系统、全流量回溯系统其实实现的就是网络可观测性。

用新的三大支柱理论来解读5G核心网的运维,我们会发现在核心网运维领域,经过多年的持续技术积累5G核心网通过网元性能、告警、事件、日志、CHR等数据的全面采集、深入分析,基本实现了应用可观测性。

而云平台的VIM、PIM提供的资源监测能力,包括CPU、内存、磁盘、网络接口的持续监测,结合运营商强大的数据综合分析能力,基本也实现了系统的可观测性。

但在网络可观测性上出现了空白,现阶段运营商通过5G信令DPI能力,实现了对VNF网元的SBI口网络流量分析,但VNF内部运行的虚拟网络流量运行情况仍然是一个黑盒状态,可观测性基本为零。

结合我们前面的分析,VNF网元内部复杂的虚拟网络基本是一个动态、弹性、虚拟、Full-Mesh、无处不在、又不知其所在、极其复杂的云网络系统。如果用人体来对照5G核心网,人的骨骼、肌肉、五脏、六腑就如同我们的VNF网元、虚拟机、主机,而云网络就如同人的血液系统、神经系统。由此也不难看出:云网络可观测性对5G核心网可靠性运行的重要性!

What——云网络可观测性实现方法、步骤和关键点

那么进入今天主题,为5G核心网和电信云带来云杉网络DeepFlow这款产品。DeepFlow是一款云原生的,应“云”而生,面向云网络可观测性的产品。

1)DeepFlow云网络可观测性方案

DeepFlow的整体方案由三部分组成:1. 采集器;2. 数据节点;3. 控制器。

采集器具有轻量级、零侵扰、分布式采集计算的特点,以低于主机1%的CPU消耗,实现系统内的全流量数据采集,并且采集器通过目前可观测性领域最火热的eBPF技术实现对进程函数调用、系统函数调用的深度应用采集。采集器兼容支持各类云环境、容器环境的部署、运行。

采集器通过分布式计算,对流量进行请求解析、指标聚合、标签关联、数据压缩,生成结构化的性能指标、调用日志、追踪数据,以不到原始流量1%的带宽消耗将结构化数据汇聚至数据节点进行分析。

数据节点采用云原生、水平扩展的高性能时序数据库,对数据实现快速处理,提供网络性能分析、应用性能分析、链路追踪、应用调用追踪、NAT关联分析等可视化分析能力。同时数据节点支持开放的API接口,通过API接口向第三方平台提供分析数据,实现与运营商现有的综合智能分析平台、网络云工作台、核心网工作台等运维平台的关联分析能力,最大化发挥数据的价值。

控制器支持与20余种云、容器技术栈对接,通过API接口对接实时感知、动态更新云平台资源与网络的实时数据,使得DeepFlow对流量和应用的分析不再局限于IP的视角,从而具备更多的面向云资源、云原生业务的网络可观测性能力、应用可观测性能力。

2)DeepFlow零侵入、零干扰、高性能采集

DeepFlow采集器具有零侵入、零干扰、高性能等特点。

在KVM宿主机环境中,采集器以软探针的形式运行在宿主机的操作系统内、对KVM宿主机操作系统没有任何的Lib依赖,无需任何的配置操作采集器即可获取宿主机内的虚接口流量,实现零干扰、无依赖的采集分析。

在容器环境中,采集器器以DaemonSet POD的形式运行于每一个容器节点内,无需在业务POD内做Sidecar部署,具有零干扰、全自动部署、对业务POD无侵入的特点。

在KVM+容器的环境中,我们可以通过在KVM、容器节点内同时部署采集器,实现对云网络的全栈采集。

采集器还具有极轻量级的特点,仅需消耗1%的CPU资源,不到1%的网络带宽资源即可实现全流量的采集分析。同时采集器还具有良好的兼容性,适配20余个云、容器技术栈。

3)DeepFlow网络+应用全量采集

DeepFlow采集器,可以实现任意一次业务访问从客户端进程到服务端进程的全路径的深度采集,实现全栈的可观测性数据的获取。

采集器能够在进程中获取业务监控数据,比如交易ID、用户ID、车机ID;在进程中获取应用函数调用数据;在系统中获取系统函数调用;在虚拟网卡、虚拟交换中获取流量网络层、传输层、应用层数据。

也就是说,通过DeepFlow采集器的采集能力,任意一次业务访问从客户端到服务端,进程内的关键函数处理、操作系统内的关键函数处理、虚拟交换中的每一次流量流转均能够被采集、观测

采集器的全面采集能力,通过eBPF和BPF技术来实现,具有无需插码、打桩等操作,也就是说对于5GC厂商的软件代码没有任何的侵入性,也无需5GC厂商在软件开发过程中做任何的采集接口的预留。同时具有编程语言无感知的特性,无论是C、C++、Java、Go,均可以实现无依赖的数据获取能力。

对5G核心网来说,通过DeepFlow的采集器技术,不再依赖5GC开发厂商的日志输出能力、指标输出能力、用户追踪数据输出能力,实现网络+应用的全面可观测性。

4)DeepFlow宏观至微观多维度分析

通过DeepFlow的采集能力,可以得到全网的网络和应用数据,再借助DeepFlow的强大的数据分析能力,可以对5G核心网网元、云平台从宏观到微观,不同层次,不同维度的观测。

比如,云平台运维人员,可以从全网宿主机的视图观测云资源池宿主机之间的流量互访拓扑、业务访问性能;可以从单网元的宿主机观测视图,来监测某个网元(比如AMF或SMF)的VNF软件内部的微服务/模块在宿主机上的分布情况,在宿主机之间的互访拓扑、互访性能,快速发现宿主机维度的异常情况。

比如,核心网运维人员,通过VNF网元的维度,来监测全网VNF网元SBI口的业务互访关系和业务互访性能;通过VNF网元内部的微服务POD维度,观测VNF网元内部细微到POD粒度的互访关系、互访性能;通过POD到POD的网络全栈链路追踪,观测任意一次客户端到服务端的在云网络中的流量流转路径。

5)DeepFlow跨层网络全栈链路追踪

DeepFlow的网络全栈链路追踪,是解决5G核心网、云平台之间快速跨层故障定界的关键能力。

首先通过在容器节点内部署采集器获取容器POD、容器Node接口流量,在宿主机内部署采集器获取宿主机接口流量,在物理网关部署通过分光镜像采集物理网络流量。

再通过数据节点的跨层流量学习关联能力,将任意一次客户端向服务端请求访问的流量,在POD接口、Node接口、宿主机接口、物理网关等位置的指标智能关联分析。

对于5G核心网、电信云平台的运维人员来说,目前最头痛事情就是故障的跨层定界,通过DeepFlow的跨层的网络全栈链路追踪,我们可以非常迅速的确定某一次业务访问是否有丢包、时延问题,并快速的确定丢包发生位置、时延发生位置,从而在云平台和软件层之间做快速的定界、定位。

6)DeepFlow应用端到端追踪

除了网络的全栈链路追踪,DeepFlow对每一次业务访问的应用层实现了应用+网络的端到端追踪。

通过系统检索、分析、追踪任意一次访问“从客户端进程——>服务1进程——>服务2进程——>……——>服务n”的端到端服务调用关系,每一段服务调用的时延、异常均实现了关联分析,每一段服务调用的流量在云网络中的关键路径及关键路径的时延指标均实现了关联分析。

从上可以看出,DeepFlow实现了应用可观测性、网络可观测性的统一,而且这种可观测性深入细致到每一次业务访问粒度。

How——实战:消除5GC、电信云的运维痛点

那么在实践中,是如何通过云网络可观测性在运维中补齐短板,解决运维中的问题的呢?下面我用几个实际案例进行说明。

1)5GC+电信云部署方案

这是我们在某省运营商的云资源池中通过DeepFlow对5G核心网所在的云网络进行可观测性分析的部署案例。

通过采集器实现了容器、KVM环境的数据采集和数据上报,通过控制器集群与云管平台的对接,实时感知云网络资源信息,通过数据节点集群对云网络进行智能化可观测性分析。最终向云平台的运维人员提供云网络的拓扑可视化、云网络质量主动监测、指标排名分析、故障快速定界、故障快速定位、流量日志检索等运维能力,极大的提升了云平台面向业务的保障能力。

在该资源池中,通过DeepFlow打开了“网络黑盒”,实现不同层次、不同维度的拓扑可视化及性能指标智能分析;建立了跨硬件层、虚拟层、网元层的统一可视化监控运维能力,降低各技术专业运维难度;通过跨层的可视化能力,解决故障快速定界、定责的难题,快速定位故障源,提升解决时效;有效解决了网元运维、云平台运维的协同难题。

2)跨层网络全栈链路追踪——丢包、时延问题快速故障定界

一个对Free5GC环境进行网络可观测性覆盖的经典案例,通过这个案例,可以看到DeepFlow在解决5G核心网运行中的丢包问题、时延问题的快速跨层定界、定位能力。

在这套Free5GC环境中,我们在虚拟接口引入500ms的时延,通过DeepFlow平台,我们可以在VNF的视图中快速观测到AMF->AUSF、AUSF->UDM链路之间出现故障告警,而告警的指标是应用层的HTTP响应时延异常。

通过两条链路的访问关系,可以快速推知AUSF->UDM之间的链路是问题所在,对这一条链路的全链链路追踪分析,可以在拓扑中一键发现,HTTP时延过高的同时,TCP建连时延也存在同样的问题,而且时延陡增陡降发生的位置在服务端(也就是UDM)的容器节点、宿主机出接口之间vSwtich上,基本上秒级界定出问题是由于云平台的虚拟网络异常导致。

从以上定位过程可以发现,通过DeepFlow可以快速发现网元微服务内的异常征兆,秒级、分钟级界定出时延问题、丢包问题在网元软件层和云平台之间的故障界面,秒级、分钟级锁定问题的具体位置。

再对以上案例的故障定位过程深入思考,可以发现如果没有云网络可观测性,仅依靠应用的可观测性,虽然可以发现应用层的响应慢或丢包,但无法界定响应慢或丢包的原因和故障界面。

3)宏观至微观多维度分析——快速洞察网络异常

在这个故障案例中,DeepFlow平台通过三步操作,快速发现了5G核心网中PCF网元的网络异常。

首先,从宏观角度监测VNF网元的TCP建连指标,发现PCF的内部TCP建连指标异常。然后,运维人员一键钻取到PCF内部的POD指标分析,快速发现是PCF的vha POD出现了异常。最后,通过一键检索问题POD的流日志,确定是服务端的POD端口配置存在异常。

通过这个案例我们可以看到,DeepFlow平台的云网络可观测性,可以快速发现、快速锁定5G核心网VNF网元的内部网络问题,为网元的可靠运行发挥重要的作用。

4)宏观至微观多维度分析——快速洞察应用异常

在同一个环境中,DeepFlow平台通过从宏观到微观的三步操作,快速发现了PCF网元的应用异常。

首先,通过对VNF网元的DNS指标监测,从宏观角度发现PCF的内部DNS响应异常指标过高;然后,一键钻取到PCF内部的POD维度,分析DNS响应异常指标,快速发现是PCF的cse-etcd出现了异常;最后,通过一键检索问题POD的DNS日志,确定是服务端的DNS数据存在异常。

通过这个案例我们可以看到,DeepFlow平台的云网络可观测性不仅是解决网络的可靠性问题,更重要的是从流量的视角实现应用的可观测性,解决应用的可靠性问题。

5)SRE实践——从应用至网络,多层次SLI/SLO主动监测

借助于DeepFlow在网络、应用的可观测能力,还可以通过构建SLI/SLO指标体系,在5G核心网和电信云进行SRE的运维实践。

在这里面我们可以分别构建面向网络、系统、应用的不同的SLI指标,面向不同的监测对象制订不同的SLO,从而更加贴合5G核心网业务场景的指标监测体系。

比如我们面向云平台运维构建宿主机、虚拟机、VNF、关键微服务、关键链路、VNF SBI接口的网络层指标监测体系,监测不同对象的吞吐、TCP重传、TCP零窗、TCP时延(RTT),云平台的运维工作可以直接面向云上5GC业务,改变了在此之前只能面向于宿主机、虚拟机等云资源的工作局面。

比如我们面向核心网构建VNF、关键微服务、关键链路、VNF SBI接口的应用指标监测体系,监测不同对象的应用请求数、应用异常比例、应用时延。当然SRE的深入实践,需要不断的在运维团队中讨论、更新、验证、复盘,最终建立适合不同运维团队、不同对象的SLI/SLO指标体系。

DeepFlow平台同时提供了灵活的视图定制能力,运维团队可以灵活的按需定制5G核心网和电信云平台各类监控对象、各类监控指标的监控自动化驾驶舱。

同时在定制视图中,运维人员还可以通过机器学习算法、统计学习算法等人工智能算法为监测指标学习智能动态阈值基线,从而实现更智能的主动监测能力。

6)总结

这次的直播分享也逐渐接近了尾声,那么我们再次回顾、总结今天的分享内容。

首先,由于5G核心网的重要性,运维保障面临着巨大的压力和挑战。其次由于5G核心网所运行的基础设施大量应用了IT的云、容器技术,网元网管的运维理念在新的技术架构下有诸多的短板和空白。用IT领域的可观测性理论解读,我们会发现云网络的可观测性是拉通5G核心网、云平台运维的有效方法,也是5G核心网及云平台运维的必要手段,也是未来5G核心网三层解耦技术演进的必要条件。

而DeepFlow通过多种技术的全面实现了与网络的可观测性,这里包括:

  • 零依赖、无侵入、极轻量级的可观测性数据采集
  • 智能、灵活、多维度可视化分析
  • 网络全栈链路追踪、应用+网络端到端追踪
  • 跨层故障定界、定位,主动指标监测

最后期待着5G运维保障的相关技术能够继续向前迈进,为社会提供更高可靠、更高稳定的服务,也期待着云杉网络在可观测性领域的领先技术能够为5G的运行保障贡献一份力量。

预约第七期云原生可观测性分享会