云杉网络DeepFlow基于Free5GC的方案示例

据GSMA预测,2018年到2025年之间,全球运营商将在5G网络建设上投资高达1万亿美元。随着运营商网络基于NFV/SDN的云化、网络切片、MEC(边缘计算)、服务化架构等技术的引入,5G时代的运营商网络监控运维也将面临前所未有的挑战。北京云杉世纪网络科技有限公司(以下简称:云杉网络)旗下的DeepFlow 5GC面向5G核心网,针对网络功能NF分拆解耦后的新挑战,基于对服务NFS间的通信访问流量进行获取分析,以保障核心网稳定运行;方案主要由采集器、控制器、数据节点三部分组成。

DeepFlow 5GC组件
5G核心网网络流量获取及预处理

在5G核心网环境中,获取功能服务NFS间访问调用所涉及的网络流日志、数据包并非易事。DeepFlow采集器基于分布式架构,实现对各类型资源池以及物理网络的流量采集及预处理抽象层。

5GC环境中的DeepFlow采集器

图:5GC环境中的DeepFlow采集器

如上图,各类型号的DeepFlow采集器为5GC运维保障提供基础流量捕获能力,支持物理网络、KVM、ESXi、容器等资源池网络环境,采集器分布式部署,在计算节点对数据包进行过滤、去重、压缩、标记等本地化处理,从而避免单点性能瓶颈。通常5GC流量捕获涉及到KVM虚拟机与容器POD的网络流量获取,其实现原理如下图所示。

5GC环境网络流量获取

图:5GC环境网络流量获取

监控保障框架同样需要弹性可扩展,通过采集抽象层,实现流量获取与后端数据分析实现解耦。流量获取侧主要避免对生产环境的侵入和额外的配置,在DeepFlow方案中,采集器以独立进程形式存在,部署在KVM Hypervisor系统或者容器POD上,无需对vSwitch增加镜像策略以及更改系统配置。此外,采集器的工作运行是在预先指定的CPU、内存等资源范围内,确保不影响生产环境。

5GC网络功能服务监控平台的控制中枢

在5G核心网体系中通常有云、管、边、端的概念,边缘云可快速响应处理用户侧请求,减小时延;中心云集中部署管理面和控制面,集中统一进行管理控制。中心云、边缘云涉及多数据中心、多资源池且分布在不同地区,监控保障平台控制面需要解决所面临的多点、多地问题。

控制器是整个DeepFlow平台的控制中枢,负责对平台的管理控制平面的扩展,分为主控制器、备控制器、从控制器,可按照部署要求进行选择,为平台提供统一的控制接入点。单一控制器最大支持控制管理2000个采集点,控制器集群可扩展至50台主、备、从控制器,管理10万级采集器能力。

在多点的部署环境中,首先指定主区域(Region),主控制器存在于主区域中,当启动主控制器高可用功能,主区域内应部署多台控制器,通过心跳保证控制器间的状态同步,及时启动主、备控制器选举。选举产生主控制器后,为整体流量管理平台提供控制入口。除主区域外的其他区域控制器为从控制器,不参与主控制器选举。

在区域中可以划分多个可用区(AZ,Available Zone),通常以可用区为单元,由单一控制器独立控制可用区内的各类型采集器,对本地采集器进行采集策略、分发策略、预处理策略下发。多区域间可通过专线网络进行控制通信,主要包括管理、策略等通信。

支持水平扩展的高性能网络时序数据库

5GC中网络功能服务NFS间的调用流量是典型的时间序列数据,同时具备相应的网络特性。DeepFlow数据节点由可水平扩展的高性能网络时序数据库组成,满足服务调用链监控追踪要求,需要具备对所存储的网络指标数据进行分组聚合,提供高性能查询能力,展示访问调用性能趋势、规律、延时、异常等。

  • 写入特征:由于网络通信的端到端特性,一个万台服务器的环境中产生的系统监控数据每秒写入量级为 O(N),但每秒产生的网络数据取决于相互通信的服务器数量,极端情况下可能达到 O(N^2)。若将通信时的协议、端口号也进行记录,还会导致监控数据对象进一步升高,因此用于记录网络监控数据的时序数据库所需具备的首要特性是亿级别数据对象的支持能力,此外,云环境中所固有的弹性也要求时序数据库需要支持弹性伸缩。
  • 查询特征:除了常规的查询某个IP地址以外,对5G核心网网络功能服务监控还要求能从各种维度进行查询,这需要对监控数据添加不同维度的属性。例如资源池维度的区域、可用区,虚拟化维度的宿主机、虚拟机,容器维度的节点、POD、Service、命名空间、资源组等。在动态性强的服务调用过程中,也要求运维排障不能再依靠总量、峰值、均值等简单的统计数据,时序数据库应当提供更丰富的指标量计算能力,如中值、概率分布、信息熵、方差等。
基于Free5GC的示例

Free5GC是5G核心网开源软件项目,总体架构基于3GPP标准、遵循SBA框架,采用虚拟化方式实现网络功能,可运行5G核心网的标准服务,并且可以模拟相应工作流程。本示例环境采用虚拟机运行容器、创建Kubernetes集群、搭建5G核心网验证环境,使能各网络功能。部署DeepFlow平台监控网络功能服务(NFS)运行全景以及服务调用性能,展示全栈跟踪能力。

DeepFlow 5GC的全栈能力
Free5GC界面
在Free5GC环境中我们首先模拟一个用户注册,接下来DeepFlow可以快速展示各类型网络功能服务运行及调用全景视图,将服务接口(SBI,service-based interface)中的网络各功能间调用通信,以及性能指标进行自动绘制并呈现。
功能服务全景图
在实际运行场景,配置DeepFlow平台,关注服务间重点指标,包括网络层(吞吐、载荷),传输层(并发连接、TCP建连时延、TCP系统时延,TCP重传、建连失败)应用层(HTTP请求、HTTP时延、HTTP异常),绘制访问调用关系全景视图后,在知识图谱功能支持下,可以迅速关联列举相应的知识维度。
全景图性能阈值设置
如果设置指标阈值,比如关注传输层TCP建连时延,设置阈值为1毫秒,可以及时分析出延时热点。在图示例场景中,可以看到AMF网络功能与其他服务间的建连时延较大,并且集中。展开全栈跟踪视图,获取宿主机侧、虚拟机侧以及容器侧的延时瓶颈点。
功能服务全栈跟踪
以上Free5GC示例运行在实验室环境,模拟运行了相应的测试用例,实际生产场景较实验室更加环境复杂且规模巨大,势必对运维保障提出更高要求。经过实际环境测试验证,DeepFlow平台也确实能为5G核心网填补保障空白。

全自动绘制网络知识图谱

5G核心网中,网络功能是性能监控保障的核心,整个核心网通过虚拟化以及服务化后,除关注各类型的网络功能外,还涉及各云、容器等不同维度。绘制一张多维度的知识图谱是服务监控的核心能力,通过关键实例快速查询关联信息。如下图,基于服务化的5G核心网架构中,包含各类型网络功能以及用户设备(UE,User Equipment),无线接入网络(RAN,Radio Access Network),数据网络(DN,Data Network)。

基于服务化架构的5G核心网

在核心网中的主要网络功能,主要有:

应用功能(AF,Application Function)
接入和移动管理功能(AMF, Access and Mobility Management Function)
认证服务功能(AUSF,Authentication Server Function)
网络开放功能(NEF,Network Exposure Function)
网络存储库功能(NRF,Network Repository Function)
网络切片选择功能(NSSF,Network Slice Selection Function)
控制策略功能(PCF,Policy Control Function)
会话管理功能(SMF,Session Management Function)
统一数据管理功能(UDM,Unified Data Management)
用户平面功能(UPF,User Plane Function)

网络功能通过容器POD或虚拟机承载实现,在生产运行过程中,网络功能与拆分后的服务实例其属性涉及多个维度,DeepFlow®平台通过对云平台(如Openstack)、容器平台(如Kubernetes)进行API对接,主动学习环境中的相关信息,包括:

资源池:区域(Region)、可用区(AZ,Available Zone)、平台
虚拟化:宿主机(Host)、虚拟机(VM,Virtual Machine)、路由器、安全组、NAT网关、负载均衡器、RDS、Redis等
容器:容器集群、命名空间、容器节点(Node)、容器Pod、Ingress、容器服务(Service)、工作负载、ReplicaSet
应用相关:网络功能,资源组
网络:IP、VPC(Virtual Private Cloud)、子网
知识图谱
在“知识图谱”功能中,可以针对关注及圈定的实例,快速跳转、关联相关维度的实例及详细信息。如下图示例中,在众多网络功能中,当需要确定延时热点AMF功能所关联的多维度信息,定位其区域、集群、节点等。反之,也提供快速关联属于统一集群、节点等的服务、POD、IP等信息。知识图谱是DeepFlow平台实现更丰富的监控保障功能,提供信息管理、跟踪跳转的核心能力。
5GC网络知识图谱示例
以上是DeepFlow 5GC方案中基于Free5GC的简单示例。在运营商现网中的环境往往更为复杂,监控保障侧既要做到全面、实时、精准的数据处理和展示,又要在监控覆盖规模上具备灵活性和弹性,需要各方在推进方案落地过程中不断探索。

关于DeepFlow

DeepFlow是北京云杉世纪网络科技有限公司(简称云杉网络)推出的一款云网络流量采集、可视化与分析产品。DeepFlow软件基于x86集群和通用网络设备,支持集群部署,支持容器(Kubernetes)、OpenStack、vSphere虚拟化环境和AWS、阿里云、腾讯云等各类云环境,帮助企业在混合云环境中统一采集并分发任意工作负载之间的网络流量,实现对云端业务全链路的性能监控和多维度的可观测性。凭借领先一代的技术优势和完整的产品解决方案,DeepFlow已在50多家世界500强企业落地部署,不断为客户提供云网络治理的最佳实践。

Related Posts

大会预告|云杉网络邀你一起参加GOPS全球运维大会

SDN in China

2022年8月17日

技术干货

第十八届 GOPS 全球运维大会将于2022年8月19日至8月20日在深圳召开。大会将为期2天,侧重方向是 DevOps、AIOps、DevSecOps、云原生、效能度量等技术领域。云杉网络受邀参会,并在“可观测性技术实践专场”分享主题演讲。

Read More

「直播回看」DeepFlow——开启高度自动化的可观测性新时代

我们相信DeepFlow 是送给新时代开发人员、运维人员的一份礼物。我们希望开发人员能有更多的时间聚焦在业务上,将可观测性更多的交给自动化的 DeepFlow,让自己的代码更清晰整洁。

Read More