海通证券 DeepFlow 混合云网络流量分析平台

云杉 世纪

2024年3月22日

云杉动态

海通证券主要业务已经基本实现了云化迁移工作,大型分布式业务部署于OpenStack、VMware、容器等混合云架构之上,在业务扩展性、动态性、便捷性上得到更加有力的基础资源支撑,但是对于云网运维及云上业务保障给海通证券运维人员提出了新的挑战,主要体现在:
1.缺少云资源池网络流量可视化能力
缺乏多云资源池内网络流量数据包的采集手段,使得云内资源、业务运行处在黑盒状态,缺少云资源池网络流量可视化能力。
2.不能满足复杂网络环境中的运维排障需求
云网络环境复杂度高,网络架构中的物理网络、虚拟网络以及容器网络、租户内的各类逻辑网络缺乏统一监控及运维视角,不能满足实际的运维要求。
依靠传统网络NPM监控方法,可以针对主要网络链路或节点进行流量分析,但涉及云内复杂的通信场景,甚至包含多层云内的NAT、LB规则情况下则不能进行详细的问题分析诊断。
3.缺乏面向业务网络的监控分析能力
在云内业务动态性高,覆盖范围广,业务覆盖的资源范围可能实时动态伸缩,无法动态获知复杂的业务流量拓扑访问调用关系。
无法针对于关键业务进行例如访问时延、丢包、异常等网络及应用指标分析,使得精准的业务保障成为难题。
4.缺乏故障问题取证/举证能力
关键业务系统访问出现故障,无法明确区分是物理网络原因,还是虚拟网络原因或是应用本身所造成,不能快速定位故障源,也不能对历史虚拟网络故障提供责任举证。
解决方案
DeepFlow 面向混合云、容器、微服务的全栈虚拟化环境,解决云原生应用诊断难的核心痛点。基于自主研发的零侵扰采集和高性能实时数仓等创新技术,实现对网络、系统、应用的全栈指标采集和全链路追踪,并结合云资源知识图谱实现100+维度指标数据的动态标注,构建多维度、一体化的可观测性平台。
在海通证券建设的混合云网络流量分析平台的主要技术方案要素包含如下六大方面:
一、先进的流量采集手段
提供面向多元异构混合云资源池零侵扰、高性能的流量采集手段;
采集端具备本地处理分析和指标计算和发送能力;
具备多资源池 agent 统一管理控制能力。
具备一处采集,多处分发能力。
二、贴合云网络的多维度网络性能指标可视化
平台支持通过与云平台进行对接,同步云资源池内资源及网络信息后既可按照云资源池维度(包括:资源池、可用区、宿主机、虚拟机;容器节点、命名空间、工作负载、POD;VPC、子网、IP地址)展示各类资源维度网络及应用链路流量拓扑及详细性能指标视图。
三、全栈全链路网络诊断及指标分析
能够发现并追踪网络交互流的流向,自动化梳理全链路访问关系,在统一的监控视图上分析物理-虚拟-容器网络路径,直观拆解网络路径内性能指标,判断复杂环境中故障问题点。
通过云及容器网络中交互数据包采集计算的网络及应用监控指标包括:网络吞吐、并发、TCP 建连时延、系统时延、应用时延、丢包、重传、零窗、建连失败等70余种。
四、全自动业务网络性能分析
基于业务视角,动态获知复杂的业务流量拓扑访问调用关系,针对关键业务进行例如访问时延、丢包、异常等网络及应用指标分析。
五、云资源池及分布式业务网络 SLI/SLO 评估
以全量网络性能指标为数据基础,以实际业务表现及基线指标作为 SLO 目标,打造云资源池网络及云内业务的可用性服务体系。
六、全局网络及业务性能预警感知
能够动态感知业务网络变化,资源变更情况,结合多资源池一体化的网络性能指标分析,提供各类性能指标阈值告警、基线告警能力,在业务报障之前进行异常指标和状态告警。
实现价值与效果
DeepFlow 可观测性平台帮助海通证券在云网络精细化运维、云上业务全方位保障、资源池及业务量化评估、资源管理辅助决策等方面实现了重要的阶段性建设成果,大幅提升了云团队的运维及运营效率。
(1)补全云网络及业务层监控空白
在已有云资源层面的监控基础上,实现多云异构混合云资源池云上业务交互、上层数据包分析的监控,提供从底层资源到上层业务网络的全方位定界定位与性能保障。大幅提升排障效率,节约运维成本,减少故障损失。
(2)打造云资源池网络 SLI/SLO 体系
在制定云资源池业务网络性能 SLI 体系过程中,以 DeepFlow 的全量网络性能指标为数据基础,以实际业务表现及基线指标作为 SLO 目标,逐步打造成熟的云资源池网络及云内业务的可用性服务体系。
(3)全链路端到端能力建设
针对海通证券大型分布式业务场景面临的全周期支撑需求提供横、纵多维度交叉运维能力,打破传统的专业节点运维信息孤岛,形成可视化、跨层级、多视角的业务链运维管理能力。
(4)运营数据支撑
覆盖全局资源池的数据沉淀,积累实际的运行生产数据,指导容量预测,服务质量评估,性能洼地,资源调度等。纳入整体运营数据后,主要体现在优化运营,支撑决策后带来的整体收益。
经验总结
在海通证券建设的云网络流量分析平台上,主要监控覆盖的异构云资源池为 OpenStack、VMware、容器云、裸金属资源池,实现多个数据中心、多个资源池网络流量统一采集、统一分析、统一管理和统一展示。
更重要的是需要建设异构云资源池网络分析全景视图,通过真实网络交互数据包,发现并追踪网络交互流的流向,自动化梳理全链路逻辑访问关系、资源与网络流量映射关系并可视化呈现。展示跨资源池网络访问流量交互视图,并能够向下钻取,进行详细性能及异常分析。通过长期数据的积累,基线化全网质量指标,产生预警提示,提高故障风险应对时效性。

Related Posts

云杉网络 DeepFlow 联合 TDSQL 完成技术兼容互认证

近日,北京云杉世纪网络科技有限公司(以下简称:云杉网络)的云原生可观测性产品 DeepFlow&nb […]

Read More

浅谈云原生可观测性生态的优化和丰富

云杉 世纪

2024年4月5日

云杉动态

云原生可观测数据中的时序数据 Metrics,在业务高基数、持久化存储、乱序写入、多租户隔离等场景下,对后端时 […]

Read More