云原生可观测性解决方案 助力民生银行 IT 系统安全运维

云杉 世纪

2024年1月29日

产品资讯

随着云原生技术的高速发展,民生银行正在积极推动 IT 基础设施和应用系统的云化运营模式,全面实施云数据中心转型,并提升云化服务能力。通过快速推进核心业务的云原生架构改造,提高了业务的灵活性、可伸缩性和可靠性。然而,从传统网络转变为云原生网络后,由于业务高频迭代、微服务拆分、基础设施虚拟化等因素,传统运维模式所暴露出的低效和盲点问题日益增多,为故障的定界和排障带来了显著瓶颈;由于其分布式和复杂多变的特征,包括大规模的监控数据管理、数据收集和数据分析的复杂性,以及快速增多的日志和指标的处理等,造成传统网络下的流量监控方案将不再适用。


民生银行传统网络转变为云原生网络后面临的挑战

为了解决这个问题,民生银行决定在云原生环境下布局可观测性建设,全面提升业务的数据监控和分析能力,实现应用的可观测性。通过这种方式,民生银行将能够更好地监控和分析业务数据,及早发现和解决潜在问题,提高业务的稳定性和可靠性。

可观测性可以提供实时监控和分析的能力,帮助实现快速排障、性能优化和安全监控,确保应用程序的稳定性和安全性。云原生环境下可观测性能力的重要性和必要性得到了业界的一致认可,2023 年更是入选了 Gartner 发布的企业机构需要探索的十大战略技术趋势之一。在传统环境业务模式下,交换机旁路/分光镜像和流量分析技术可以实现网络及交易监控能力,利用代码插桩可以实现应用监控能力。民生银行结合自身业务特点,在可观测性能力的建设过程中采用了 eBPF 技术,结合创新的流量分析技术,搭建了零侵扰、全栈覆盖的云原生应用可观测性数据平台。利用全景服务拓扑功能,实时监控和分析微服务及基础设施的性能和健康状况;利用全栈分布式追踪功能,快速定位云原生应用和基础设施的性能瓶颈,精细至每一次 API 调用。得益于 eBPF 的技术特点,无需修改任何服务的代码、无需改变任何服务的启动参数、无需重启任何服务进程,极大地简化了可观测性数据平台的落地复杂度。

民生银行的云原生可观测性解决方案,以全栈采集、流量分发、分布式追踪、高性能处理、可编程协议解析、易于维护为目标,实现了面向云原生应用的从宏观到微观,多维度、多级的全景分析能力,再结合行内的自动化平台、自服务平台,为应用部门、系统部门、网络部门等多个部门提供云原生场景下的故障监测、定界定位、操作保障、资源池运营四大运维场景的能力,并对用户实现场景化自服务输出。

全栈采集:基于 eBPF 技术实现的 AutoMetrics 机制,可以自动采集任何应用的 RED(Request、Error、Delay)性能指标,精细至每一次应用调用,覆盖从应用到基础设施的所有软件技术栈;在云原生环境中,AutoTagging 机制自动发现服务、实例、API的属性信息,自动为每个观测数据注入丰富的标签,从而消除数据孤岛,并释放数据的下钻能力。

流量分发:使用 BPF 技术实现云原生环境内部容器 Pod 东西向流量的抓取和监控;通过 Vxlan 或 Erspan 隧道技术,将捕获的流量按需分发至统一的流量汇聚平台,实现对网络监控、交易监控、安全监控等各大运维平台的数据源输出。

分布式追踪:使用 eBPF 技术创新地实现了零插桩的分布式追踪能力,在云原生环境中自动追踪任意微服务、基础设施服务的分布式调用链,快速定位每一次 API 调用的性能瓶颈和故障根因。

高性能处理:Agent 使用 Rust 实现,拥有极致处理性能的同时,保证内存安全;Server 使用 Golang 实现,并重写了 Golang 的 map、pool 基础库,数据查询和内存申请均有近 10 倍的性能提升。

可编程协议解析:目前支持了对 HTTP、HTTPS、Dubbo、gRPC、ProtobufRPC、SOFARPC、MySQL、PostgreSQL、Redis、Kafka、MQTT、DNS 协议的解析,并将保持迭代增加更多的应用协议支持;除此之外,计划基于 Wasm 技术提供可编程接口,让应用开发者可以快速具备对私有协议的解析能力,并可用于构建特定场景的业务分析能力,例如交易分析等。

易于维护:仅由 Server、Agent 两个组件构成,将复杂度隐藏在进程内部,将维护难度降低至极致;Server 集群可对多资源池、异构资源池、跨 Region/AZ 资源池中的 Agent 进行统一管理,且无需依赖任何外部组件即可实现水平扩展与负载均衡。

通过使用 eBPF 技术的可观测性解决方案,民生银行在建设投产后,立刻取得了显著的实践成果,及时发现了运行风险和隐患,极大提升了运维排障的效率,主要体现在以下几个方面。

主动预警能力:得益于 eBPF 的零侵扰特性,可以高效采集所有微服务的应用性能黄金指标;无需各个业务部门的复杂配合,部署 eBPF Agent 之后即可实现对所有行内自研服务、依赖的第三方服务、云原生基础设施服务的统一覆盖,从而构建行内标准化的指标体系;在此之上,指标体系的构建有助于告警能力的统一建设,从而实现业务的主动预警。

全栈路径追踪能力:使用 BPF、eBPF 技术零插码即可自动追踪微服务在云原生基础设施全路径中的逐跳性能指标,分析每一跳之间的应用和网络状态,从而快速定位性能瓶颈。

快速故障定界案例:oms-web 微服务的某次调用时延长达 3.04 s,使用基于 eBPF 的零插桩分布式追踪能力,自动关联多次 API 调用之间的关系,1 min内定位到性能瓶颈出现在 oms-app 微服务中。

快速根因定位案例:DP 业务经常出现服务端异常报错,业务人员只知报错码是“502”,但始终无法知道报错原因;使用基于 eBPF 的零插桩分布式追踪能力,自动关联多次 API 调用之间的关系,1 min定位“502”异常的根因是服务端请求 DNS 异常导致的。

Related Posts

根因分析假 running 真故障 记一次电力行业的 SRE 实践

云杉 世纪

2024年3月8日

产品资讯

用户:某省级电网企业 挑战 定界困难:当发生故障,业务部门和网络部门互相推诿,而不是解决问题; 监控颗粒度不足 […]

Read More

云杉网络 DeepFlow 联合 OpenCloudOS 完成技术兼容互认证

云杉 世纪

2024年3月6日

产品资讯

北京云杉世纪网络科技有限公司(以下简称:云杉网络)的云原生可观测性产品 DeepFlow 与 OpenClou […]

Read More