DeepFlow面向电力营销2.0系统全链路可观测创新实践

1. 导语

导语: 在数字化时代,电网行业正迈向智能化和信息化的新篇章。电力营销2.0系统作为国网电力的核心业务平台,其性能与稳定性直接关系到企业运营效率与客户满意度。云杉网络公司致力于为电网提供先进的可观测性解决方案,为了提升营销2.0系统的整体可观测性和全链路监控能力,通过eBPF+Wasm创新技术实践助力国网电力营销2.0业务系统全栈观测能力。本文将详细介绍 DeepFlow如何运用创新全链路观测技术,从业务全链路视角、系统服务全链路视角为电网行业带来全面的业务洞察和优化体验。

2. 背景介绍

2.1 国网电力营销2.0系统的重要性

国家电网作为支撑国家经济发展和民生改善的重要基础设施,肩负着为全社会提供安全、可靠、清洁电力的重任。在新能源快速发展、电网运行复杂度不断提高的背景下,国家电网亟需通过数字化转型,提升电网运行的智能化水平,推动能源清洁低碳发展,更好地服务经济社会发展大局。

其中营销2.0是一个涵盖营销全量营销数字化管理的应用系统,营销2.0系统作为国网公司数字化转型的重要载体和关键抓手,在推动电力营销与服务模式变革、提升供电服务水平、促进能源低碳转型等方面发挥着不可或缺的作用。该系统采用先进的微服务架构和云平台技术,打造了全场景、全业务、全客户的一体化智慧营销服务平台,有效支撑了电力市场化交易、综合能源服务、新能源并网消纳等业务创新发展。

营销2.0的建设和应用,对于提升国家电网市场竞争力、优化电力资源配置、保障电网安全经济运行、服务国家能源转型和“双碳”目标落地都具有十分重要的意义,是国家电网实现高质量发展、建设具有全球竞争力的世界一流能源互联网企业的关键一步。

2.2 营销2.0系统的架构和发展

国网电力营销系统伴随着时代的发展,经历了从1.0到2.0的重大升级换代,实现了从传统架构向现代架构的华丽蜕变。在1.0时期,营销系统采用了集中式架构和垂直烟囱式的建设模式。这种架构在当时能够满足基本的业务需求,但随着服务渠道的多元化、业务类型的创新以及数字化浪潮的来袭,传统架构逐渐暴露出扩展性差、数据共享难、业务协同弱等短板。为顺应数字变革的大势,满足客户需求,国家电网开启了营销2.0时代的崭新篇章。2.0系统以客户为中心,以市场为导向,以数字化、网络化、智能化为引领,在架构设计和技术应用上实现了革命性的突破。

营销2.0在架构设计上进行了全面革新,以“云化、服务化、中台化”为总体技术方向,采用先进的云平台、微服务架构和中台战略,构建起灵活开放、弹性扩展的数字化营销服务平台。营销2.0充分利用云计算的资源弹性、服务虚拟化等优势,实现系统基础设施的云化部署和管理,提供高可用、高性能的运行环境,有效支撑业务高并发、海量数据处理等挑战。

微服务架构是营销2.0的核心特征。系统打破传统的单体应用模式,将业务功能解耦拆分为一个个独立部署、松耦合的微服务单元,极大地提高了系统的敏捷性和高可靠性,具备很强的故障隔离和水平伸缩能力。

在中台理念指导下,营销2.0基于全网统一的数据模型,构建了业务中台和数据中台。业务中台沉淀营销业务核心能力,打通业务链条,实现业务逻辑和流程的复用共享,促进业务协同贯通;数据中台汇聚各渠道数据,统一数据资产管理和服务,为数据分析、智能应用提供丰富的数据支撑。营销2.0广泛应用大数据、人工智能、物联网、移动互联等新技术,搭建起全渠道、全场景、全流程的智慧营销服务体系,为客户提供线上线下一体化的无缝体验,推动传统电力营销向智慧化服务模式转型。

3. 营销2.0系统面临的可观测性挑战

随着营销2.0的不断发展和应用深化,系统在支撑业务创新、提升服务能力的同时,其日益复杂的架构和海量的数据规模,也给系统的可观测性带来了新的挑战。具体有如下几个方面:

  1. 业务复杂度高,全链路追踪难
    营销2.0融合了市场营销、业扩报装、计量抄核、电费结算、客户服务等全链条业务,业务逻辑复杂,流程环节多。在分布式微服务架构下,一次业务请求会跨越多个微服务和中间件,导致业务全链路追踪和故障定位难度大,难以快速发现和定位性能瓶颈,影响故障处理效率。
  2. 系统调用频繁,性能诊断难
    营销业务具有高并发、大流量、多服务协同等特点, 系统内部服务间调用频繁。传统的监控手段难以精细全链路追踪服务间调用的性能,无法及时发现潜在的性能问题。同时,海量调用数据也给性能分析和优化带来挑战。
  3. 故障影响范围广,故障研判难
    微服务架构下,营销系统内部服务高度解耦,服务间存在复杂的依赖关系。一旦某个服务发生故障,可能会引发连锁反应,影响范围扩大。由于缺乏服务依赖拓扑、关联分析等能力,涉及到多部门联合排障,如网络部门,业务部,云平台部门,部门间运维工具存在信息壁垒,容易导致互相推诿,难以自证,增加了研判难度。
  4. 云原生环境下,观测数据获取成本高
    营销业务涉及业务类型多,分布式微服务架构下不同服务采用不同的开发语言,如果对业务进行插码打桩,存在影响业务系统运行风险,且中间件和跨语言应用无法进行二次插码。另外,营销2.0系统云原生微服务原始流量全量获取难,导致营销业务全链路观测数据获取成本高,全链路可观测数据的采集、传输、存储、计算等全生命周期管理面临巨大挑战。
  5. 多技术栈融合,关联业务交易难
    营销2.0融合了云计算、大数据、人工智能等多种新技术,采用了开源、自研等多元化的技术栈。不同技术平台自带的监控工具,数据维度各异,缺乏统一集成和数据关联,尤其是没有与业务全链路关联结合。

营销2.0作为电网重要系统,实时监测缴费环节的成功率,当缴费不成功如何快速定位异常节点,如何拉齐交易视角和服务调用视角变为难点,如何低成本、零侵入的获取交易重要字段如手机号,户号,流水号,Trace id 等基于业务特征,并能基于业务视角全链路监控成为难点。

这些难点挑战迫切需要能够打破数据孤岛,并可实现关联营销业务的全链路监控解决方案。做到关联营销业务用户户号等特征可实现缴费全路径的自动化追踪,实现对每一笔订单的实时可追溯,加强提升面向业务、应用和网络相结合业务运维视角的全栈可观测保障能力。

4. DeepFlow eBPF+Wasm创新解决方案

eBPF和WebAssembly(Wasm)是两种革新性的创新技术,它们在云原生时代的可观测性领域展现出巨大的应用价值。将二者结合,可以实现更加灵活、高效、安全的可观测性。

DeepFlow基于eBPF+Wasm创新技术实现方案是以营销2.0业务为锚点,通过梳理营销2.0业务特征,通过零侵扰、全栈、全链路追踪探针能力,对业务调用链上的每个节点(微服务、中间件、 数据库)进行监控,将基础服务资源的监控与营销系统业务调用链通过智能标签紧密关联,从而实现对故障影响范围的快速评估、系统状态的实时掌控。

4.1 灵活可编程数据采集—识别交易、感知业务

DeepFlow Agent提供了Wasm插件机制,它是一个可编程的、安全的、资源消耗可控的运行沙箱,是整个 DeepFlow Pipeline 机制的重要一环,利用Wasm插件,可以实现很多个性化的应用协议解析和数据采集目标,例如:

  • 增强原生支持的协议:在原生协议的解析能力基础之上,提取更多的业务信息
  • 支持私有协议的解析:特别是从 Protobuf、Thrift 等依赖 Schema 的 Payload 内容中提取业务字段
  • 零侵扰分布式追踪:通过解析调用中的事务全局 ID,用于实现分布式追踪
  • 自定义脱敏:对 MySQL、Redis 等协议中的业务敏感信息进行抹除

基于DeepFlow高性能数据采集器和Wasm插件能力,实现了采集端的高性能解密,在零插码的情况下自动获取交易TraceID、户号、手机号、渠道等关键业务数据。

从交易视角实现了:

  • 营销2.0全链路:实时缴费全链路全景图,用户缴费轨迹拓扑自动绘制。
  • 业务户号追踪:基于交易特征,对采集能力灵活编程,提取交易关键数据。
  • 交易性能分析:基于交易户号全局追踪交易处理过程,交易的性能分析。

4.2 化繁为简—低成本、零侵扰、全栈全链路监控

DeepFlow Agent支持云上虚拟机、K8s容器环境、云下物理服务器等多类型部署方式,支持覆盖云上虚拟化全链路接口,可采集操作系统eBPF调用数据、Pod、Node网卡接口。通过Wasm插件自定义精准解析营销2.0交易业务的流量数据

DeepFlow Agent的eBPF+Wasm创新技术实现是运行在操作系统OS中间层,实现零侵扰、全覆盖的基于营销2.0业务的面向底层基础服务和面向上层应用业务的全链路监控。

从服务视角实现了:

  • 上下游调用追踪:面向营销2.0系统基础服务上下游调用自动拓扑绘制。
  • 容器服务全链路:基于零侵扰、全栈追踪能力展示容器服务基础设施全链路。

5. eBPF+Wasm创新技术优势

6. 创新解决方案实践成效

6.1 一图览全局:营销2.0系统缴费业务全链路

营销2.0系统缴费业务包含柜台收费、网上国网、第三方代收机构(如微信、支付宝和各大银行),所有渠道均通过交费前台微服务调用中台的微服务和数据微服务完成缴费业务。通过DeepFlow全栈全链路追踪能力,自动绘制出营销2.0系统缴费业务的端到端全链路拓扑,将所有相关的服务节点、中间件、数据库等以直观的方式呈现,实现缴费业务全局一览无余,为系统优化和业务创新提供了全景视角。

6.2 关联业务突破:零插码、低成本解析交易关键信息

营销2.0系统作为电网重要业务系统,保障业务实时交易成功率,变为重中之重,由于交易数据采用国密加密。DeepFlow通过Wasm插件机制,在不侵入业务代码的前提下,利用灵活可编程的数据采集能力和高效解密手段,精准捕获交易流水号、户号、手机号、渠道等交易中的业务指纹信息。这些提炼后的业务关键数据如同指引方向的路标,形成“业务指纹”,让业务轨迹的追踪变得清晰可见,确保每一笔交易的可观测性和可追溯性。为深入洞察业务行为提供了新的技术思路。

6.3  智启新视角:深入业务用户缴费旅程

基于DeepFlow提取的业务关键数据,营销2.0系统可以从业务视角重塑监控维度,围绕用户缴费旅程开展业务链路梳理、性能优化、异常诊断等,并从用户体验的角度评估系统性能,开启了全新的业务监控新视角:

面向户号的调用链追踪: 能够追踪每一笔交易从发起到完成的全过程,确保每一笔交易的可观测性和可追溯性。

面向单笔交易的性能分析: 通过对单笔交易的深度分析,识别出交易过程中的性能瓶颈,为优化提供数据支持。

用户缴费轨迹拓扑自动绘制: 通过自动绘制用户缴费轨迹拓扑,实现了对用户缴费路径的可视化,帮助运维团队快速定位和解决问题。

6.4 洞悉服务全景图:自动绘制上下游服务依赖

营销2.0系统的架构由数千个微服务组成,形成了一个复杂的调用网络。DeepFlow自动发现服务间的调用依赖关系,生成上下游服务间的调用拓扑图,清晰呈现服务的上下游依赖,并提供各调用环节的性能指标,为系统的性能诊断、容量规划、架构优化等提供了可视化的依据。

借助DeepFlow的服务网洞察能力,营销2.0系统的管理和运维团队可以清晰洞悉所有服务的上下游依赖,准确把握任意服务在整个业务体系中的位置坐标。当某个服务节点发生故障或性能问题时,可以高效评估事故的影响范围,快速定位问题根源。同时,依赖拓扑图上也呈现了各调用环节的关键性能指标,可以据此发现系统的性能短板,开展有针对性的优化。

“洞悉服务全景图”生动揭示了DeepFlow对营销2.0系统错综复杂的服务依赖关系的盘活和透视,让每一个服务在全局网络中的角色、重要性和影响力一目了然。系统的拓扑结构、瓶颈压力点、容量规划等都有迹可循,确保系统的高效和稳定运行。

7. 总结

随着电力系统数字化、智能化不断发展演进,营销2.0作为电力公司营业收入主平台、对外服务总窗口。有力支撑了营销各类业务开展。营销2.0已成为推动能源转型和提升客户服务质量的关键力量。在这一背景下,DeepFlow洞察电力行业发展新需求,以创新的eBPF+Wasm技术为核心,为营销2.0系统量身打造了一套全栈全链路的可观测解决方案。该创新解决方案,在不更改应用代码的前提下,低成本实现了从底层服务到上层业务的全栈无盲点监控,以及基于业务语义的交易追踪、性能分析、故障诊断,不仅提高了系统的实时监控能力,还增强了故障诊断与优化的效率,提升营销2.0系统新质生产力,助力电力企业数字化转型。

Related Posts

eBPF 可观测性技术 3 分钟锁定银行信创云垃圾文件罪魁祸首

在某国有银行的信创云日常运维中,发现大量未知的垃圾文件,存在严重的系统运行隐患,其承载的分布式核心交易系统的运行稳定性随时可能受到影响,运维人员尝试寻找产生垃圾文件的源程序,但却发现传统监控工具对未知程序在未知时间、未知节点、未知路径,写入未知文件的故障诊断并不是一件容易的事情,而 DeepFlow 使用 eBPF 技术实现的可观测性可以为运维人员提供纤毫毕现的文件读写观测能力,让此类问题的诊断定位变得极其轻松。

Read More

故障诊断 3 分钟锁定分布式核心数据库,加速金融科技信创开发、测试、迁移

金融行业信创迁移过程中,故障定界困难、定位周期长、开发测试速度缓慢、生产运行风险高等因素正在不断地拖慢相关工作的效率和速度。如何让金融科技部门的业务信创迁移更快、更高效、更平滑?DeepFlow 通过 eBPF 带来的零侵扰、全栈、全链路可观测性技术,可以大幅度提升信创全系统的可观测性,从根本上扫除信创道路上故障诊断的技术阻碍。通过本篇案例您将了解到,某股份制银行在分布式核心交易业务向信创平台迁移的开发测试过程中,如何通过 DeepFlow 平台仅用 3 分钟时间将某次故障根因锁定到分布式核心数据库,快速消除不同运维技术栈之间的定位分歧,快速解决故障,加速开发测试速度。

Read More