eBPF 可观测性技术 3 分钟锁定银行信创云垃圾文件罪魁祸首

在某国有银行的信创云日常运维中,发现大量未知的垃圾文件,存在严重的系统运行隐患,其承载的分布式核心交易系统的运行稳定性随时可能受到影响,运维人员尝试寻找产生垃圾文件的源程序,但却发现传统监控工具对未知程序在未知时间、未知节点、未知路径,写入未知文件的故障诊断并不是一件容易的事情,而 DeepFlow 使用 eBPF 技术实现的可观测性可以为运维人员提供纤毫毕现的文件读写观测能力,让此类问题的诊断定位变得极其轻松。

Read More

故障诊断 3 分钟锁定分布式核心数据库,加速金融科技信创开发、测试、迁移

金融行业信创迁移过程中,故障定界困难、定位周期长、开发测试速度缓慢、生产运行风险高等因素正在不断地拖慢相关工作的效率和速度。如何让金融科技部门的业务信创迁移更快、更高效、更平滑?DeepFlow 通过 eBPF 带来的零侵扰、全栈、全链路可观测性技术,可以大幅度提升信创全系统的可观测性,从根本上扫除信创道路上故障诊断的技术阻碍。通过本篇案例您将了解到,某股份制银行在分布式核心交易业务向信创平台迁移的开发测试过程中,如何通过 DeepFlow 平台仅用 3 分钟时间将某次故障根因锁定到分布式核心数据库,快速消除不同运维技术栈之间的定位分歧,快速解决故障,加速开发测试速度。

Read More

eBPF 零侵扰分布式追踪 3 分钟锁定 Java 程序 I/O 线程阻塞

I/O 线程阻塞是Java 程序经常出现的问题之一,此类故障发生时 Java 程序的请求、响应在 I/O 线程向操作系统 Socket Buffer 读/写过程中发生阻塞,由于在业务代码插桩无法观测到 I/O 线程的工作情况和性能表现,因而导致故障非常隐蔽和难以诊断定位。通过本篇案例您将了解到,某银行的开发工程师如何使用 eBPF 技术带来的零侵扰追踪能力,在某次分布式核心交易系统上线信创平台的非功能测试(性能压测)故障诊断中,用 3 分钟时间锁定 Java 程序 I/O 线程阻塞。

Read More

可观测性实战:从拨云见日到抽丝剥茧快速定位业务响应时延高问题

本文分享借助 DeepFlow 在某头部劵商业务压测场景中通过调用链追踪快速定位问题的过程。解决在容器云内等复杂调用场景中解决传统监控手段覆盖不全面、排障定位无手段等痛点。分享利用 DeepFlow 如何快速在复杂的业务调用过程中抽丝剥茧,快速排除网络问题,定位Pod服务自身业务逻辑问题,展现 DeepFlow 产品价值。

Read More

金山办公基于 DeepFlow 的零侵扰可观测性实践

金山私有化项目在可观测性建设中,面临数据孤岛和缺乏全局视图的挑战,影响了问题排查效率。为此,引入 DeepFlow 和 eBPF 技术,打通了指标、追踪和日志数据的联动,提供了全局微服务调用关系。通过分阶段建设,已完成第一期目标,实现了从被动排障到主动观测的转变,提升了系统稳定性和运维效率。

Read More

云杉网络 DeepFlow &必示RiskSeer应用性能智能监控预警方案

随着云原生技术的广泛应用,社会数字化快速发展,政府、金融、通信、电力、制造、消费等各行各业正在不断的被数字化、智能化改变,涌现出越来越多的大型、超大型 IT 业务。随之而来的是 IT 业务系统的复杂度越来越高,开发迭代速度越来越快,系统规模越来越大,运行风险越来越高,而业务抖动、业务故障的经济影响、社会影响也越来越广泛。 为了应对新的 IT 生产力带来的业务保障能力的挑战,可观测性技术快速发展和成熟,成为云原生时代公认的运维技术演进方向,可观测性平台也成为 IT 企业的必备选项。 可观测性技术从数据出发,致力于提升 IT 系统的可观察性、可维护性和运行可靠性,通过新的数据采集、数据处理、数据存储技术打通数据孤岛,形成百倍、千倍于上一代监控时代的数据体量,产生了 IT 运维的“数据大爆炸”。同时伴随着机器学习、神经网络、大模型等 AI 技术的不断爆发,使用 AI 技术对“数据大爆炸”产生的可观测性数据进行智能分析,逐步落地运维智能化将进一步改变 IT 运维,并最终实现端到端的 AI 运维保障能力。 通过在OpenAIOps 社区基于AIOps Live  Benchmark:https://www.aiops.cn/aiops-live-benchmark 进行充分验证,云杉网络与必示科技携手联合发布应用性能智能监控预警方案,融合云杉网络 DeepFlow 产品在可观测性、必示科技 RiskSeer 产品在运维数据 AI 分析的深厚技术积淀,实现 IT 系统高质量、高性能、全栈的可观测数据采集、智能监控和智能分析,全面提升云原生系统的可观测和智能化运维能力。 PART.01 方案架构 云杉网络 DeepFlow 可观测性平台,以 eBPF 零侵扰(Zero Code)观测数据采集技术实现的分布式追踪数据、应用调用性能数据、函数剖析数据为核心,以智能标签(SmartEncoding)技术实现的观测信号高性能关联和存取为支撑,以观测数据 Sink 接口实现的观测数据 Pipeline 为补充,面向复杂的云基础设施及云原生应用,实现了全栈、全链路的分布式追踪、应用性能指标分析、TCP 性能指标分析、持续性能剖析、网络流回溯等一系列的深度观测能力。平台通过高性能、高质量的数据采集和开放的数据汇入,形成了汇聚 Metrics、Trace、Logging、Profiling、Events 等观测信号的可观测性数据湖,湖内的各类观测信号数据通过自动注入的标签(资源标签、业务标签)高度关联并富含上下文信息。 必示科技 RiskSeer 产品基于大数据技术和时序基础模型,面向时序数据提供基于智能动态基线的指标监控预警能力,在趋势预测方面积累了丰富的数据样本和模型算法参数,具有模型算法通用性强、处理性能高、抗数据噪音、抗数据缺损、非周期变化自适应、周期漂移自适应等诸多优异的智能特性,帮助用户及时准确的发现系统运行异常、主动消除潜在风险,持续提升业务运行健康状态。 DeepFlow 与 […]

Read More

云杉网络可观测性服务快讯( 2024年8月)

01|某省电力公司 业务无响应 能源互联网营销服务系统集群某节点业务无响应,在 DeepFlow 中发现该节点的 TCP 连接都被服务端直接重置,根据经验判断是磁盘故障导致,通过 DeepFlow 的文件读写监控发现从故障时间点开始就没有磁盘写入操作,客户通知相关业务运维修复磁盘问题后业务恢复正常。 难度⭐️ 02 | 某互联网金融公司 关键服务监控视图 客户反馈 k8s 对外服务应用报了大量线程池满,无法对外提供服务。客户侧排查 1-2 小时后才确认具体出现故障的服务点。后续通过 DeepFlow 创建 k8s 对外服务监控视图,可以直观看到具体某个时间点,服务故障响应耗时的变化,快速排查故障点及故障原因。 难度⭐️ 03 | 某汽车企业 关键业务偶发超时 客户某注册中心业务长期存在低频偶发超时情况,经多次排查发现异常 reset 请求,但始终无法界定具体故障点。通过 DeepFlow 不同位置流日志,结合时序图快速发现,在问题发生时客户端容器节点处存在一个未经 SNAT 直接请求对端 Pod 的情况,并且 ACK  序列号完全相同,初步判断为容器 CNI 异常 BUG,客户立即通知云服务团队做进一步处理。 难度⭐️ 04 | 某汽车企业 业务流量治理与优化 客户成立流量治理团队,通过调用 DeepFlow 应用 RED 指标,嵌入 DeepFlow 业务拓扑图,利用 DeepFlow […]

Read More

DeepFlow面向电力营销2.0系统全链路可观测创新实践

本文将详细介绍 DeepFlow如何运用创新全链路观测技术,从业务全链路视角、系统服务全链路视角为电网行业带来全面的业务洞察和优化体验。

Read More

云杉网络可观测性服务快讯( 2024年7月)

01|某省电力公司 业务可观测性 能源互联网营销服务系统在云原生环境上线后,通过 DeepFlow 平台以及 WASM 插件解析扩展能力,无需系统改造,实现对电网营销系统中交易标识等重点字段的安全提取,形成业务视角与网络、系统及应用视角相结合,极大提升了运维与业务的联动效率。 难度⭐️ 02|某金融科技公司 应用响应延时 某寿险业务中,应用程序同一工作负载的若干 POD 总存在响应延时超过 1 秒的现象,通过 DeepFlow 全栈链路功能的指标分析,分钟级定界问题存在于负载均衡达到性能极限边界时,负载处理所使用的轮询策略存在瓶颈,调整策略配置后解决故障。 难度⭐️⭐️ 03|某银行 告警根因分析 基础服务系统 Calico 服务超时触发告警,通过 DeepFlow CPU 持续剖析功能,排除 Calico-Node 自身问题的可能性;通过平台调用追踪功能中网络观测数据,确认 Loopback 网卡已经发出数据包,排除网络问题的可能性;通过平台调用追踪功能中应用观测数据,确认客户端收到数据但未进行处理,从而超时触发告警。系统团队精准应答解决。 难度⭐️⭐️ 04|某银行 应用响应超时 在交易高峰期“借贷系统”响应超时,通过 DeepFlow 平台的网络分析功能,对比指标以及链路状态,迅速确认网络路径均正常,通过应用调用追踪功能,数据库访问存在处理性能瓶颈。 难度⭐️ 05|某银行 业务可观测性 除保障金融业务外,对于云平台自身也同样存在观测能力提升的需求。云运维团队对于云资源的增删改查等行为始终处于监控黑盒状态,无法知晓业务方的使用情况,同时,当出现操作失败等异常情况,只能从多个服务的海量日志中过滤有效信息。监控盲点多,排障效率低。通过 DeepFlow 平台以及 WASM 插件解析扩展能力,提取标识符,绘制云控制系统服务间的调用链追踪,实现操作失败后的快速定位;对租户行为的监控分析,追踪 API 调用及 API 返回状态等。 难度⭐️ 06|某省电力公司 性能测试 在业务上云的非功能压测过程中,通过 DeepFlow 平台全景视图直观呈现交易调用、服务拓扑、网络性能、函数瓶颈等,提升测试团队评估及性能优化效率。 难度⭐️ […]

Read More

云杉网络可观测性服务快讯( 2024年6月)

第一期:10个代表性的服务典范 2024年6月 01| 某银行-数据库访问时延数 客户应用管理部门反馈某业务访问数据库与数据库部门看到的数据时延不一致,通过 DeepFlow 查看相应业务的端到端访问路径的追踪数据,定位到时延主要消耗在客户端宿主机到服务端宿主机之间,确认是因经过了非预期的过多宿主机网络链路造成时延过高。随后建议客户调整 Overlay 网络流量路径,优化后整体时延明显减低,优化效果明显。 难度 ⭐️⭐️ 02 | 某银行-压测超时重置 客户反馈信用卡联机交易压测出现超时重置现象,通过 DeepFlow 链路追踪能力,在网络拓扑中分钟级找到 LB 的 node 到 K8S Node 链路有异常,网络包中有服务端重置(RST)异常。客户随即联系云服务商,精准调整配置后解决此问题。 难度 ⭐️ 03|某银行–压测超时 客户反馈在新核心系统非功能压力测试过程中访问超时,体现为 CPU 利用率不高 ,访问流量不大,但是存在 Timeout 现象。通过 DeepFlow CPU 持续剖析能力,定位到 log 的调用是一个反射,函数没有到内核,还在应用阶段。测试组随即联系应用部门优化代码,解决超时问题。 难度⭐️⭐️ 04| 某银行-应用网关节点异常 客户认证中心网关节点偶尔无响应,异常现象持续一周时间,紧急在认证中心网关虚拟机内部署 DeepFlow 进行分析,5 分钟内通过持续剖析帮助客户判断出故障原因在处理侧的应用函数上。 难度 ⭐️⭐️ 05| 某银行-宿主机宕机 客户反馈宿主机在某时间点出现宕机现象,使用 DeepFlow 知识图谱搜索相应的宿主机,即刻得知当时受影响的云服务范围。并通过云服务器的流量数据、事件、调用日志、流日志,确定宿主机恢复后其下业务虚机恢复的时间,以及业务网络和应用性能情况。协助客户快速完成故障定位定界和性能分析报告。 难度 ⭐️⭐️ 06| […]

Read More