01|某省电力公司
业务无响应
能源互联网营销服务系统集群某节点业务无响应,在 DeepFlow 中发现该节点的 TCP 连接都被服务端直接重置,根据经验判断是磁盘故障导致,通过 DeepFlow 的文件读写监控发现从故障时间点开始就没有磁盘写入操作,客户通知相关业务运维修复磁盘问题后业务恢复正常。
难度⭐️
02 | 某互联网金融公司
关键服务监控视图
客户反馈 k8s 对外服务应用报了大量线程池满,无法对外提供服务。客户侧排查 1-2 小时后才确认具体出现故障的服务点。后续通过 DeepFlow 创建 k8s 对外服务监控视图,可以直观看到具体某个时间点,服务故障响应耗时的变化,快速排查故障点及故障原因。
难度⭐️
03 | 某汽车企业
关键业务偶发超时
客户某注册中心业务长期存在低频偶发超时情况,经多次排查发现异常 reset 请求,但始终无法界定具体故障点。通过 DeepFlow 不同位置流日志,结合时序图快速发现,在问题发生时客户端容器节点处存在一个未经 SNAT 直接请求对端 Pod 的情况,并且 ACK 序列号完全相同,初步判断为容器 CNI 异常 BUG,客户立即通知云服务团队做进一步处理。
难度⭐️
04 | 某汽车企业
业务流量治理与优化
客户成立流量治理团队,通过调用 DeepFlow 应用 RED 指标,嵌入 DeepFlow 业务拓扑图,利用 DeepFlow 强大的 AutoTagging 能力,实现业务 K8s label 中的业务名称、环境过滤及分组,快速实现了流量治理平台,为业务提供应用视角的观测能力,优化业务架构。
难度⭐️⭐️
05 | 某银行
服务端访问异常
客户反馈卡中心云桌面无法访问容器化部署的文档系统,通过 DeepFlow 网络流日志分析发现有大量服务端异常(传输-超时)和客户端异常(传输-客户端重置),经判断是由于数据传输阶段服务端响应的数据无法送达客户端导致,建议排查 ELB 的配置,客户排查后发现问题根因。
难度⭐️
06 | 某银行
偶发数据传输中断
客户侧 prometheus 监控中采集到 node-exporter 数据偶有中断,通过 DeepFlow 指标数据、流日志和应用日志分析,在数据中断时间点 node-exporter 和 prometheus 之间的网络连接客户端端口没有变化,没有断连,仅数据 bps 有下降,故排除了网络传输方面的问题,初步判断是 node-exporter 没有采集到数据所致。
难度⭐️
07 | 某银行
压测高时延
客户处新核心业务非功能压测偶发 2s 高时延响应,通过 DeepFlow 分布式调用链追踪等功能,快速定界服务端网卡响应时延为 2s,服务端进程响应时延为 300ms,和业务开发商讨论后判断为 java netty 模块线程调度异常,增加线程调度数量后系统恢复正常。
难度⭐️
08 | 某省电信运营商
业务可观测性
云平台运维团队对于云资源的增删改查等行为处于黑盒状态,无法知晓业务方的使用情况,同时遇到操作失败等异常时只能从多个服务的海量日志中过滤有效信息,效率非常低。通过 DeepFlow 提供的 WASM 插件提取 body 中的 traceid,实现多个服务之间的调用链追踪,解决某次操作失败后的快速定位需求;同时还提取了 body 中的用户 ID,实现对用户行为的监控分析,如用户访问的 API 及 API 返回状态等。
难度⭐️
09 | 某金融科技公司
数据库服务告警异常
客户反馈数据库服务告警异常,通过 DeepFlow 网络流日志发现计算节点 MySQL 到 Ceph 存储异常,TCP 时序图显示在四次挥手阶段有异常,虚拟机(数据库)主节点连接 Ceph osd 有超时的情况,问题点基本锁定为 Ceph 集群问题。
难度⭐️
10 | 某省电信运营商
节点间无法访问
客户某区域“中心采控业务”节点无法访问“中心缓存管理服务”导致业务异常。通过 DeepFlow 流量拓扑功能确定故障链路路径,在流日志分析中发现数据流异常终结,并在时序图功能中确定 TCP-SYN 进行重传,最终定位为服务端未响应所致,分钟级定界极大提升排障协调效率。
难度⭐️⭐️
11 | 某金融科技公司
业务容器建连失败
客户反馈业务容器出现建连失败,通过 DeepFlow 路径分析功能快速定位到故障的 pod 节点,下钻至流日志发现有 4 条“客户端建连 SYN 结束”,分钟级定界建连失败故障可能为服务端防火墙或端口未监听,实现快速定位极大缩短了排障效率。
难度⭐️
云杉 世纪
2024年9月20日
云杉动态, 技术干货, 最新内容