压测偶发高时延
新核心业务非功能压测偶发 10s 高时延响应,通过 DeepFlow 调用链追踪、数据库监控等功能,定界原因是后端分布式数据库响应时延高所致。
难度⭐️
Redis访问认证失败
在 DeepFlow 的追踪–拓扑分析中发现某服务异常比例很高,经过调用日志的响应异常指标,定位到 Redis 服务在报-NOAUTH Authentication required.错误。推测是 Redis 配置了访问密码导致;帮助其缩小排查范围,提高定位问题的效率。
难度⭐️
K8s集群网络延时
客户反馈中间件 K8s 集群最近出现大面积网络时延高、丢包问题,通过 DeepFlow “全链路追踪” 功能快速定位到故障的 Node 节点,且 POD 网卡建连时延高,分钟级定界是 CNI 转发性能问题,极大缩短了排障效率。
难度⭐️
系统下发重复指令
自动化运维系统下发重复指令,影响执行效果,因中间经过了多重代理,不确定是从哪里开始有问题的,通过流量镜像等方式排查周期长、成本高,在客户端和服务端虚拟机内部署 deepflow-agent 后,使用 PCAP 下载功能快速提取业务原始流量,发现客户端一个指令几乎同时下发了 2 次,从而确定根因在客户端内部。
难度⭐️⭐️
数据库网络链接失败
高斯数据库偶发性出现网络连接失败,在数据库系统中安装 deepflow-agent 后定位到原因是 TCP 建联客户端 SYN 结束,也就是高斯数据库服务没有对这个 TCP 建联做出响应,经客户检查系统配置后发现是内核参数的问题。
难度⭐️⭐️
业务无法访问
托管部某一业务集群 Oracle 数据库业务使用账号一直被锁定,导致所有使用该账户的业务无法使用;从 Oracle 报错可以看出账号锁定的原因是一直使用错误密码登录该账户导致,但是无法确认是哪些服务;通过 DeepFlow 查询该 Oracle 近期的调用日志,可以看到存在明显请求类型为 1017 返回码的请求报错为 Ivalid username/password , 从而很直观的锁定问题机器,客户修改手动修改对应机器上的服务配置的密码后问题解决。
难度⭐️⭐️
业务可观测
提供 WASM 插件提取 body 中的用户 ID,实现对用户行为的监控分析,如用户访问的 API 及 API 返回状态等。
难度⭐️
node节点报错
客户反馈 PKS 集群 node 节点偶尔报 NotReady,通过 DeepFlow 指标及 TCP 时序图分析,定位出问题点发生在 ELB,交由 ELB 团队排查根因。
难度⭐️
可观测性数据集成
监控部门通过 PromQL 调用 DeepFlow 的指标数据,为行内统一监控平台的完善,提供关键性的数据依据。
难度⭐️
服务偶发性超时
客户侧经常出现偶发现客户端访问 Redis 请求超时问题,通过日志只能看到客户端日志存在连接超时现象,但使用 ping 等命令时,网络时延健康。在通过 DeepFlow 上可以看到每笔 Redis 发起 SENTINEL GET-MASTER-ADDR-BY-NAME 请求时延、网络状态,后续通过 TCP 时序图以及 PCAP 下载,可以直观的发现客户端发送完请求报文后,在响应报文未接收完毕时就结束了连接导致。通过 DeepFlow 可以实时保存数据包用来问题回溯分析,提升排障效率。
难度⭐️⭐️