云杉可观测性服务快讯( 2024年10月)

云杉 世纪 | 2024-11-18

01|某银行

压测偶发高时延

新核心业务非功能压测偶发 10s 高时延响应,通过 DeepFlow 调用链追踪、数据库监控等功能,定界原因是后端分布式数据库响应时延高所致。

难度⭐️


02|某银行

Redis访问认证失败

在 DeepFlow 的追踪–拓扑分析中发现某服务异常比例很高,经过调用日志的响应异常指标,定位到 Redis 服务在报-NOAUTH Authentication required.错误。推测是 Redis 配置了访问密码导致;帮助其缩小排查范围,提高定位问题的效率。

难度⭐️


03|某证券公司

K8s集群网络延时

客户反馈中间件 K8s 集群最近出现大面积网络时延高、丢包问题,通过 DeepFlow “全链路追踪” 功能快速定位到故障的 Node 节点,且 POD 网卡建连时延高,分钟级定界是 CNI 转发性能问题,极大缩短了排障效率。

难度⭐️


04|某银行

系统下发重复指令

自动化运维系统下发重复指令,影响执行效果,因中间经过了多重代理,不确定是从哪里开始有问题的,通过流量镜像等方式排查周期长、成本高,在客户端和服务端虚拟机内部署 deepflow-agent 后,使用 PCAP 下载功能快速提取业务原始流量,发现客户端一个指令几乎同时下发了 2 次,从而确定根因在客户端内部。

难度⭐️⭐️


05|某银行

数据库网络链接失败

高斯数据库偶发性出现网络连接失败,在数据库系统中安装 deepflow-agent 后定位到原因是 TCP 建联客户端 SYN 结束,也就是高斯数据库服务没有对这个 TCP 建联做出响应,经客户检查系统配置后发现是内核参数的问题。

难度⭐️⭐️


06|某证劵公司

业务无法访问

托管部某一业务集群 Oracle 数据库业务使用账号一直被锁定,导致所有使用该账户的业务无法使用;从 Oracle 报错可以看出账号锁定的原因是一直使用错误密码登录该账户导致,但是无法确认是哪些服务;通过 DeepFlow 查询该 Oracle 近期的调用日志,可以看到存在明显请求类型为 1017 返回码的请求报错为 Ivalid username/password , 从而很直观的锁定问题机器,客户修改手动修改对应机器上的服务配置的密码后问题解决。

难度⭐️⭐️


07|某银行

业务可观测

提供 WASM 插件提取 body 中的用户 ID,实现对用户行为的监控分析,如用户访问的 API 及 API 返回状态等。

难度⭐️


08|某金融科技公司

node节点报错

客户反馈 PKS 集群 node 节点偶尔报 NotReady,通过 DeepFlow 指标及 TCP 时序图分析,定位出问题点发生在 ELB,交由 ELB 团队排查根因。

难度⭐️


09|某银行

可观测性数据集成

监控部门通过 PromQL 调用 DeepFlow 的指标数据,为行内统一监控平台的完善,提供关键性的数据依据。

难度⭐️


10|某银行

服务偶发性超时

客户侧经常出现偶发现客户端访问 Redis 请求超时问题,通过日志只能看到客户端日志存在连接超时现象,但使用 ping 等命令时,网络时延健康。在通过 DeepFlow 上可以看到每笔 Redis 发起 SENTINEL GET-MASTER-ADDR-BY-NAME 请求时延、网络状态,后续通过 TCP 时序图以及 PCAP 下载,可以直观的发现客户端发送完请求报文后,在响应报文未接收完毕时就结束了连接导致。通过 DeepFlow 可以实时保存数据包用来问题回溯分析,提升排障效率。

难度⭐️⭐️