第一期:10个代表性的服务典范
2024年6月
客户应用管理部门反馈某业务访问数据库与数据库部门看到的数据时延不一致,通过 DeepFlow 查看相应业务的端到端访问路径的追踪数据,定位到时延主要消耗在客户端宿主机到服务端宿主机之间,确认是因经过了非预期的过多宿主机网络链路造成时延过高。随后建议客户调整 Overlay 网络流量路径,优化后整体时延明显减低,优化效果明显。
难度 ⭐️⭐️
客户反馈信用卡联机交易压测出现超时重置现象,通过 DeepFlow 链路追踪能力,在网络拓扑中分钟级找到 LB 的 node 到 K8S Node 链路有异常,网络包中有服务端重置(RST)异常。客户随即联系云服务商,精准调整配置后解决此问题。
难度 ⭐️
客户反馈在新核心系统非功能压力测试过程中访问超时,体现为 CPU 利用率不高 ,访问流量不大,但是存在 Timeout 现象。通过 DeepFlow CPU 持续剖析能力,定位到 log 的调用是一个反射,函数没有到内核,还在应用阶段。测试组随即联系应用部门优化代码,解决超时问题。
难度⭐️⭐️
客户认证中心网关节点偶尔无响应,异常现象持续一周时间,紧急在认证中心网关虚拟机内部署 DeepFlow 进行分析,5 分钟内通过持续剖析帮助客户判断出故障原因在处理侧的应用函数上。
难度 ⭐️⭐️
客户反馈宿主机在某时间点出现宕机现象,使用 DeepFlow 知识图谱搜索相应的宿主机,即刻得知当时受影响的云服务范围。并通过云服务器的流量数据、事件、调用日志、流日志,确定宿主机恢复后其下业务虚机恢复的时间,以及业务网络和应用性能情况。协助客户快速完成故障定位定界和性能分析报告。
难度 ⭐️⭐️
通过 DeepFlow 的链路追踪能力观察到统一视频系统有大量建连失败的流量,快速关联到流日志,发现有服务端重置(RST)日志标识,通过 TCP 时序图获取服务端重置(RST)的详细信息,客户随即调整服务端配置,解决建联失败问题。
难度 ⭐️⭐️
客户生产环境容器集群中 Node 节点与 Master 节点之间偶现故障,通过 DeepFlow 流日志功能搜索相应资源的流日志详情和 TCP 时序图,发现客户端-服务端的异常流量,定位出问题点发生在 ELB,定界后 ELB 团队快速解决故障。
难度 ⭐️⭐️
客户反馈互联网专线中有突增流量,通过 DeepFlow 的指标分析及流日志调用日志分析,发现突增时刻有服务端口为 25(SMTP)的突发流量,且发送方是同一 IP 地址,接收方是不同的多个 IP 地址,据此断定流量突增是由于内部有用户群发带大附件的邮件所致,并快速锁定邮件发送终端。
难度 ⭐️
客户反馈某台虚机服务器流量带宽大,影响业务使用。通过 DeepFlow 网络性能分析功能,直接搜索相应 IP 地址,快速定位到 2 个客户端在特定时间内流量速率超过 200Mbps,经排查确认因程序业务访问量大,把带宽占满了。通过 DeepFlow 直接缩短从网络现象到问题定界,应用故障排除的周期。
难度 ⭐️
客户告警机器人报障某业务请求发生响应慢等系列问题,告警内容包含Skywalking TraceID,通过 DeepFlow 对 TraceID 有效解析以及关联,建立基于 TraceID 的统一观测视图,涵盖调用链追踪、网络拓扑,事件流日志、指标等,提升多部门会商排查效率,统一观测数据视角,降低故障排查复杂度。
难度 ⭐️⭐️⭐️