01|某省电力公司
业务可观测性
能源互联网营销服务系统在云原生环境上线后,通过 DeepFlow 平台以及 WASM 插件解析扩展能力,无需系统改造,实现对电网营销系统中交易标识等重点字段的安全提取,形成业务视角与网络、系统及应用视角相结合,极大提升了运维与业务的联动效率。
难度⭐️
02|某金融科技公司
应用响应延时
某寿险业务中,应用程序同一工作负载的若干 POD 总存在响应延时超过 1 秒的现象,通过 DeepFlow 全栈链路功能的指标分析,分钟级定界问题存在于负载均衡达到性能极限边界时,负载处理所使用的轮询策略存在瓶颈,调整策略配置后解决故障。
难度⭐️⭐️
03|某银行
告警根因分析
基础服务系统 Calico 服务超时触发告警,通过 DeepFlow CPU 持续剖析功能,排除 Calico-Node 自身问题的可能性;通过平台调用追踪功能中网络观测数据,确认 Loopback 网卡已经发出数据包,排除网络问题的可能性;通过平台调用追踪功能中应用观测数据,确认客户端收到数据但未进行处理,从而超时触发告警。系统团队精准应答解决。
难度⭐️⭐️
04|某银行
应用响应超时
在交易高峰期“借贷系统”响应超时,通过 DeepFlow 平台的网络分析功能,对比指标以及链路状态,迅速确认网络路径均正常,通过应用调用追踪功能,数据库访问存在处理性能瓶颈。
难度⭐️
05|某银行
业务可观测性
除保障金融业务外,对于云平台自身也同样存在观测能力提升的需求。云运维团队对于云资源的增删改查等行为始终处于监控黑盒状态,无法知晓业务方的使用情况,同时,当出现操作失败等异常情况,只能从多个服务的海量日志中过滤有效信息。监控盲点多,排障效率低。通过 DeepFlow 平台以及 WASM 插件解析扩展能力,提取标识符,绘制云控制系统服务间的调用链追踪,实现操作失败后的快速定位;对租户行为的监控分析,追踪 API 调用及 API 返回状态等。
难度⭐️
06|某省电力公司
性能测试
在业务上云的非功能压测过程中,通过 DeepFlow 平台全景视图直观呈现交易调用、服务拓扑、网络性能、函数瓶颈等,提升测试团队评估及性能优化效率。
难度⭐️
07|某证券公司
访问数据库超时
应用运维团队发现容器 POD 访问 SelectDB 的云下 Backend 节点偶发性超时,通过 DeepFlow 调用日志功能,发现响应码 1105 的 RpcException timeout 报错,TCP 时序图中存在数据包间隔等待 30 秒发送的现象,快速协助客户将目标锁定到云上 FrontEnd 到云下 BackEnd 之间。
难度⭐️⭐️
08|某金融科技公司
业务访问异常
客户业务部门反馈应用集群中某业务,在业务访问高峰时段前,无法正常访问,出现传输超时现象。通过 DeepFlow 平台查看问题时段的业务 IP 地址,未发现重传、建连失败等网络问题,再通过流日志功能发现客户端未请求数据,快速断定该问题出在应用侧未主动请求数据造成的“传输超时”,应用部门得以准确排查解决故障。
难度⭐️⭐️
09|某省电信运营商
服务端端口建联失败
通过 DeepFlow 平台进行日常巡检,发现生产环境“某核心系统”中服务端口建连失败比例 100%。排查后发现因为当天业务变更,收尾检查工作不完善,存在服务未重新启动的情况。全面检查变更涉及范围的所有服务,避免故障风险。
难度⭐️
10|某互联网金融公司
服务调用超时
客户反馈在使用 MF 服务时,发现 POD 调用 redis、nacos、mysql 等中间件时经常出现超时问题。经过在 DeepFlow 平台上查看日志,发现 POD 访问中间件的记录与请求日志不匹配,实际请求并未真正发生。经排查发现,问题出现在 POD 内部请求处理上。DeepFlow 可以实时捕获服务之间的交互访问记录,监测业务服务行为,从而减少故障排查的猜测,帮助定位问题节点。
难度⭐️
云杉 世纪
2024年8月2日
云杉动态, 最新内容