云杉可观测性服务快讯( 2024年10月)

Lei

November 18, 2024

云杉动态, 最新内容

01|某银行

压测偶发高时延

新核心业务非功能压测偶发 10s 高时延响应,通过 DeepFlow 调用链追踪、数据库监控等功能,定界原因是后端分布式数据库响应时延高所致。

难度⭐️


02|某银行

Redis访问认证失败

在 DeepFlow 的追踪–拓扑分析中发现某服务异常比例很高,经过调用日志的响应异常指标,定位到 Redis 服务在报-NOAUTH Authentication required.错误。推测是 Redis 配置了访问密码导致;帮助其缩小排查范围,提高定位问题的效率。

难度⭐️


03|某证券公司

K8s集群网络延时

客户反馈中间件 K8s 集群最近出现大面积网络时延高、丢包问题,通过 DeepFlow “全链路追踪” 功能快速定位到故障的 Node 节点,且 POD 网卡建连时延高,分钟级定界是 CNI 转发性能问题,极大缩短了排障效率。

难度⭐️


04|某银行

系统下发重复指令

自动化运维系统下发重复指令,影响执行效果,因中间经过了多重代理,不确定是从哪里开始有问题的,通过流量镜像等方式排查周期长、成本高,在客户端和服务端虚拟机内部署 deepflow-agent 后,使用 PCAP 下载功能快速提取业务原始流量,发现客户端一个指令几乎同时下发了 2 次,从而确定根因在客户端内部。

难度⭐️⭐️


05|某银行

数据库网络链接失败

高斯数据库偶发性出现网络连接失败,在数据库系统中安装 deepflow-agent 后定位到原因是 TCP 建联客户端 SYN 结束,也就是高斯数据库服务没有对这个 TCP 建联做出响应,经客户检查系统配置后发现是内核参数的问题。

难度⭐️⭐️


06|某证劵公司

业务无法访问

托管部某一业务集群 Oracle 数据库业务使用账号一直被锁定,导致所有使用该账户的业务无法使用;从 Oracle 报错可以看出账号锁定的原因是一直使用错误密码登录该账户导致,但是无法确认是哪些服务;通过 DeepFlow 查询该 Oracle 近期的调用日志,可以看到存在明显请求类型为 1017 返回码的请求报错为 Ivalid username/password , 从而很直观的锁定问题机器,客户修改手动修改对应机器上的服务配置的密码后问题解决。

难度⭐️⭐️


07|某银行

业务可观测

提供 WASM 插件提取 body 中的用户 ID,实现对用户行为的监控分析,如用户访问的 API 及 API 返回状态等。

难度⭐️


08|某金融科技公司

node节点报错

客户反馈 PKS 集群 node 节点偶尔报 NotReady,通过 DeepFlow 指标及 TCP 时序图分析,定位出问题点发生在 ELB,交由 ELB 团队排查根因。

难度⭐️


09|某银行

可观测性数据集成

监控部门通过 PromQL 调用 DeepFlow 的指标数据,为行内统一监控平台的完善,提供关键性的数据依据。

难度⭐️


10|某银行

服务偶发性超时

客户侧经常出现偶发现客户端访问 Redis 请求超时问题,通过日志只能看到客户端日志存在连接超时现象,但使用 ping 等命令时,网络时延健康。在通过 DeepFlow 上可以看到每笔 Redis 发起 SENTINEL GET-MASTER-ADDR-BY-NAME 请求时延、网络状态,后续通过 TCP 时序图以及 PCAP 下载,可以直观的发现客户端发送完请求报文后,在响应报文未接收完毕时就结束了连接导致。通过 DeepFlow 可以实时保存数据包用来问题回溯分析,提升排障效率。

难度⭐️⭐️

]]>

Related Posts

DeepFlow 金融核心业务系统可观测性及运维智能体建设方案

随着金融数字化转型的深入推进,银行、证券、保险等金融机构的核心业务系统正面临前所未有的复杂性挑战。云原生改造、分布式架构迁移、信创适配等多种技术路线并存,导致传统运维手段已无法满足金融级稳定性要求。 DeepFlow 基于“可观-可控-全自动”一体化运维新范式,通过零侵扰的全栈可观测性技术和AI智能体,为金融核心业务系统提供从被动响应到主动保障的全方位解决方案。该方案已在人保集团、国泰君安等头部金融机构成功落地,实现了故障平均恢复时间(MTTR)降低70%、系统可用性提升0.42个百分点的显著成效。

Read More

DeepFlow 智能体发布!开启业务连续性保障新时代

随着大型语言模型(LLM)日臻成熟,AI 智能体(AI Agent)从概念走向实际应用的时代已然到来。在众多的智能体使用场景中,可观测性天然具备智能体成功落地的三大要素:高质量的结构化数据、功能丰富的专业工具,以及明确的业务目标——保障系统稳定性。通过将先进的 AI 技术与可观测性场景融合,DeepFlow 智能体能够自主感知环境、推理决策并执行任务,为 IT 团队提供从日常巡检到快速诊断的全方位支持。这不仅提升了运维效率,更将 IT 人员从繁琐的日常任务中解放出来,使他们能够紧跟技术趋势,驾驭先进的 AI 工具,为业务连续性提供更坚实的保障。

Read More