DeepFlow 在银行数字化转型中的可观测性实践

云杉 世纪 | 2024-01-29

DeepFlow 在银行数字化转型中的可观测性实践

案例介绍
01
金融行业用户
第一个案例是来自某银行,新业务上线前的压测打不上去,使用 DeepFlow 的调用拓扑快速定位到根因是后端某个服务导致的。
这个案例展示了如何快速的定位业务压测瓶颈。
02
金融行业用户
第二个案例是来自某银行,某业务从云下迁移到云上后的应用响应时延增大,使用 DeepFlow 的全路径追踪快速定位到 KVM 网络的原因导致应用响应时延大。
这个案例展示了如何快速的定位云上业务应用时延瓶颈。
03
金融行业用户
第三个案例是来自某银行,某业务在 F5 member 池中的节点发生了多次无规律不可用告警,使用 DeepFlow 的流日志功能快速定位到不可用原因是物理网络导致的。
这个案例展示了如何快速的定位云原生环境的网络故障。
QA环节
Q1|案例1中,提到的AutoTagging可以展开介绍一下吗?
A:可参考
https://deepflow.io/docs/zh/features/auto-tagging/elimilate-data-silos/
Q2|案例2中,如何获取到全栈链路的流量?
A:部署 Agent 后,默认即可获得全栈链路的流量。
Q3|案例3中,如果是其他网络插件或模式时,我们应该如何来确认故障点呢?
A:不管是什么网络插件,对于我们的故障定位都是基本一样的。
Q4|你们的 Agent 会占用多少资源?有没有侵略性操作?
A:通常 1C1G 就可以满足绝大多数场景的流量采集,特殊情况下需要 1C2G 或 2C2G 无依赖、不修改代码、不修改业务配置、不重启业务进程。
Q5|你们所有的指标计算方式是根据什么来的?准确吗?
A:准确,可参考
https://deepflow.io/docs/zh/features/universal-map/metrics-and-operators/
Q6|经过 F5 或者其他 NAT 转换后的流量可以在拓扑图上关联出来吗?
A:可以通过我们企业版的 NAT 追踪功能将 NAT 前后的流量关联出来,也可以用调用链追踪功能追踪出来。
Q7|可以监测到内核协议栈的相关调用栈吗 如果传输瓶颈在内核协议栈这一块有什么好的办法吗?
A:如果传输瓶颈出现在内核协议栈,可以通过观察 TCP 系统时延观察出来。
Q8|问秒级时延抖动的毛刺有什么好的定位思路吗 使用deepflow可以监测那些指标来定位这种毛刺问题呢?
A:DeepFlow 支持所有指标的秒级数据,所以可以直接切换到秒粒度定位,当然我们也支持多种指标计算方式,包括最小、平均、最大等,比如要查看 TCP 建联时延的抖动毛刺,可以使用最大 TCP 建联时延。