云原生可观测性平台DeepFlow的实战经验

云杉 世纪

2024年3月15日

云杉动态

随着 DeepFlow 云原生可观测性平台的深入应用,在光大银行的全栈云及云原生应用运维中,通过大量的运维实战案例,充分说明了可观测性对于企业 IT 开发、运维、运营的巨大价值,真正实现了云原生业务的洞察能力和稳定性保障能力的,在实际运维中云原生可观测性平台发挥了直接有效的作用:
1、在某应用从传统分布式环境向容器平台迁移工作中,开发测试环节发现该应用遇到性能压测明显受限的问题,通过传统的测试工具、APM 工具在数周的定位过程中均无法找到问题根因,导致该应用的云原生迁移进度严重受阻,因此 DeepFlow 云原生可观测性平台紧急增加对该环境的采集覆盖和分析,在1分钟后完成了对该应用访问关系的绘制和应用调用追踪,在5分钟内通过指标分析发现了微服务中的性能瓶颈点和性能瓶颈根因。
2、在云上某次***业务异常的故障定位中,需要消耗2名中级运维工程师数十个小时的工作量,进行 Pcap 抓包、读包定位,改用 DeepFlow 可观测平台提供的手段,通过1步绘制拓扑,8个指标观测,3端日志的关联分析,在30分钟内确定服务端软件异常,进而指导业务运维人员定位发现
3、RabbitMQ 消息队列未及时处理,队列积压导致的应用同步状态异常问题。
4、在某次云上数据库偶发性故障定位中,通过1步绘制拓扑,5个指标观测,3分钟内的日志分析,快速界定出故障源为数据库应用异常。
5、在某次云上虚拟机访问不通的故障定位中,通过1步绘制拓扑,3个指标观测,1分钟内的日志分析,确定是由于虚拟机路由配置缺失导致。
实现价值
通过 DeepFlow 云原生可观测性平台的构建,在光大银行的运维实践中,产生了巨大的实战价值,包括:
打开云、网、应用“黑盒”
通过 DeepFlow 云原生可观测性平台,打开了云网黑盒,打开了云原生平台的系统黑盒,打开了云原生微服务调用的黑盒。
闪速故障定责定界定位
DeepFlow 云原生可观测性平台的数据关联分析、极简高效的数据呈现,实现了分钟级时延故障定界,分钟级丢包故障定位,分钟级业务异常故障定界,疑难杂症的定位周期由数天缩短至30分钟内。
加速云原生迁移
在实践中,我们还发现通过可观测性不仅仅能加速光大银行线上生产故障定位,提升在线业务可靠性,还能够助力光大银行开发、测试阶段的异常发现、异常定位,缩短开发周期,提高上线代码质量。
而且通过 DeepFlow 可观测性的快速定界能力,能够厘清故障界面,提升光大银行内部对云、容器平台的可靠性认可,提升应用向云原生重构、迁移的信心。
打破组织边界,构建融合统一运维能力
随着云原生的发展,IT 开发组织、运维组织的形态也正在快速变革中,通过DeepFlow 可观测性构建光大银行跨云、容器、网络、应用的统一可观测能力,打通了光大网络团队、云技术团队、应用运维团队三个组织的运维边界,通过统一、客观的可观测数据,为跨组织协作提供客观依据,提升沟通效率,减少运维矛盾。
思考与总结
在可观测性平台的建设过程中,我们也遇到很多挑战和困难,比如可观测性概念推广普及难,可观测性建设缺乏指导方法论和建设标准,用户组织架构与观测数据融合的矛盾。首先,对于可观测性概念用户普及难的问题,我们发现真实的原因是可观测性概念抽象、对象宽泛、与监控区分不清、缺乏衡量标准。如果要高效率的推广可观测性,首先要站在用户的角度,结合场景,合理阐述和布道可观测性。通过大量的技术通过与交流,我们总结了简单易接受的可观测性定义:
可观测性定义1:源于监控,又不止于监控;源于运维,又不局限于运维。
可观测性定义2:通过海量、多源、异构数据(指标、追踪、日志)的获取、关联、分析,最大化发掘IT系统数据资产的价值(IT系统大数据分析、数据挖掘)。
其次,对于可观测性建设缺乏指导方法论和建设标准的问题,经过在可观测性平台建设的过程中,我们认识到可观测性的建设不是一朝一夕、一蹴而就的,可观性平台的建设更要关注持续性、成长性,更要关注平台的如下几点能力:
持续提升,不断增加新数据源的能力
持续提升,不断扩充新标签关联的能力
持续提升,不断发掘新的数据价值的能力
最后,对于用户组织架构与观测数据融合的矛盾,核心在于可观测性对于组织中各个团队的价值和收益,我们在 DeepFlow 可观测性平台的建设中,以价值为锚点,不断地推广、宣传运维数据打通、运维数据关联、运维数据融合的巨大潜力和价值,从而不断争取更多的团队和角色对可观测性的建设提供支持,构筑数据更加丰富,使用功能更加强大,数据价值更大的可观测性。

Related Posts

云杉网络 DeepFlow 联合 TDSQL 完成技术兼容互认证

近日,北京云杉世纪网络科技有限公司(以下简称:云杉网络)的云原生可观测性产品 DeepFlow&nb […]

Read More

浅谈云原生可观测性生态的优化和丰富

云杉 世纪

2024年4月5日

云杉动态

云原生可观测数据中的时序数据 Metrics,在业务高基数、持久化存储、乱序写入、多租户隔离等场景下,对后端时 […]

Read More