云原生可观测性平台DeepFlow的实战经验

云杉网络

March 15, 2024

云杉动态

随着 DeepFlow 云原生可观测性平台的深入应用,在光大银行的全栈云及云原生应用运维中,通过大量的运维实战案例,充分说明了可观测性对于企业 IT 开发、运维、运营的巨大价值,真正实现了云原生业务的洞察能力和稳定性保障能力的,在实际运维中云原生可观测性平台发挥了直接有效的作用:
1、在某应用从传统分布式环境向容器平台迁移工作中,开发测试环节发现该应用遇到性能压测明显受限的问题,通过传统的测试工具、APM 工具在数周的定位过程中均无法找到问题根因,导致该应用的云原生迁移进度严重受阻,因此 DeepFlow 云原生可观测性平台紧急增加对该环境的采集覆盖和分析,在1分钟后完成了对该应用访问关系的绘制和应用调用追踪,在5分钟内通过指标分析发现了微服务中的性能瓶颈点和性能瓶颈根因。
2、在云上某次***业务异常的故障定位中,需要消耗2名中级运维工程师数十个小时的工作量,进行 Pcap 抓包、读包定位,改用 DeepFlow 可观测平台提供的手段,通过1步绘制拓扑,8个指标观测,3端日志的关联分析,在30分钟内确定服务端软件异常,进而指导业务运维人员定位发现
3、RabbitMQ 消息队列未及时处理,队列积压导致的应用同步状态异常问题。
4、在某次云上数据库偶发性故障定位中,通过1步绘制拓扑,5个指标观测,3分钟内的日志分析,快速界定出故障源为数据库应用异常。
5、在某次云上虚拟机访问不通的故障定位中,通过1步绘制拓扑,3个指标观测,1分钟内的日志分析,确定是由于虚拟机路由配置缺失导致。
实现价值
通过 DeepFlow 云原生可观测性平台的构建,在光大银行的运维实践中,产生了巨大的实战价值,包括:
打开云、网、应用“黑盒”
通过 DeepFlow 云原生可观测性平台,打开了云网黑盒,打开了云原生平台的系统黑盒,打开了云原生微服务调用的黑盒。
闪速故障定责定界定位
DeepFlow 云原生可观测性平台的数据关联分析、极简高效的数据呈现,实现了分钟级时延故障定界,分钟级丢包故障定位,分钟级业务异常故障定界,疑难杂症的定位周期由数天缩短至30分钟内。
加速云原生迁移
在实践中,我们还发现通过可观测性不仅仅能加速光大银行线上生产故障定位,提升在线业务可靠性,还能够助力光大银行开发、测试阶段的异常发现、异常定位,缩短开发周期,提高上线代码质量。
而且通过 DeepFlow 可观测性的快速定界能力,能够厘清故障界面,提升光大银行内部对云、容器平台的可靠性认可,提升应用向云原生重构、迁移的信心。
打破组织边界,构建融合统一运维能力
随着云原生的发展,IT 开发组织、运维组织的形态也正在快速变革中,通过DeepFlow 可观测性构建光大银行跨云、容器、网络、应用的统一可观测能力,打通了光大网络团队、云技术团队、应用运维团队三个组织的运维边界,通过统一、客观的可观测数据,为跨组织协作提供客观依据,提升沟通效率,减少运维矛盾。
思考与总结
在可观测性平台的建设过程中,我们也遇到很多挑战和困难,比如可观测性概念推广普及难,可观测性建设缺乏指导方法论和建设标准,用户组织架构与观测数据融合的矛盾。首先,对于可观测性概念用户普及难的问题,我们发现真实的原因是可观测性概念抽象、对象宽泛、与监控区分不清、缺乏衡量标准。如果要高效率的推广可观测性,首先要站在用户的角度,结合场景,合理阐述和布道可观测性。通过大量的技术通过与交流,我们总结了简单易接受的可观测性定义:
可观测性定义1:源于监控,又不止于监控;源于运维,又不局限于运维。
可观测性定义2:通过海量、多源、异构数据(指标、追踪、日志)的获取、关联、分析,最大化发掘IT系统数据资产的价值(IT系统大数据分析、数据挖掘)。
其次,对于可观测性建设缺乏指导方法论和建设标准的问题,经过在可观测性平台建设的过程中,我们认识到可观测性的建设不是一朝一夕、一蹴而就的,可观性平台的建设更要关注持续性、成长性,更要关注平台的如下几点能力:
持续提升,不断增加新数据源的能力
持续提升,不断扩充新标签关联的能力
持续提升,不断发掘新的数据价值的能力
最后,对于用户组织架构与观测数据融合的矛盾,核心在于可观测性对于组织中各个团队的价值和收益,我们在 DeepFlow 可观测性平台的建设中,以价值为锚点,不断地推广、宣传运维数据打通、运维数据关联、运维数据融合的巨大潜力和价值,从而不断争取更多的团队和角色对可观测性的建设提供支持,构筑数据更加丰富,使用功能更加强大,数据价值更大的可观测性。

]]>

Related Posts

DeepFlow 智能体发布!开启业务连续性保障新时代

随着大型语言模型(LLM)日臻成熟,AI 智能体(AI Agent)从概念走向实际应用的时代已然到来。在众多的智能体使用场景中,可观测性天然具备智能体成功落地的三大要素:高质量的结构化数据、功能丰富的专业工具,以及明确的业务目标——保障系统稳定性。通过将先进的 AI 技术与可观测性场景融合,DeepFlow 智能体能够自主感知环境、推理决策并执行任务,为 IT 团队提供从日常巡检到快速诊断的全方位支持。这不仅提升了运维效率,更将 IT 人员从繁琐的日常任务中解放出来,使他们能够紧跟技术趋势,驾驭先进的 AI 工具,为业务连续性提供更坚实的保障。

Read More

DeepFlow携手保险行业巨头亮相SIGCOMM,展示AI可观测性于金融系统的价值

在美国计算机协会(ACM)旗舰会议 SIGCOMM 2025 的首届 Next-Generation Network Observability (NGNO) Workshop 上,云杉网络与中国某头部保险集团展示“基于 DeepFlow 智能体的IT健康评估和故障诊断平台”,成为全球产学研关注的焦点。作为保险行业首个实现 “可视 — 维稳 — 智能” 全阶段落地的标杆项目,其不仅印证了AI时代下智能体和可观测性技术相结合的应用价值,更为此保险科技公司践行 “科技资源整合、服务能力支撑、运营共享服务、价值创造” 四大战略定位提供了核心技术支撑,为金融行业 IT 转型输出了可复制的实践路径。

Read More