DeepFlow网络性能监控可观测部署实践案例

云杉网络

March 27, 2024

云杉动态

当然,出于数据呈现角度以及各个团队使用习惯的考虑,DeepFlow Server 端也能够以简单易用的 SQL API 方式,对外提供统一的数据服务。

案例一
比如在已有落地客户处,就有这样的使用场景。DeepFlow 可观测平台建设完成后,网络、SRE 团队习惯性地使用 DeepFlow 的 GUI 进行运维排障,而有些业务团队更习惯使用 Grafana,那么 DeepFlow 也可以作为 Grafana 的 DataSource,以及为 Grafana 增加了一些 Panel,不用修改业务代码即可展示各业务团队关注的重点业务的全景调用关系,能够准确地回答谁在访问我、以及我在访问谁的问题,同时提供非常精细的全栈指标,帮助各业务团队实现数据自服务能力。
案例二
同样,也可以在 Skywalking 中集成并展示 DeepFlow 海量的观测数据,只需要在点击 Span 的那一刻改改代码,加个页面,即可展示应用调用的全链路以及每一跳的时延,通过调用 DeepFlow SQL API 把路径逐跳虚拟网元相对应的网络 Metrics 给自动关联上,比如重传、零窗、建连失败等等,实现观测数据的共享与协作。这也是客户侧落地的一个比较轻量的方案,为业务开发团队提供无盲点的分布式追踪服务。
DeepFlow 是一个高度开放的网络性能监控、观测数据协作平台,目前底层数据平台的内核已经开源,是 CNCF Cloud Native Landscape 以及 eBPF Project Landscape 官方认证和推荐。
基于 AutoTracing、AutoMetrics 技术能够实现自动的全链路追踪,以及自动的全栈性能指标,基于 AutoTagging、SmartEncoding 技术实现多云资源池业务的自动打标,解决数据高基数场景下的性能、存储问题,以及能够集成并自动关联各团队已使用的可观测工具,如 Skywalking、Prometheus、Telegraf、oTel 等,丰富整体观测指标,有效拉通应用、中间件、容器、网络等团队的观测数据。
实现数据标签统一化、全面化,有效降低各部门间的沟通成本,专注数据的分析消费,提升跨部门协作能力。同时通过海量、标准化的观测数据,能够支撑上层一站式服务管理系统的建设,如风险治理、智能运维等,助力各企业向数字化转型方向迈进。

]]>

Related Posts

运动战:AI 时代 IT 运维的决胜之道——DeepFlow 业务全链路可观测性的落地实践

当真实的系统故障来临时,告警此起彼伏,由于全线布防,各个系统都在疯狂报警。工程师手忙脚乱,真正的故障究竟发生在哪里,反而更难判断。那位朋友期望的"AI 处理海量告警",真到了关键时刻却变成了这样:一次核心交易系统故障,系统瞬间喷涌出数千条告警,AI 分析平台面对海量噪音反而不知道什么是重点,运维团队花了两个多小时才从层层迷雾中手工找到问题点。

Read More

DeepFlow 全栈可观测平台 赋能企业 OA 系统服务质量提升

本文深入探讨了 DeepFlow 全栈可观测性平台,在企业核心 OA 系统中的实战应用。针对某大型客户 OA 系统长期存在的响应迟缓、偶发故障等顽疾,DeepFlow 通过零侵扰数据采集技术,构建了从网关到应用、数据库的全景拓扑与实时告警体系。在一次典型的接口响应变慢事件中,运维团队利用“全景拓扑 — 应用调用回溯 — 代码剖析 — 大模型诊断”的闭环能力,在3分钟内精准锁定了 Java 程序 GC 异常的根因。该实践不仅大幅提升了 IT 运维效率,更有效保障了关键用户的办公体验,为企业数字化转型的服务质量优化提供了专业技术标杆。

Read More