云杉可观测性服务快讯( 2024年10月)

01|某银行 压测偶发高时延 新核心业务非功能压测偶发 10s 高时延响应,通过 DeepFlow 调用链追踪、数据库监控等功能,定界原因是后端分布式数据库响应时延高所致。 难度⭐️ 02|某银行 Redis访问认证失败 在 DeepFlow 的追踪–拓扑分析中发现某服务异常比例很高,经过调用日志的响应异常指标,定位到 Redis 服务在报-NOAUTH Authentication required.错误。推测是 Redis 配置了访问密码导致;帮助其缩小排查范围,提高定位问题的效率。 难度⭐️ 03|某证券公司 K8s集群网络延时 客户反馈中间件 K8s 集群最近出现大面积网络时延高、丢包问题,通过 DeepFlow “全链路追踪” 功能快速定位到故障的 Node 节点,且 POD 网卡建连时延高,分钟级定界是 CNI 转发性能问题,极大缩短了排障效率。 难度⭐️ 04|某银行 系统下发重复指令 自动化运维系统下发重复指令,影响执行效果,因中间经过了多重代理,不确定是从哪里开始有问题的,通过流量镜像等方式排查周期长、成本高,在客户端和服务端虚拟机内部署 deepflow-agent 后,使用 PCAP 下载功能快速提取业务原始流量,发现客户端一个指令几乎同时下发了 2 次,从而确定根因在客户端内部。 难度⭐️⭐️ 05|某银行 数据库网络链接失败 高斯数据库偶发性出现网络连接失败,在数据库系统中安装 deepflow-agent 后定位到原因是 TCP 建联客户端 SYN 结束,也就是高斯数据库服务没有对这个 TCP […]

Read More

可观测性实战:从拨云见日到抽丝剥茧快速定位业务响应时延高问题

本文分享借助 DeepFlow 在某头部劵商业务压测场景中通过调用链追踪快速定位问题的过程。解决在容器云内等复杂调用场景中解决传统监控手段覆盖不全面、排障定位无手段等痛点。分享利用 DeepFlow 如何快速在复杂的业务调用过程中抽丝剥茧,快速排除网络问题,定位Pod服务自身业务逻辑问题,展现 DeepFlow 产品价值。

Read More

金山办公基于 DeepFlow 的零侵扰可观测性实践

金山私有化项目在可观测性建设中,面临数据孤岛和缺乏全局视图的挑战,影响了问题排查效率。为此,引入 DeepFlow 和 eBPF 技术,打通了指标、追踪和日志数据的联动,提供了全局微服务调用关系。通过分阶段建设,已完成第一期目标,实现了从被动排障到主动观测的转变,提升了系统稳定性和运维效率。

Read More

云杉网络 DeepFlow &必示RiskSeer应用性能智能监控预警方案

随着云原生技术的广泛应用,社会数字化快速发展,政府、金融、通信、电力、制造、消费等各行各业正在不断的被数字化、智能化改变,涌现出越来越多的大型、超大型 IT 业务。随之而来的是 IT 业务系统的复杂度越来越高,开发迭代速度越来越快,系统规模越来越大,运行风险越来越高,而业务抖动、业务故障的经济影响、社会影响也越来越广泛。 为了应对新的 IT 生产力带来的业务保障能力的挑战,可观测性技术快速发展和成熟,成为云原生时代公认的运维技术演进方向,可观测性平台也成为 IT 企业的必备选项。 可观测性技术从数据出发,致力于提升 IT 系统的可观察性、可维护性和运行可靠性,通过新的数据采集、数据处理、数据存储技术打通数据孤岛,形成百倍、千倍于上一代监控时代的数据体量,产生了 IT 运维的“数据大爆炸”。同时伴随着机器学习、神经网络、大模型等 AI 技术的不断爆发,使用 AI 技术对“数据大爆炸”产生的可观测性数据进行智能分析,逐步落地运维智能化将进一步改变 IT 运维,并最终实现端到端的 AI 运维保障能力。 通过在OpenAIOps 社区基于AIOps Live  Benchmark:https://www.aiops.cn/aiops-live-benchmark 进行充分验证,云杉网络与必示科技携手联合发布应用性能智能监控预警方案,融合云杉网络 DeepFlow 产品在可观测性、必示科技 RiskSeer 产品在运维数据 AI 分析的深厚技术积淀,实现 IT 系统高质量、高性能、全栈的可观测数据采集、智能监控和智能分析,全面提升云原生系统的可观测和智能化运维能力。 PART.01 方案架构 云杉网络 DeepFlow 可观测性平台,以 eBPF 零侵扰(Zero Code)观测数据采集技术实现的分布式追踪数据、应用调用性能数据、函数剖析数据为核心,以智能标签(SmartEncoding)技术实现的观测信号高性能关联和存取为支撑,以观测数据 Sink 接口实现的观测数据 Pipeline 为补充,面向复杂的云基础设施及云原生应用,实现了全栈、全链路的分布式追踪、应用性能指标分析、TCP 性能指标分析、持续性能剖析、网络流回溯等一系列的深度观测能力。平台通过高性能、高质量的数据采集和开放的数据汇入,形成了汇聚 Metrics、Trace、Logging、Profiling、Events 等观测信号的可观测性数据湖,湖内的各类观测信号数据通过自动注入的标签(资源标签、业务标签)高度关联并富含上下文信息。 必示科技 RiskSeer 产品基于大数据技术和时序基础模型,面向时序数据提供基于智能动态基线的指标监控预警能力,在趋势预测方面积累了丰富的数据样本和模型算法参数,具有模型算法通用性强、处理性能高、抗数据噪音、抗数据缺损、非周期变化自适应、周期漂移自适应等诸多优异的智能特性,帮助用户及时准确的发现系统运行异常、主动消除潜在风险,持续提升业务运行健康状态。 DeepFlow 与 […]

Read More

云杉网络可观测性服务快讯( 2024年8月)

01|某省电力公司 业务无响应 能源互联网营销服务系统集群某节点业务无响应,在 DeepFlow 中发现该节点的 TCP 连接都被服务端直接重置,根据经验判断是磁盘故障导致,通过 DeepFlow 的文件读写监控发现从故障时间点开始就没有磁盘写入操作,客户通知相关业务运维修复磁盘问题后业务恢复正常。 难度⭐️ 02 | 某互联网金融公司 关键服务监控视图 客户反馈 k8s 对外服务应用报了大量线程池满,无法对外提供服务。客户侧排查 1-2 小时后才确认具体出现故障的服务点。后续通过 DeepFlow 创建 k8s 对外服务监控视图,可以直观看到具体某个时间点,服务故障响应耗时的变化,快速排查故障点及故障原因。 难度⭐️ 03 | 某汽车企业 关键业务偶发超时 客户某注册中心业务长期存在低频偶发超时情况,经多次排查发现异常 reset 请求,但始终无法界定具体故障点。通过 DeepFlow 不同位置流日志,结合时序图快速发现,在问题发生时客户端容器节点处存在一个未经 SNAT 直接请求对端 Pod 的情况,并且 ACK  序列号完全相同,初步判断为容器 CNI 异常 BUG,客户立即通知云服务团队做进一步处理。 难度⭐️ 04 | 某汽车企业 业务流量治理与优化 客户成立流量治理团队,通过调用 DeepFlow 应用 RED 指标,嵌入 DeepFlow 业务拓扑图,利用 DeepFlow […]

Read More

DeepFlow面向电力营销2.0系统全链路可观测创新实践

本文将详细介绍 DeepFlow如何运用创新全链路观测技术,从业务全链路视角、系统服务全链路视角为电网行业带来全面的业务洞察和优化体验。

Read More

云杉网络可观测性服务快讯( 2024年7月)

01|某省电力公司 业务可观测性 能源互联网营销服务系统在云原生环境上线后,通过 DeepFlow 平台以及 WASM 插件解析扩展能力,无需系统改造,实现对电网营销系统中交易标识等重点字段的安全提取,形成业务视角与网络、系统及应用视角相结合,极大提升了运维与业务的联动效率。 难度⭐️ 02|某金融科技公司 应用响应延时 某寿险业务中,应用程序同一工作负载的若干 POD 总存在响应延时超过 1 秒的现象,通过 DeepFlow 全栈链路功能的指标分析,分钟级定界问题存在于负载均衡达到性能极限边界时,负载处理所使用的轮询策略存在瓶颈,调整策略配置后解决故障。 难度⭐️⭐️ 03|某银行 告警根因分析 基础服务系统 Calico 服务超时触发告警,通过 DeepFlow CPU 持续剖析功能,排除 Calico-Node 自身问题的可能性;通过平台调用追踪功能中网络观测数据,确认 Loopback 网卡已经发出数据包,排除网络问题的可能性;通过平台调用追踪功能中应用观测数据,确认客户端收到数据但未进行处理,从而超时触发告警。系统团队精准应答解决。 难度⭐️⭐️ 04|某银行 应用响应超时 在交易高峰期“借贷系统”响应超时,通过 DeepFlow 平台的网络分析功能,对比指标以及链路状态,迅速确认网络路径均正常,通过应用调用追踪功能,数据库访问存在处理性能瓶颈。 难度⭐️ 05|某银行 业务可观测性 除保障金融业务外,对于云平台自身也同样存在观测能力提升的需求。云运维团队对于云资源的增删改查等行为始终处于监控黑盒状态,无法知晓业务方的使用情况,同时,当出现操作失败等异常情况,只能从多个服务的海量日志中过滤有效信息。监控盲点多,排障效率低。通过 DeepFlow 平台以及 WASM 插件解析扩展能力,提取标识符,绘制云控制系统服务间的调用链追踪,实现操作失败后的快速定位;对租户行为的监控分析,追踪 API 调用及 API 返回状态等。 难度⭐️ 06|某省电力公司 性能测试 在业务上云的非功能压测过程中,通过 DeepFlow 平台全景视图直观呈现交易调用、服务拓扑、网络性能、函数瓶颈等,提升测试团队评估及性能优化效率。 难度⭐️ […]

Read More

云杉网络可观测性服务快讯( 2024年6月)

第一期:10个代表性的服务典范 2024年6月 01| 某银行-数据库访问时延数 客户应用管理部门反馈某业务访问数据库与数据库部门看到的数据时延不一致,通过 DeepFlow 查看相应业务的端到端访问路径的追踪数据,定位到时延主要消耗在客户端宿主机到服务端宿主机之间,确认是因经过了非预期的过多宿主机网络链路造成时延过高。随后建议客户调整 Overlay 网络流量路径,优化后整体时延明显减低,优化效果明显。 难度 ⭐️⭐️ 02 | 某银行-压测超时重置 客户反馈信用卡联机交易压测出现超时重置现象,通过 DeepFlow 链路追踪能力,在网络拓扑中分钟级找到 LB 的 node 到 K8S Node 链路有异常,网络包中有服务端重置(RST)异常。客户随即联系云服务商,精准调整配置后解决此问题。 难度 ⭐️ 03|某银行–压测超时 客户反馈在新核心系统非功能压力测试过程中访问超时,体现为 CPU 利用率不高 ,访问流量不大,但是存在 Timeout 现象。通过 DeepFlow CPU 持续剖析能力,定位到 log 的调用是一个反射,函数没有到内核,还在应用阶段。测试组随即联系应用部门优化代码,解决超时问题。 难度⭐️⭐️ 04| 某银行-应用网关节点异常 客户认证中心网关节点偶尔无响应,异常现象持续一周时间,紧急在认证中心网关虚拟机内部署 DeepFlow 进行分析,5 分钟内通过持续剖析帮助客户判断出故障原因在处理侧的应用函数上。 难度 ⭐️⭐️ 05| 某银行-宿主机宕机 客户反馈宿主机在某时间点出现宕机现象,使用 DeepFlow 知识图谱搜索相应的宿主机,即刻得知当时受影响的云服务范围。并通过云服务器的流量数据、事件、调用日志、流日志,确定宿主机恢复后其下业务虚机恢复的时间,以及业务网络和应用性能情况。协助客户快速完成故障定位定界和性能分析报告。 难度 ⭐️⭐️ 06| […]

Read More

DeepFlow 6.5升级揭秘:新特性解读(速览版)

AutoTracing 支持 bRPC 协议,增强 gRPC、Dubbo、HTTP 协议 消息队列++,Pulsar、NATS、ActiveMQ、RabbitMQ、ZeroMQ WebAssembly 插件支持增强更多协议 支持采集 SQL 预编译参数值、登录用户名等信息 AutoProfiling 新增 Off-CPU 持续剖析并支持 AI 智能体分析 AutoTagging 更强大、更实时的标签自动注入能力 Exporter 新增 Kafka,增强 Prometheus 和 OpenTelemetry Reliability 增强熔断等防护机制,增加告警分析 Dashboard

Read More

DeepFlow 智能汽车可观测性解决方案落地实践

DeepFlow 通过 eBPF 技术零侵扰实现的全景图、分布式追踪和持续剖析等能力为车端的可观测性建设提供了开创性的新思路。

Read More