云杉网络可观测性服务快讯( 2024年8月)

01|某省电力公司 业务无响应 能源互联网营销服务系统集群某节点业务无响应,在 DeepFlow 中发现该节点的 TCP 连接都被服务端直接重置,根据经验判断是磁盘故障导致,通过 DeepFlow 的文件读写监控发现从故障时间点开始就没有磁盘写入操作,客户通知相关业务运维修复磁盘问题后业务恢复正常。 难度⭐️ 02 | 某互联网金融公司 关键服务监控视图 客户反馈 k8s 对外服务应用报了大量线程池满,无法对外提供服务。客户侧排查 1-2 小时后才确认具体出现故障的服务点。后续通过 DeepFlow 创建 k8s 对外服务监控视图,可以直观看到具体某个时间点,服务故障响应耗时的变化,快速排查故障点及故障原因。 难度⭐️ 03 | 某汽车企业 关键业务偶发超时 客户某注册中心业务长期存在低频偶发超时情况,经多次排查发现异常 reset 请求,但始终无法界定具体故障点。通过 DeepFlow 不同位置流日志,结合时序图快速发现,在问题发生时客户端容器节点处存在一个未经 SNAT 直接请求对端 Pod 的情况,并且 ACK  序列号完全相同,初步判断为容器 CNI 异常 BUG,客户立即通知云服务团队做进一步处理。 难度⭐️ 04 | 某汽车企业 业务流量治理与优化 客户成立流量治理团队,通过调用 DeepFlow 应用 RED 指标,嵌入 DeepFlow 业务拓扑图,利用 DeepFlow […]

Read More

DeepFlow面向电力营销2.0系统全链路可观测创新实践

本文将详细介绍 DeepFlow如何运用创新全链路观测技术,从业务全链路视角、系统服务全链路视角为电网行业带来全面的业务洞察和优化体验。

Read More

云杉网络可观测性服务快讯( 2024年7月)

01|某省电力公司 业务可观测性 能源互联网营销服务系统在云原生环境上线后,通过 DeepFlow 平台以及 WASM 插件解析扩展能力,无需系统改造,实现对电网营销系统中交易标识等重点字段的安全提取,形成业务视角与网络、系统及应用视角相结合,极大提升了运维与业务的联动效率。 难度⭐️ 02|某金融科技公司 应用响应延时 某寿险业务中,应用程序同一工作负载的若干 POD 总存在响应延时超过 1 秒的现象,通过 DeepFlow 全栈链路功能的指标分析,分钟级定界问题存在于负载均衡达到性能极限边界时,负载处理所使用的轮询策略存在瓶颈,调整策略配置后解决故障。 难度⭐️⭐️ 03|某银行 告警根因分析 基础服务系统 Calico 服务超时触发告警,通过 DeepFlow CPU 持续剖析功能,排除 Calico-Node 自身问题的可能性;通过平台调用追踪功能中网络观测数据,确认 Loopback 网卡已经发出数据包,排除网络问题的可能性;通过平台调用追踪功能中应用观测数据,确认客户端收到数据但未进行处理,从而超时触发告警。系统团队精准应答解决。 难度⭐️⭐️ 04|某银行 应用响应超时 在交易高峰期“借贷系统”响应超时,通过 DeepFlow 平台的网络分析功能,对比指标以及链路状态,迅速确认网络路径均正常,通过应用调用追踪功能,数据库访问存在处理性能瓶颈。 难度⭐️ 05|某银行 业务可观测性 除保障金融业务外,对于云平台自身也同样存在观测能力提升的需求。云运维团队对于云资源的增删改查等行为始终处于监控黑盒状态,无法知晓业务方的使用情况,同时,当出现操作失败等异常情况,只能从多个服务的海量日志中过滤有效信息。监控盲点多,排障效率低。通过 DeepFlow 平台以及 WASM 插件解析扩展能力,提取标识符,绘制云控制系统服务间的调用链追踪,实现操作失败后的快速定位;对租户行为的监控分析,追踪 API 调用及 API 返回状态等。 难度⭐️ 06|某省电力公司 性能测试 在业务上云的非功能压测过程中,通过 DeepFlow 平台全景视图直观呈现交易调用、服务拓扑、网络性能、函数瓶颈等,提升测试团队评估及性能优化效率。 难度⭐️ […]

Read More

云杉网络可观测性服务快讯( 2024年6月)

第一期:10个代表性的服务典范 2024年6月 01| 某银行-数据库访问时延数 客户应用管理部门反馈某业务访问数据库与数据库部门看到的数据时延不一致,通过 DeepFlow 查看相应业务的端到端访问路径的追踪数据,定位到时延主要消耗在客户端宿主机到服务端宿主机之间,确认是因经过了非预期的过多宿主机网络链路造成时延过高。随后建议客户调整 Overlay 网络流量路径,优化后整体时延明显减低,优化效果明显。 难度 ⭐️⭐️ 02 | 某银行-压测超时重置 客户反馈信用卡联机交易压测出现超时重置现象,通过 DeepFlow 链路追踪能力,在网络拓扑中分钟级找到 LB 的 node 到 K8S Node 链路有异常,网络包中有服务端重置(RST)异常。客户随即联系云服务商,精准调整配置后解决此问题。 难度 ⭐️ 03|某银行–压测超时 客户反馈在新核心系统非功能压力测试过程中访问超时,体现为 CPU 利用率不高 ,访问流量不大,但是存在 Timeout 现象。通过 DeepFlow CPU 持续剖析能力,定位到 log 的调用是一个反射,函数没有到内核,还在应用阶段。测试组随即联系应用部门优化代码,解决超时问题。 难度⭐️⭐️ 04| 某银行-应用网关节点异常 客户认证中心网关节点偶尔无响应,异常现象持续一周时间,紧急在认证中心网关虚拟机内部署 DeepFlow 进行分析,5 分钟内通过持续剖析帮助客户判断出故障原因在处理侧的应用函数上。 难度 ⭐️⭐️ 05| 某银行-宿主机宕机 客户反馈宿主机在某时间点出现宕机现象,使用 DeepFlow 知识图谱搜索相应的宿主机,即刻得知当时受影响的云服务范围。并通过云服务器的流量数据、事件、调用日志、流日志,确定宿主机恢复后其下业务虚机恢复的时间,以及业务网络和应用性能情况。协助客户快速完成故障定位定界和性能分析报告。 难度 ⭐️⭐️ 06| […]

Read More

DeepFlow 6.5升级揭秘:新特性解读(速览版)

AutoTracing 支持 bRPC 协议,增强 gRPC、Dubbo、HTTP 协议 消息队列++,Pulsar、NATS、ActiveMQ、RabbitMQ、ZeroMQ WebAssembly 插件支持增强更多协议 支持采集 SQL 预编译参数值、登录用户名等信息 AutoProfiling 新增 Off-CPU 持续剖析并支持 AI 智能体分析 AutoTagging 更强大、更实时的标签自动注入能力 Exporter 新增 Kafka,增强 Prometheus 和 OpenTelemetry Reliability 增强熔断等防护机制,增加告警分析 Dashboard

Read More

DeepFlow 全景性能监控 看清混合云再无死角

SDN in China

2022年11月4日

产品资讯

随着云计算新技术的不断引入,传统的网络运维、监控方案越来越难以持续,云时代的网络监控诊断遇到了新的挑战。由于缺少全景性能监控,云化后的虚拟资源时刻发生变化、虚拟网络的层级不断叠加和转换、不同业务的网络服务拆分和交织在一起,网络的日常运维工作由此变得非常复杂。如果您正在遭遇这样的“黑盒”挑战,建议使用🔗DeepFlow可观测性平台,获得全景性能监控能力。

Read More

DeepFlow基于开源 构建高度自动化的可观测性平台

SDN in China

2022年10月28日

产品资讯

建设可观测性已经成为云原生应用开发者的必要工作,然而现有的解决方案正悄无声息的消耗着开发者越来越多的时间。由于云网络可观测性的缺乏,大量问题遗留下来成为悬案并又频频重现。基于多年可观测性建设的实践积累,向大家推荐一款开源的 DeepFlow 可观测性平台。

Read More

DeepFlow v6.1.1 重大更新 应用性能监控能力极大增强 开源社区同步发布

DeepFlow 是一个高度自动化的可观测性协作平台,是为云原生应用开发者建设可观测性能力而量身打造的全栈、全链路、高性能数据引擎。在历时三个月开发后,DeepFlow v6.1.1 正式发布,这是 V6 系列的一个重大迭代版本,也是 DeepFlow 正式发布的第一个社区版。

Read More

直播回放 | DeepFlow AutoLogging:自动采集应用调用日志和流日志

第九期“原力释放 云原生可观测性分享会”云杉网络 产品专家 李倩分享了《DeepFlow AutoLogging:自动采集应用调用日志和流日志》主题, DeepFlow AutoLogging 可以自动采集网络流日志,并提供丰富的性能指标和精细至每包的TCP时序日志,与应用调用日志结合提供完整的全栈回溯能力。

Read More

大会预告|云杉网络邀你一起参加GOPS全球运维大会

SDN in China

2022年8月17日

技术干货

第十八届 GOPS 全球运维大会将于2022年8月19日至8月20日在深圳召开。大会将为期2天,侧重方向是 DevOps、AIOps、DevSecOps、云原生、效能度量等技术领域。云杉网络受邀参会,并在“可观测性技术实践专场”分享主题演讲。

Read More