DeepFlow:利用 eBPF 实现 AI 大模型训练与推理的全栈零侵扰可观测性

在大模型训练与推理全面进入“重算力、强分布式、异构硬件”时代,DeepFlow 基于 eBPF 提供零侵扰、全栈、可持续的可观测性能力,覆盖从 Python 代码到 GPU/RDMA 网络,解决训练低效、推理体验不可控与异构智算黑盒三大核心问题。

Read More

云杉网络 DeepFlow 连获中国信通院认证,智能运维落地金融、电力行业

云杉网络的DeepFlow可观测性平台近期连续获得中国信通院多项认证,其与东吴证券合作的金融全链路可观测方案和与国网四川电力合作的电力智能运维方案均入选优秀案例。该平台的核心创新在于深度融合“可观测性”与“AI智能体”技术,通过全域数据采集和智能分析,实现从被动响应到主动预防的运维模式转变。目前,DeepFlow已在金融、电力等行业成功落地,有效提升了系统稳定性与运维效率,展现了其技术先进性和跨行业普适价值,未来将继续深化生态合作,助力更多行业数字化转型。

Read More

基于DeepFlow智能体的全栈可观测性平台在金融保险核心系统中的实践与量化收益分析

本文详细阐述了在SIGCOMM 2025下一代网络可观测性(NGNO)研讨会上展示的一项行业实践:某中国头部保险集团与云杉网络合作,基于DeepFlow智能体构建的“IT健康评估与故障诊断平台”。该案例针对金融保险业在数字化转型中面临的复杂架构运维挑战,提出并落地了“可视-维稳-智能”三阶演进的运维新范式。方案依托eBPF零侵扰采集、一体化数据平台及大模型驱动的智能体,实现了对超2000微服务、5000+容器节点的全栈观测,将故障定位时间缩短90%,并成功应用于支付网关(峰值QPS >10万)、核心保单处理(日超百万笔)等关键场景。本文系统分析了该方案的架构、关键技术、实施路径及量化效益,为金融行业构建具备韧性、智能与合规性的新一代IT可观测体系提供了可复制的参考模型。

Read More

基于eBPF技术的LLM推理服务全栈可观测性:架构、挑战与实践

本文系统性阐述了在云原生环境下,利用扩展伯克利包过滤器(eBPF)技术实现大语言模型(LLM)推理服务全栈可观测性的方法与架构。内容涵盖自建千亿参数LLM推理服务在异构硬件(如昇腾910B)与分布式框架(如vLLM, Ray)下面临的挑战,分析了传统可观测性三大支柱(指标、追踪、日志)及新兴性能剖析支柱的不足。文章重点介绍了DeepFlow平台如何通过eBPF实现零代码侵入的全栈指标采集、全链路追踪与混合栈(CPU/GPU)性能剖析,并辅以智能体应用与中国移动的落地案例,验证了该方案在优化GPU利用率、定位推理延迟及适配流式协议等方面的有效性。

Read More

DeepFlow 智能体发布!开启业务连续性保障新时代

随着大型语言模型(LLM)日臻成熟,AI 智能体(AI Agent)从概念走向实际应用的时代已然到来。在众多的智能体使用场景中,可观测性天然具备智能体成功落地的三大要素:高质量的结构化数据、功能丰富的专业工具,以及明确的业务目标——保障系统稳定性。通过将先进的 AI 技术与可观测性场景融合,DeepFlow 智能体能够自主感知环境、推理决策并执行任务,为 IT 团队提供从日常巡检到快速诊断的全方位支持。这不仅提升了运维效率,更将 IT 人员从繁琐的日常任务中解放出来,使他们能够紧跟技术趋势,驾驭先进的 AI 工具,为业务连续性提供更坚实的保障。

Read More

DeepFlow携手保险行业巨头亮相SIGCOMM,展示AI可观测性于金融系统的价值

在美国计算机协会(ACM)旗舰会议 SIGCOMM 2025 的首届 Next-Generation Network Observability (NGNO) Workshop 上,云杉网络与中国某头部保险集团展示“基于 DeepFlow 智能体的IT健康评估和故障诊断平台”,成为全球产学研关注的焦点。作为保险行业首个实现 “可视 — 维稳 — 智能” 全阶段落地的标杆项目,其不仅印证了AI时代下智能体和可观测性技术相结合的应用价值,更为此保险科技公司践行 “科技资源整合、服务能力支撑、运营共享服务、价值创造” 四大战略定位提供了核心技术支撑,为金融行业 IT 转型输出了可复制的实践路径。

Read More