DeepFlow:利用 eBPF 实现 AI 大模型训练与推理的全栈零侵扰可观测性

在大模型训练与推理全面进入“重算力、强分布式、异构硬件”时代,DeepFlow 基于 eBPF 提供零侵扰、全栈、可持续的可观测性能力,覆盖从 Python 代码到 GPU/RDMA 网络,解决训练低效、推理体验不可控与异构智算黑盒三大核心问题。

Read More

基于DeepFlow智能体的全栈可观测性平台在金融保险核心系统中的实践与量化收益分析

本文详细阐述了在SIGCOMM 2025下一代网络可观测性(NGNO)研讨会上展示的一项行业实践:某中国头部保险集团与云杉网络合作,基于DeepFlow智能体构建的“IT健康评估与故障诊断平台”。该案例针对金融保险业在数字化转型中面临的复杂架构运维挑战,提出并落地了“可视-维稳-智能”三阶演进的运维新范式。方案依托eBPF零侵扰采集、一体化数据平台及大模型驱动的智能体,实现了对超2000微服务、5000+容器节点的全栈观测,将故障定位时间缩短90%,并成功应用于支付网关(峰值QPS >10万)、核心保单处理(日超百万笔)等关键场景。本文系统分析了该方案的架构、关键技术、实施路径及量化效益,为金融行业构建具备韧性、智能与合规性的新一代IT可观测体系提供了可复制的参考模型。

Read More

基于eBPF技术的LLM推理服务全栈可观测性:架构、挑战与实践

本文系统性阐述了在云原生环境下,利用扩展伯克利包过滤器(eBPF)技术实现大语言模型(LLM)推理服务全栈可观测性的方法与架构。内容涵盖自建千亿参数LLM推理服务在异构硬件(如昇腾910B)与分布式框架(如vLLM, Ray)下面临的挑战,分析了传统可观测性三大支柱(指标、追踪、日志)及新兴性能剖析支柱的不足。文章重点介绍了DeepFlow平台如何通过eBPF实现零代码侵入的全栈指标采集、全链路追踪与混合栈(CPU/GPU)性能剖析,并辅以智能体应用与中国移动的落地案例,验证了该方案在优化GPU利用率、定位推理延迟及适配流式协议等方面的有效性。

Read More