DeepFlow:利用 eBPF 实现 AI 大模型训练与推理的全栈零侵扰可观测性

摘要: 在大模型训练与推理全面进入"重算力、强分布式、异构硬件"时代,DeepFlow 基于 eBPF 提供零侵扰、全栈、可持续的可观测性能力,覆盖从 Python 代码到 GPU / RDMA 网络,解决训练低效、推理体验不可控与异构智算黑盒三大核心问题。

关键词:大模型可观测性、TTFT / TPOT 监控、零侵扰可观测性、异构智算平台

01  |   AI 大模型时代的性能挑战

大型语言模型(LLM)已成为技术变革的核心驱动力,深刻地改变着各行各业。然而,其复杂的训练和推理过程给企业的基础设施带来了前所未有的性能、效率和稳定性挑战。无论是动辄消耗数万张 GPU、持续数月的模型训练,还是保障亿万用户体验的实时推理服务,都对底层的计算、网络和存储资源提出了极致要求。我们有必要从业务全生命周期的视角,重新审视这些隐蔽而棘手的痛点。

图1:AI 大模型时代的可观测性挑战

训练阶段:昂贵资源与低效产出的博弈

训练一个顶级模型是一项浩大的工程,但业界的数据揭示了一个残酷的现实:高昂的资源投入往往伴随着令人担忧的低效与不稳。

以 GPT-4 为例,其训练过程调用了约 25,000 张 A100 GPU,耗时近 100 天;而 Meta 最新的 Llama-3.1 405B 模型,也动用了 16,000 张 H100 GPU 持续训练了 54 天 。然而,当我们用 MFU(Model FLOPs Utilization)这一指标来审视算力转化时,结果却不尽如人意—— GPT-4 的有效利用率仅为 32%-36%,这意味着超过六成的昂贵算力在等待数据或通信瓶颈中被白白浪费。

更令人头疼的是频发的硬件故障。在 Llama 3 405B 的预训练观察中,我们发现 GPU 的年化故障率高达 6% 至 11%,其中硬件问题占据了训练中断原因的 78% 。无论是 GPU 本身的故障(占比 30.1%)还是 HBM3 显存问题(占比 17.2%),这些不可控因素不仅延长了训练周期,更让研发成本和进度变得难以预测 。这迫切要求我们具备一种能够深入底层、全栈透视的观测能力。

推理阶段:用户体验与架构黑盒的矛盾

当模型完成训练并部署为推理服务时,挑战从资源效率转移到了对用户体验的极致追求上。

  • 分布式推理的复杂性:对于千亿级参数的庞大模型,单张 GPU 无法承载,必须采用分布式推理,将模型切分到多个节点上。这引入了复杂的分布式调用链,一个用户请求可能触发 API 网关、推理引擎、向量数据库、缓存系统等多个组件之间的交互,使得追踪性能瓶颈变得异常困难。
  • 关键性能指标(TTFT/TPOT)的观测盲区: 衡量 LLM 服务用户体验的核心指标是 TTFT(Time To First Token,首字响应时间)和 TPOT(Time Per Output Token,每 Token 输出时间)。但在复杂的分布式系统中,由于调用链路长、技术栈异构,要实现对这两个指标的端到端、全链路追踪,传统监控工具存在明显的观测盲区。
  • 新兴优化技术的黑盒化:为了降本增效,DeepSeek API 率先采用的 MLA(Multi-head Latent Attention)架构 和 磁盘缓存技术,极大地降低了推理成本,但也让系统内部变成了一个难以窥探的"黑盒",传统的监控方法无法洞察其缓存命中率、磁盘 I/O 耗时等关键性能表现,给性能优化带来了新的挑战。这种技术抽象层的加厚,意味着如果我们不能穿透表象直达底层的 I/O 与基本计算单元,将彻底失去对性能的掌控力。

智算平台:异构硬件的性能黑盒

随着 AI 芯片国产化进程的加速,许多企业开始构建混合使用不同供应商芯片的"异构智算平台",例如同时部署 NVIDIA、华为昇腾、昆仑芯等 AI 芯片。这种异构环境虽然提供了更灵活的选择,但也带来了严峻的性能评估与优化挑战。

由于不同芯片的架构、驱动和配套软件各不相同,它们的性能表现往往像一个"黑盒"。企业迫切需要回答:对于特定的 AI 业务,哪款芯片的性价比最高?不同芯片之间应该如何配比以实现资源利用最大化?如何针对性地进行性能调优?要回答这些问题,必须从 AI 业务的视角出发,建立一个中立、统一、全栈的可观测性系统,以客观的数据支撑芯片选型、资源配比和性能优化决策。

然而,现有的可观测性工具在应对上述训练、推理和异构平台挑战时,往往显得力不从心,存在着各种局限性。

02  |   传统可观测性工具的局限性

尽管市场上存在多种性能分析和追踪工具,但它们在设计之初并未完全适应 AI 大模型的独特需求。这些工具普遍存在侵入性强、上下文缺失和性能开销大等问题,导致它们无法有效定位和解决大模型应用中的性能瓶颈,难以满足企业对高效、稳定 AI 基础设施的期望。

图2:传统可观测性工具的局限性

性能剖析工具:侵入性强且上下文缺失

性能剖析(Profiling)是定位代码瓶颈的关键手段,但主流的剖析工具存在明显短板。

工具名称 核心局限性
NVIDIA Nsight 深入 GPU 底层细节,但缺少 CPU 侧的完整上下文,无法将 GPU 的活动与上层 Python 代码调用栈有效关联,对应用开发者不友好。
PyTorch Profiler 需要开发者手动修改代码、重启进程,侵入性强;同时,其自身会带来较大的性能影响,并且观测能力仅限于 PyTorch 框架内部。

这些工具要么过于底层、脱离业务逻辑,要么需要高昂的人工和性能成本,无法实现对生产环境的"零侵扰"持续剖析。

分布式追踪工具:依赖手动插桩

对于分布式推理服务的性能追踪,当前主流的 LLM 应用追踪工具,如 OpenLLMetry、LangSmith 等方案依赖代码层手动插桩,这在快速迭代的 LLM 应用中无异于沙上建塔。新部署一个 LoRA 适配器或切换 vLLM 版本,都可能破坏既有插桩逻辑;跨语言调用(如 Python 服务调用 Rust 编写的推理引擎)更是形成追踪盲区。

更深层的矛盾在于,这类工具无法感知基础设施层的隐形开销——一次 DNS 解析超时或 TLS 证书验证延迟,在应用日志中仅表现为"偶然慢请求",却可能正是拖垮 TTFT 的罪魁祸首。这种"只能看见自己埋的点"的观测模式,在分布式推理的混沌系统中,注定难以为继。

综上所述,市场迫切需要一种无需修改代码、能够无缝覆盖从 CPU 到 GPU 全技术栈、并能自动关联分布式调用的新型可观测性解决方案,以应对 AI 大模型带来的复杂挑战。

03  |   DeepFlow 核心能力:基于 eBPF 的零侵扰全栈可观测性

图3:DeepFlow 的三大核心能力

当传统方法陷入僵局,eBPF 技术为 AI 基础设施观测开辟了第三条道路。DeepFlow 并非简单地将 eBPF 作为数据采集插件,而是基于其"零侵扰、热加载、高性能、全栈覆盖"的本质特性,重构了从数据关联到分析呈现的完整链路。以"零侵扰"和"全栈覆盖"为核心理念,为 AI 大模型的训练与推理提供了前所未有的深度洞察力。

全栈持续性能剖析:从 Python 到 GPU 的无缝叙事

  • 剖析广度:完整覆盖从 Python 业务函数、vLLM/PyTorch 等框架函数,到 C/C++ 库函数、CUDA API 乃至操作系统内核函数的完整调用栈。
  • 剖析类型:能够清晰地区分并量化不同类型的资源消耗,包括 On-CPU (CPU 运算耗时)、On-GPU (GPU 运算耗时)、Off-CPU (CPU 等待耗时),以及显存的 >mem-alloc (累计申请量) 和 mem-inuse (实时使用量)。
  • 问题定位:通过直观的火焰图等可视化视图,能够精准回答关键性能问题,例如"哪个函数调用栈在 CPU 或 GPU 上耗时最长?"以及"为何会出现显存 OOM?是哪个函数调用栈申请或持有的显存最多?"

分布式追踪:穿透黑盒的端到端关联

利用 eBPF 和 Wasm 技术,DeepFlow 能够自动追踪分布式系统中的每一次应用调用(如 HTTP, RPC, SQL 等),并构建完整的调用链,全程无需任何代码修改或手动插桩。

  • 动捕获 LLM 关键指标:无需任何配置,即可自动计算 LLM 推理服务中端到端的 TTFT 和 TPOT,精准衡量用户体验。
  • 穿透基础设施黑盒:能够自动追踪并量化过去难以观测的底层基础设施操作耗时,如 DNS 解析、TCP 建连、TLS 握手、网络传输、磁盘 I/O 等,将应用性能问题与基础设施瓶颈无缝关联。
  • 追踪新兴架构:DeepFlow 具备强大的适应能力,能够追踪新兴的 LLM 优化架构。例如,它可以零侵扰地追踪 DeepSeek API 所采用的 Disk/OSS KV Cache 的读写性能,量化缓存带来的实际收益。

高性能网络剖析 (RDMA Profiling)

RDMA(远程直接内存访问)网络是 AI 训练集群中实现高性能 GPU 间通信的关键,但其性能通常是一个"黑盒"。DeepFlow 通过 eBPF 技术,首次实现了对 RDMA 通信的流粒度观测。它能够提供丢包率、时延、吞吐量等关键网络性能指标,帮助运维人员快速定位网络拥塞或抖动问题,保障训练任务的稳定高效运行。通过将 RDMA 网络从'黑盒'变为'白盒',企业不仅能快速解决偶发的训练性能抖动,更能为未来更大规模集群的规划和网络拓扑设计提供决定性的数据依据,避免代价高昂的架构性错误。

04  |   商业价值与实践案例

案例一:某头部券商——构建异构智算平台的可观测性

DeepFlow 不仅提供了一系列先进的技术能力,更重要的是,它为企业带来了实实在在的商业价值,包括显著提升宝贵的 GPU 资源利用率、百倍加速故障排查效率,并为技术选型和业务创新提供坚实的数据支撑。

图4:某头部券商大模型训推平台的可观测性建设

  • 背景与挑战:某头部券商为了推动大模型在金融领域的应用,构建了一个包含 NVIDIA(T4/A100)和华为昇腾(910B)芯片的异构智算资源池,用于模型的微调训练和推理服务。他们面临的核心挑战是如何在一个统一的平台上,对不同硬件、不同应用进行无差别的性能监控和瓶颈分析。
  • 方案价值:DeepFlow 提供了一个"零侵扰、全栈、兼容异构"的统一可观测平台,完美解决了客户的痛点。
    • 统一数据采集:在不修改任何训练和推理应用代码的情况下,从应用、云原生基础设施到 CPU/GPU 硬件层采集全链路数据,并统一标准化。
    • 赋能国产化:方案深度适配国产化芯片与操作系统满足信创需求,实现数千节点集群的可观测性管理,为信创硬件选型提供数据支撑
    • 精准定位:提供全栈函数级性能剖析与分布式追踪,精准定位从业务代码到 CUDA 内核的算力瓶颈,为后续的性能优化指明了方向。
    • 智能排障闭环:集成 LLM 构建可观测智能体,实现分钟级巡检、秒级诊断与自动化决策。
  • 实践成效:故障定位时间从小时级缩短至 5 分钟内,分析诊断等待时间节省约 80%,并大幅降低了对专家经验的依赖。在 DeepSeek API 等场景中,通过追踪分析助力推理时延降低 50% 以上,有效保障了 GPU 业务的连续性,提升了运维效率和系统可观测性水平。

来自客户实践案例 《某证券可观测性再升级!DeepFlow 排障智能体和智算可观测性建设实践》

案例二:中国移动——零侵扰采集 LLM 服务核心业务指标

图5:中国移动深度解析 DeepFlow 如何采集大模型服务的业务指标

  • 背景与挑战:中国移动某部门在部署 LLM 服务时,需要采集一系列核心业务指标以评估服务质量和用户体验,包括 TTFT、TPOT、Token 产出率、并发量 等。传统方法需要在业务代码中进行大量插桩,费时费力。
  • 实现方式:
    • 开箱即用的基础可观测:利用 eBPF 技术,在零代码侵扰的前提下,自动为客服大模型提供了全景服务拓扑、丰富的性能指标以及全栈调用链追踪。
    • 零侵扰的业务指标采集:针对 TTFT、TPOT 等特有指标,利用 DeepFlow 的 Wasm 插件机,直接从网络流量中实时计算并提取业务指标。
    • 统一标准的性能度量:该方案为跨多个云和基础大模型的复杂调用,建立了统一的关键性能指标采集与输出标准,解决了多团队协作下的观测数据统一难题。
  • 实践成效:
    • 客服大模型上线后立即获得了开箱即用的全景拓扑与调用链,并能同时监控从基础设施、网络、应用到核心业务(TTFT/TPOT)的全维度指标。
    • 团队直观评估与大模型用户体验直接相关的性能表现,为后续的性能瓶颈定位、资源优化及体验提升提供了坚实的数据支撑。

来自社区用户实践案例 《深度解析 DeepFlow 如何采集大模型服务的业务指标》

05  |   结语

在 AI 大模型技术浪潮席卷全球的今天,算力的效率和稳定性已成为企业构筑核心竞争力的关键。DeepFlow 正通过革命性的 eBPF 技术,重新定义 AI 时代的可观测性。帮助企业在复杂的 LLM 应用场景中,有效提升 GPU 利用率,将算力价值最大化;百倍加速故障排查效率,保障业务的连续性和稳定性;并为异构智算平台的评估和优化提供客观依据,从而在激烈的市场竞争中赢得先机。

06  |   关于云杉网络

云杉网络(YUNSHAN Networks)是一家专注于可观测性领域的新一代基础软件公司,致力于通过原创性技术解决大规模企业 IT 系统在云原生和 AI 时代面临的稳定性与效率难题。核心产品为 DeepFlow 可观测性平台和运维智能体,基于首创的零侵扰数据采集技术、思维链状态机、自适应感知等一系列技术创新,为全球企业提供最先进的一体化可观测性解决方案,助力其在数字化和智能化转型中乘风破浪。