摘要:在大模型训练与推理全面进入“重算力、强分布式、异构硬件”时代,DeepFlow 基于 eBPF 提供零侵扰、全栈、可持续的可观测性能力,覆盖从 Python 代码到 GPU/RDMA 网络,解决训练低效、推理体验不可控与异构智算黑盒三大核心问题。
关键词:大模型可观测性、TTFT/TPOT 监控、零侵扰可观测性、异构智算平台
大型语言模型(LLM)已成为技术变革的核心驱动力,深刻地改变着各行各业。然而,其复杂的训练和推理过程给企业的基础设施带来了前所未有的性能、效率和稳定性挑战。无论是动辄消耗数万张 GPU、持续数月的模型训练,还是保障亿万用户体验的实时推理服务,都对底层的计算、网络和存储资源提出了极致要求。我们有必要从业务全生命周期的视角,重新审视这些隐蔽而棘手的痛点。

1.1 训练阶段:昂贵资源与低效产出的博弈
训练一个顶级模型是一项浩大的工程,但业界的数据揭示了一个残酷的现实:高昂的资源投入往往伴随着令人担忧的低效与不稳。
以 GPT-4 为例,其训练过程调用了约25,000张A100 GPU,耗时近100天;而 Meta 最新的 Llama-3.1 405B 模型,也动用了16,000张H100 GPU持续训练了54天 。然而,当我们用 MFU(Model FLOPs Utilization)这一指标来审视算力转化时,结果却不尽如人意——GPT-4的有效利用率仅为32%-36%,这意味着超过六成的昂贵算力在等待数据或通信瓶颈中被白白浪费。
更令人头疼的是频发的硬件故障。在 Llama 3 405B 的预训练观察中,我们发现 GPU 的年化故障率高达6%至11%,其中硬件问题占据了训练中断原因的78% 。无论是 GPU 本身的故障(占比30.1%)还是 HBM3 显存问题(占比17.2%),这些不可控因素不仅延长了训练周期,更让研发成本和进度变得难以预测 。这迫切要求我们具备一种能够深入底层、全栈透视的观测能力。
1.2 推理阶段:用户体验与架构黑盒的矛盾
当模型完成训练并部署为推理服务时,挑战从资源效率转移到了对用户体验的极致追求上。
对于千亿级参数的庞大模型,单张 GPU 无法承载,必须采用分布式推理,将模型切分到多个节点上。这引入了复杂的分布式调用链,一个用户请求可能触发 API 网关、推理引擎、向量数据库、缓存系统等多个组件之间的交互,使得追踪性能瓶颈变得异常困难。
衡量 LLM 服务用户体验的核心指标是 TTFT(Time To First Token,首字响应时间)和 TPOT(Time Per Output Token,每Token输出时间)。但在复杂的分布式系统中,由于调用链路长、技术栈异构,要实现对这两个指标的端到端、全链路追踪,传统监控工具存在明显的观测盲区。
为了降本增效,DeepSeek API 率先采用的 MLA(Multi-head Latent Attention)架构和磁盘缓存技术,极大地降低了推理成本,但也让系统内部变成了一个难以窥探的“黑盒”,传统的监控方法无法洞察其缓存命中率、磁盘 I/O 耗时等关键性能表现,给性能优化带来了新的挑战。这种技术抽象层的加厚,意味着如果我们不能穿透表象直达底层的 I/O 与基本计算单元,将彻底失去对性能的掌控力。
1.3 智算平台:异构硬件的性能黑盒
随着 AI 芯片国产化进程的加速,许多企业开始构建混合使用不同供应商芯片的“异构智算平台”,例如同时部署 NVIDIA、华为昇腾、昆仑芯等 AI 芯片。这种异构环境虽然提供了更灵活的选择,但也带来了严峻的性能评估与优化挑战。
由于不同芯片的架构、驱动和配套软件各不相同,它们的性能表现往往像一个“黑盒”。企业迫切需要回答:对于特定的 AI 业务,哪款芯片的性价比最高?不同芯片之间应该如何配比以实现资源利用最大化?如何针对性地进行性能调优?要回答这些问题,必须从AI业务的视角出发,建立一个中立、统一、全栈的可观测性系统,以客观的数据支撑芯片选型、资源配比和性能优化决策。
然而,现有的可观测性工具在应对上述训练、推理和异构平台挑战时,往往显得力不从心,存在着各种局限性。
二、传统可观测性工具的局限性
尽管市场上存在多种性能分析和追踪工具,但它们在设计之初并未完全适应 AI 大模型的独特需求。这些工具普遍存在侵入性强、上下文缺失和性能开销大等问题,导致它们无法有效定位和解决大模型应用中的性能瓶颈,难以满足企业对高效、稳定 AI 基础设施的期望。

2.1 性能剖析工具:侵入性强且上下文缺失
性能剖析(Profiling)是定位代码瓶颈的关键手段,但主流的剖析工具存在明显短板。
| 工具名称 | 核心局限性 |
| NVIDIANsight | 深入 GPU 底层细节,但缺少 CPU 侧的完整上下文,无法将 GPU 的活动与上层 Python 代码调用栈有效关联,对应用开发者不友好。 |
| PyTorchProfiler | 需要开发者手动修改代码、重启进程,侵入性强;同时,其自身会带来较大的性能影响,并且观测能力仅限于 PyTorch 框架内部。 |
这些工具要么过于底层、脱离业务逻辑,要么需要高昂的人工和性能成本,无法实现对生产环境的“零侵扰”持续剖析。
2.2 分布式追踪工具:依赖手动插桩
对于分布式推理服务的性能追踪,当前主流的 LLM 应用追踪工具,如 OpenLLMetry、LangSmith 等方案依赖代码层手动插桩,这在快速迭代的 LLM 应用中无异于沙上建塔。新部署一个 LoRA 适配器或切换 vLLM 版本,都可能破坏既有插桩逻辑;跨语言调用(如 Python 服务调用 Rust 编写的推理引擎)更是形成追踪盲区。
更深层的矛盾在于,这类工具无法感知基础设施层的隐形开销——一次 DNS 解析超时或 TLS 证书验证延迟,在应用日志中仅表现为“偶然慢请求”,却可能正是拖垮 TTFT 的罪魁祸首。这种“只能看见自己埋的点”的观测模式,在分布式推理的混沌系统中,注定难以为继。
综上所述,市场迫切需要一种无需修改代码、能够无缝覆盖从 CPU 到 GPU 全技术栈、并能自动关联分布式调用的新型可观测性解决方案,以应对 AI 大模型带来的复杂挑战。

当传统方法陷入僵局,eBPF 技术为 AI 基础设施观测开辟了第三条道路。DeepFlow 并非简单地将 eBPF 作为数据采集插件,而是基于其“零侵扰、热加载、高性能、全栈覆盖”的本质特性,重构了从数据关联到分析呈现的完整链路。以“零侵扰”和“全栈覆盖”为核心理念,为AI大模型的训练与推理提供了前所未有的深度洞察力。
3.1 全栈持续性能剖析:从 Python 到 GPU 的无缝叙事
DeepFlow 能够以极低的开销,对运行中的 AI 应用进行函数级的全栈持续性能剖析,无需修改任何代码或重启进程。
完整覆盖从 Python 业务函数、vLLM/PyTorch 等框架函数,到 C/C++ 库函数、CUDA、API 乃至操作系统内核函数的完整调用栈。
能够清晰地区分并量化不同类型的资源消耗,包括 On-CPU(CPU 运算耗时)、On-GPU(GPU 运算耗时)、Off-CPU(CPU 等待耗时),以及显存的 mem-alloc(累计申请量)和 mem-inuse(实时使用量)。
通过直观的火焰图等可视化视图,能够精准回答关键性能问题,例如“哪个函数调用栈在 CPU 或 GPU 上耗时最长?”以及“为何会出现显存 OOM?是哪个函数调用栈申请或持有的显存最多?”
3.2 分布式追踪:穿透黑盒的端到端关联
利用 eBPF 和 Wasm 技术,DeepFlow 能够自动追踪分布式系统中的每一次应用调用(如 HTTP, RPC, SQL 等),并构建完整的调用链,全程无需任何代码修改或手动插桩。
无需任何配置,即可自动计算 LLM 推理服务中端到端的 TTFT 和 TPOT,精准衡量用户体验。
能够自动追踪并量化过去难以观测的底层基础设施操作耗时,如 DNS 解析、TCP 建连、TLS 握手、网络传输、磁盘 I/O 等,将应用性能问题与基础设施瓶颈无缝关联。
DeepFlow 具备强大的适应能力,能够追踪新兴的 LLM 优化架构。例如,它可以零侵扰地追踪 DeepSeek API 所采用的 Disk/OSS KV Cache 的读写性能,量化缓存带来的实际收益。
3.3 高性能网络剖析 (RDMA Profiling)
RDMA(远程直接内存访问)网络是AI训练集群中实现高性能 GPU 间通信的关键,但其性能通常是一个“黑盒”。DeepFlow 通过 eBPF 技术,首次实现了对 RDMA 通信的流粒度观测。它能够提供丢包率、时延、吞吐量等关键网络性能指标,帮助运维人员快速定位网络拥塞或抖动问题,保障训练任务的稳定高效运行。通过将 RDMA 网络从‘黑盒’变为‘白盒’,企业不仅能快速解决偶发的训练性能抖动,更能为未来更大规模集群的规划和网络拓扑设计提供决定性的数据依据,避免代价高昂的架构性错误。
DeepFlow 不仅提供了一系列先进的技术能力,更重要的是,它为企业带来了实实在在的商业价值,包括显著提升宝贵的 GPU 资源利用率、百倍加速故障排查效率,并为技术选型和业务创新提供坚实的数据支撑。
4.1 案例一:某头部券商——构建异构智算平台的可观测性

背景与挑战
某头部券商为了推动大模型在金融领域的应用,构建了一个包含 NVIDIA(T4/A100)和华为昇腾(910B)芯片的异构智算资源池,用于模型的微调训练和推理服务。他们面临的核心挑战是如何在一个统一的平台上,对不同硬件、不同应用进行无差别的性能监控和瓶颈分析。
方案价值
DeepFlow 提供了一个“零侵扰、全栈、兼容异构”的统一可观测平台,完美解决了客户的痛点。
实践成效
故障定位时间从小时级缩短至5分钟内,分析诊断等待时间节省约80%,并大幅降低了对专家经验的依赖。在 DeepSeek API 等场景中,通过追踪分析助力推理时延降低50%以上,有效保障了 GPU 业务的连续性,提升了运维效率和系统可观测性水平。
来自客户实践案例:某证券可观测性再升级!DeepFlow 排障智能体和智算可观测性建设实践
4.2 案例二:中国移动——零侵扰采集 LLM 服务核心业务指标

背景与挑战
中国移动某部门在部署 LLM 服务时,需要采集一系列核心业务指标以评估服务质量和用户体验,包括 TTFT、TPOT、Token 产出率、并发量 等。传统方法需要在业务代码中进行大量插桩,费时费力。
实现方式
实践成效
来自社区用户实践案例:深度解析 DeepFlow 如何采集大模型服务的业务指标
在 AI 大模型技术浪潮席卷全球的今天,算力的效率和稳定性已成为企业构筑核心竞争力的关键。DeepFlow 正通过革命性的 eBPF 技术,重新定义 AI 时代的可观测性。帮助企业在复杂的 LLM 应用场景中,有效提升 GPU 利用率,将算力价值最大化;百倍加速故障排查效率,保障业务的连续性和稳定性;并为异构智算平台的评估和优化提供客观依据,从而在激烈的市场竞争中赢得先机。
云杉网络(YUNSHAN Networks)是一家专注于可观测性领域的新一代基础软件公司,致力于通过原创性技术解决大规模企业 IT 系统在云原生和 AI 时代面临的稳定性与效率难题。核心产品为 DeepFlow 可观测性平台和运维智能体,基于首创的零侵扰数据采集技术、思维链状态机、自适应感知等一系列技术创新,为全球企业提供最先进的一体化可观测性解决方案,助力其在数字化和智能化转型中乘风破浪。
云杉网络
December 30, 2025
云杉动态, 新闻精选, 最新内容, 解决方案
No Comment