探索基于 eBPF 的可观测性:从理论到实践!

云杉 世纪

2024年2月7日

产品资讯

本次活动的主题为《基于eBPF的可观测性实践》,演讲者和与会者共同探讨了如何提高系统、应用和服务的可观测性。具备可观测性可以帮助企业更快地发现和解决问题,保障系统的可靠和稳定。
专家解读:基于 eBPF 的可观测性实践
在专家讲座环节,6位业内专家就可观测性的不同方面进行了深入浅出的讲解,并分享了生动的实践案例,展示了可观测性如何在实际工作中发挥作用,让与会者了解到该领域的最新技术和极具代表性的实践经验。
首先,主持人引出 “落地可观测性的主要痛点和挑战有哪些”?
引发了嘉宾们纷纷阐述了自己的观点,如随着分布式系统日益复杂,海量集群、多中心观测、工具联动弱等对可观测性的实施都提出了更高的要求。
方海涛认为,对于 Sealos 来说零侵扰的可观测性可快速高效地解决在构建云服务中对云资源消耗(特别是网络带宽消耗)的计量计费需求,同时也能实现对云自身的安全可观测性。在此过程中尝试过诸多方式,增加用户态的Proxy,增加 K8s CNI 能力等等方式来暴露指标数据,最终发现 eBPF 的形式对性能消耗是最低的。
冯富秋谈到在阿里云业务高敏感情况下,监控工具再多也难以做到高效响应,有时反而迷失在工具中,最后依然只能依靠专家经验来定位问题。他认为可观测性是一个很有前景的方向,但仍然还处于起步阶段,例如缺乏标准的 Trace 点、仅能关注业务层面的问题定位,深入分析系统和网络层很不足。未来也在计划由龙蜥社区牵头组建运维联盟,联合可观测性领域的企业来共同研讨这些问题。
穆景远强调了可观测性落地过程中的分歧点,第一由于业务分布式部署,单节点逐步升级可能导致数据孤岛与全量节点升级带来用户习惯改变及现网风险的分歧;第二为投入与收益的反差,厂商做了大量投入但业务方感知甚微的分歧。
其次,主持人向嘉宾提出 “ eBPF 技术对这些痛点有什么帮助“?
嘉宾们表示:eBPF可以提供更高效和准确的系统观测能力。在Linux内核中,eBPF消除了更改内核源代码或添加内核模块的需要。这意味着,通过使用eBPF,我们能够零侵扰地监控系统的各种活动和状态,包括调用关系、应用性能、分布式链路、函数性能剖析、内核性能剖析等等。
向阳提到,一方面 eBPF 确实依赖较高的内核版本,期望用户能尽快推进内核升级,期望操作系统供应商能将更多能力移植到低版本内核中,同时 DeepFlow 也利用 cBPF 的能力在低版本内核中实现了大量零侵扰的可观测性功能。另一方面,eBPF离实现业务的可观测性有一些距离,以往都是通过业务开发插桩来实现,可以通过结合 eBPF 和 Wasm 技术来实现对业务语义的感知和注入。
穆景远认为 eBPF 可以用零侵扰、业务解耦的方式来解决实际可观测性落地过程中前面提到的两个分歧,可以将厂商的投入和风险降低,业务方的收益显著增加,对客户来说推动力也很足。对于 eBPF 的门槛,认为业界现在已经形成了天然的分工,政采云提供用户场景,操作系统厂商提供对应的工具链,专业的厂商提供整套解决方案,这种组合也会大大降低 eBPF 的门槛,最终都以解决用户需求为推动。
接着上一个问题,主持人与嘉宾探讨了 “ eBPF 技术的推广、落地、接受目前存在哪些问题”。
穆景远总结:技术选型一定要结合团队目前的实际情况,政采云通过融合 DeepFlow 和 Pinpoint 有效的避免了对业务团队使用习惯的改变,避免了对插桩探针的替换,同时利用 eBPF 的零侵扰性消除了追踪盲点、打通了孤岛数据。
最后,本次圆桌讨论环节深化了与会者对于可观测性当前挑战和未来趋势的理解。
大家共识——可观测性对于现代企业和组织来说至关重要,能够帮助他们更快地发现和解决问题,提高系统的可靠性和稳定性。通过实时监控和数据分析,组织可以迅速了解系统或服务的状态和表现,及时发现潜在问题,并采取相应的措施进行优化和改进。
冯富秋提出了“零运维”的概念,可观测性平台结合 AI 的能力,让更多的团队能自主在可观测性平台上完成系统的稳定性保障,而无需经手运维工程师,期待可观测性平台未来的能以结果为导向提供更完善的操作引导让跟多的团队协作起来。
方海涛说到可观测性再继续发展,要重点关注如何处理观测到的问题,不要让工程师们被数据中淹没了,要让系统根据已收集的数据,完成决断后自行处理观测到的问题。
穆景远认为可观测性核心要解决的是故障排查过程中的时间开销问题,在做 AIOps 之前需要将现在从业人员及实际线上维护人员需要关注的问题解决,形成标准以后才能有进一步的发展。表达未来要可观测性的发展需要用更开放的态度与生态合作共同前进。希望可观测性不仅仅只在运维领域,应该能继续发展到业务及行业中,比如帮助制造业转型等等
向阳表达了可以通过零侵扰的方式把可观测性数据的质量和覆盖率都提升到很高,可以为 AIOps 提供很好的数据基础。
畅所欲言:可观测性技术的实践困惑与解决方案
在互动问答环节与会者纷纷发起了激烈问题探讨,一些人谈到了在实施可观测性方案时遇到的挑战和困难,例如如何整合不同来源的数据、如何制定合适的警报策略以及如何处理误报等。
专家们同与会者一起就各种实际应用场景中遇到的问题进行了详细的解答,包括如何利用可观测性技术优化应用程序的性能和可靠性、如何监控分布式系统中各个组件的运行状况以及如何快速定位和解决故障等。
可见本次可观测性 Meetup 活动不仅为从业者提供了一个学习和交流的平台,还为该领域的未来发展注入了新的活力和创新思维。

Related Posts

根因分析假 running 真故障 记一次电力行业的 SRE 实践

云杉 世纪

2024年3月8日

产品资讯

用户:某省级电网企业 挑战 定界困难:当发生故障,业务部门和网络部门互相推诿,而不是解决问题; 监控颗粒度不足 […]

Read More

云杉网络 DeepFlow 联合 OpenCloudOS 完成技术兼容互认证

云杉 世纪

2024年3月6日

产品资讯

北京云杉世纪网络科技有限公司(以下简称:云杉网络)的云原生可观测性产品 DeepFlow 与 OpenClou […]

Read More