基于eBPF的可观测性,DeepFlow社区版在部分平台的实践

云杉 世纪 | 2024-02-28

在专家讲座环节,4位业内专家就可观测性的不同方面进行了深入浅出的讲解,让参与者们了解了该领域的最新技术和极具代表性的实践经验。
第一位分享嘉宾是来自云杉网络的 DeepFlow 研发VP 向阳,分享了《DeepFlow 社区进展及新特性介绍》主题,现场对 DeepFlow v6.2 进行了详实的讲解,重点解说了已落地实践的一些重大新特性,例如:零插桩分布式追踪支持 Golang 应用及关联 IO 事件;全景服务拓扑精细至进程粒度;基于 Wasm 的插件机制为 eBPF 赋予了感知具体业务场景的能力等。畅谈了 DeepFlow 社区的发展、用户案例、和未来迭代计划。
以及首次向大众揭晓了中国原创可观测平台DeepFlow 入选 SIGCOMM 2023的《Network-Centric Distributed Tracing with DeepFlow: Troubleshooting Your Microservices in Zero Code》论文细节,提前预告一个消息,SIGCOMM 于美国纽约召开,届时来自清华大学和云杉网络的作者们将向全世界介绍中国原创的 “Zero Code 零插桩” 可观测性平台 DeepFlow。
第二位出席的分享嘉宾,来自腾讯IEG的高级研发工程师刘文平,以《蓝鲸在实战中的 DeepFlow 社区版应用》为主题,详细阐述了蓝鲸可观测性平台如何有效地融合了 OpenTelemetry 的标准化数据接入能力及 DeepFlow 的无插桩、全面覆盖的数据收集能力,进而解决游戏业务在观测数据采集、数据孤岛、以及云原生基础设施观测等领域所面临的难题。并展望了通过 DeepFlow , 构建适合腾讯游戏的专属观测场景。
第三位分享嘉宾是来自小米的监控系统高级工程师谭槊,分享了《DeepFlow 在⼩⽶落地现状以及挑战》主题,介绍了如何将 DeepFlow 融入到小米现有可观测性体系中的经验。他详细解读了在落地过程中,如何在低版本内核下充分利用 cBPF 能力,如何在主机业务混布场景下零插桩计算服务拓扑,如何处理 LVS NAT 造成的服务拓扑断链,以及 Agent 全网推送中遇到的合规问题等实际挑战。同时,他也分享了小米在未来一年的 DeepFlow 推广计划。
第四位分享嘉宾是来自灵雀云的专家工程师刘梦馨,分享了《容器网络里的那些坑》主题,从一个毫无头绪的 K8s DNS 故障出发,分享问题的排查思路,详解排查过程中遇到的 DNS 服务、Alpine 镜像、业务代码逻辑、CNI 插件等各个层面的异常现象。整个排查过程基于 DeepFlow 的持续观测能力,实现了对故障现场的高清还原。刘老师同时也从资深用户的角度,对 DeepFlow Dashboard 提出了宝贵的易用性改善建议。
畅所欲言:可观测性技术的实践困惑与解决方案
本次活动的互动问答环节让参与者们更加深入地了解了可观测性技术的实践和解决方案。专家们就各种实际应用场景中遇到的问题进行了详细的解答,包括如何利用可观测性技术优化应用程序的性能和可靠性、如何监控分布式系统中各个组件的运行状况以及如何快速定位和解决故障等。
此外,现场参与者提出的新思路也引发了广泛的讨论和思考。例如,有一位参与者提出了基于 eBPF 的可观测性解决方案,该方案创新的实现了 AutoTracing、AutoMetrics、AutoTagging、SmartEncoding 等核心机制,帮助开发者提升埋点插码的自动化水平,降低可观测性平台的运维复杂度。与会专家们就该方案的可行性、适用场景等方面进行了深入探讨。
思想碰撞:可观测性面临的挑战与未来发展趋势
在本次可观测性 Meetup 活动中,我们设有一场圆桌讨论,由来自Apache APISIX PMC/腾讯的高级开发人员厉辉主持。参与者包括中国信通院云大所的高级业务主管王海清;中金财富证券的张满绒;腾讯蓝鲸的观测产品专家陈自欣;以及云杉网络的COO来源。我们一同探讨了可观测性当前所面临的技术挑战以及未来的发展趋势。
首先,主持人厉辉引出了可观测性主要技术挑战的讨论。嘉宾们分别阐述了自己的观点,如随着应用程序日益复杂,数据采集、处理和分析的挑战也日益严峻。
其次,主持人向嘉宾提出 DeepFlow 与 Skywalking 等主流 APM 产品的差异的问题。嘉宾陈自欣认为,DeepFlow 对业务的无感知接入大大降低了可观测性的接入门槛;嘉宾来源则指出 DeepFlow 作为数据采集基座,其定位并非与 Skywalking 这类 APM 直接竞争,它们各司其职,共同提升全链路的可观测性。
随后,主持人与嘉宾探讨了可观测性的未来发展。嘉宾王海清认为,中国信通院混沌工程实验室一直致力于关注和推动可观测性技术标准的完善和技术研究。随着云原生的兴起,可观测性技术的重要性日益突显,DeepFlow 这类技术可以助力企业更好地管理和优化应用程序;嘉宾张满绒的观点是,对于业务运维来说,网络往往是问题出现后最难定位的部分且最容易背黑锅的部分,而容器网络更是黑盒,已有 APM 系统并不能对容器网络进行问题定位,DeepFlow 则提供了对容器网络进行可观测的技术,以帮助业务更好地管理和优化应用程序,非常有价值。
在问答环节中,有人关注了可观测性的标准化和互操作性问题。虽然已经有一些标准和规范,但是不同工具和平台间的互操作性和数据格式兼容仍然是挑战。同时,还有人提到了由于需要处理大量数据,可观测性的成本和资源分配可能对中小型企业形成压力。
在完成技术挑战的讨论后,专家们对可观测性的未来发展进行了探讨,大家一致认为随着AI和机器学习的进步,可观测性将会更加智能化,以帮助运维团队提升效率。
总的来说,本次圆桌讨论环节深化了参与者对于可观测性当前挑战和未来趋势的理解。大家共识,在未来,可观测性技术将更加重要和普及,为应用程序的运维和管理提供更好的支持。
可见本次可观测性 Meetup 的活动不仅为从业者提供了一个学习和交流的平台,还为该领域的未来发展注入了新的活力和创新思维。