使用 OpenTelemetry 零代码修改接收 SkyWalking 追踪数据

云杉网络

August 15, 2022

产品资讯

经过半年的努力,我们向OpenTelemetry社区贡献了完整的SkyWalking Receiver。从现在开始,使用SkyWalking探针的所有用户能够在不修改任何代码的情况下,丝滑的使用OpenTelemetry兼容的所有可观测性后端平台。

什么是分布式追踪

2010年,Google的一篇Dapper论文[1]开启了分布式追踪的序章。CNCF的 OpenTracing作为分布式追踪的标准协议,定义了一套厂商无关、语言无关的规范,也有Jaeger 、Zipkin等项目的实现和支持。

随后Google和微软提出了 OpenCensus项目,在定义分布式追踪协议的基础上,也规范了应用性能指标,并实现了一套标准的API ,为可观测性能力统一奠定了基础。经过对已有的标准协议不停的打磨和演变,CNCF提出了OpenTelemetry,它结合了OpenTracing与OpenCensus两个项目,成为了一个厂商无关、平台无关的支撑可观测性三大支柱的标准协议和开源实现。

另一方面,基于Dapper论文的思想,国内也有SkyWalking开源项目实现了分布式追踪,由于探针的无侵入性,SkyWalking获得了大量的用户,并且有越来越多的贡献者推动着它的高速迭代。

以Dapper的定义作为基准,一个标准的分布式Trace示例如下图所示。一个 Trace是由Span构成的有向无环图(DAG),Span是一个最小粒度的调用,既可以指代一个程序块执行,也可以指代一次HTTP等应用协议的远程调用。

协议对比

目前在做分布式追踪的开源项目很多,接下来挑选几个社区活跃度高,且生产环境使用多的项目对比一下传输协议的差异,大致如下:

代码解读

为了能兼容不同的分布式追踪实现,OpenTelemetry提供了组件植入的方式让不同的厂商能够经由OpenTelemetry标准化数据处理后输出到不同的后端。Jaeger与Zipkin在社区中实现了JaegerReceiver、ZipkinReceiver。我们也为社区贡献了SkyWalkingReceiver,并进行了持续的打磨,现在已经具备了在生产环境中使用的条件,而且无需修改任何一行业务代码。

OpenTelemetry与SkyWalking有一些共同点:都是使用Trace来定义一次追踪,并使用Span来标记追踪里的最小粒度。但是在一些细节和实现上还是会有差别:

明确了这些差异后,就可以开始实现将SkyWalking Trace[2]转换为 OpenTelemetry Trace[3]。主要工作包括:

  • 如何构造OpenTelemetry的TraceId和SpanId
  • 如何构造OpenTelemetry的ParentSpanId
  • 如何在OpenTelemetry Span中保留SkyWalking的原始TraceId、SegmentId、SpanId

代码实现见GitHub[4][5] :opentelemetry-collector-contrib/skywalkingproto_to_traces.go at main · open-telemetry/opentelemetry-collector-contrib · GitHub

首先我们来看如何构造OpenTelemetry的TraceId和SpanId。SkyWalking和 OpenTelemetry都是通过TraceId串联起各个分布式服务调用,并通过SpanId 来标记每一个Span ,但是实现规格有较大差异:

具体来讲,SkyWalking TraceId和SegmentId所有可能的格式如下[6]:

其中,在OpenTelemetry协议里,Span在所有Trace中都是唯一的,而在 SkyWalking中,Span仅在每个Segment里是唯一的,这说明要通过 SegmentId与SpanId 结合才能在SkyWalking中对Span做唯一标识,并转换为OpenTelemetry的SpanId。

代码实现见GitHub[7] :「链接」

接下来,我们来看如何构造OpenTelemetry的ParentSpanId。在一个 Segment内部,SkyWalking的ParentSpanId字段可直接用于构造 OpenTelemetry的ParentSpanId字段。但当一个Trace跨多个Segment时,SkyWalking是通过Reference中的ParentTraceSegmentId和ParentSpanId 表示的关联信息,于是此时需要通过Reference中的信息构建 OpenTelemetry的ParentSpanId。

代码实现见GitHub:opentelemetry-collector-contrib/skywalkingproto_to_traces.go at main · open-telemetry/opentelemetry-collector-contrib · GitHub

最后,我们来看如何在OpenTelemetry Span中保留SkyWalking的原始 TraceId、SegmentId、SpanId。我们携带这些原始信息是为了能将分布式追踪后端展现的OpenTelemetry TraceId、SpanId与应用程序日志中的 SkyWalking TraceId、SegmentId、SpanId进行关联,打通追踪和日志。我们选择将SkyWalking中原有的TraceId、SegmentId、ParentSegmentId携带到OpenTelemetry Attributes中。

代码实现见GitHub[8]:opentelemetry-collector-contrib/skywalkingproto_to_traces.go at main · open-telemetry/opentelemetry-collector-contrib · GitHub

经过上述一系列转换后,我们将SkyWalking Segment Object完整的转换为了OpenTelmetry Trace,总结如下:

部署 Demo

下面我们以一个Demo来展示使用OpenTelemetry收集、展示SkyWalking追踪数据的完整过程。

首先,在部署OpenTelemetry Agent之后,开启如下配置,即可在 OpenTelemetry中拥有兼容SkyWalking协议的能力:


# otel-agent config
receivers:
  # add the following config
  skywalking:
    protocols:
      grpc:
        endpoint: 0.0.0.0:11800 # 接收 SkyWalking Agent 上报的 Trace 数据
      http:
        endpoint: 0.0.0.0:12800 # 接收从前端/ nginx 等 HTTP 协议上报的 Trace 数据
service:
  pipelines:
    traces:
      # add receiver `skywalking`
      receivers: [skywalking]

# otel-agent service yaml
spec:
  ports:
    - name: sw-http
      port: 12800
      protocol: TCP
      targetPort: 12800
    - name: sw-grpc
      port: 11800
      protocol: TCP
      targetPort: 11800

接下来需要将业务应用对接的SkyWalking OAP Service(如:oap:11800)修改为OpenTelemetry Agent Service(如:otel-agent:11800),就可以开始使用OpenTelemetry接收SkyWalking探针的追踪数据了。

我们以SkyWalking-showcase Demo为例展示整个效果。它使用 SkyWalking Agent做追踪,通过OpenTelemetry标准化处理后使用Jaeger来呈现最终效果:

通过SkyWalking Showcase的架构图,可知SkyWalking的数据经过 OpenTelemetry标准化后,依然完整。在这个Trace里,请求从 app/homepage发起,之后在app同时发起两个请求/rcmd/与/songs/top ,分发到recommandation/songs两个服务中,并最终到达数据库进行查询,从而完成整个请求链路。

另外,我们也可从Jaeger页面中查看到原始SkyWalking Id信息,便于与应用日志关联:

作者简介

谭建

DaoCloud可观测性技术专家

GitHub:@JaredTan95

DaoCloud 道客是云原生领域的创新领导者,成立于 2014 年底,拥有自主知识产权的核心技术,致力于打造开放的云操作系统为企业数字化转型赋能。产品能力覆盖云原生应用的开发、交付、运维全生命周期,并提供公有云、私有云和混合云等多种交付方式。

林嘉炜

云杉网络DeepFlow工程师

GitHub:@taloric

云杉网络成立于 2011 年,公司秉承“技术创造价值”的使命,为运营商和大型企业提供领先的云网络和云监控解决方案,满足云时代 IT 系统不断增长的自动化和可观测性需求。DeepFlow是一个开源的高度自动化的可观测性平台。

引用

  • [1] Dapper 论文 https://bigbully.github.io/Dapper-translation/
  • [2] SkyWalking 协议 https://skywalking.apache.org/docs/main/latest/en/protocols/trace-data-protocol-v3/
  • [3] OpenTelemetry 协议 https://opentelemetry.io/docs/reference/specification/overview/
  • [4] https://github.com/open-telemetry/opentelemetry-collector-contrib/pull/8107
  • [5] https://github.com/open-telemetry/opentelemetry-collector-contrib/pull/8549
  • [6] SkyWalking JavaAgent https://github.com/apache/skywalking-java
  • [7] https://github.com/open-telemetry/opentelemetry-collector-contrib/pull/11562
  • [8] https://github.com/open-telemetry/opentelemetry-collector-contrib/pull/12651

加入DeepFlow开源社区

体验高度自动化的可观测性新时代

官网链接

https://deepflow.yunshan.net

GitHub地址

https://github.com/deepflowys/deepflow

访问DeepFlow Demo

https://deepflow.yunshan.net/docs/zh/install/overview/

]]>

Related Posts

云杉网络 DeepFlow 连获中国信通院认证,智能运维落地金融、电力行业

云杉网络的DeepFlow可观测性平台近期连续获得中国信通院多项认证,其与东吴证券合作的金融全链路可观测方案和与国网四川电力合作的电力智能运维方案均入选优秀案例。该平台的核心创新在于深度融合“可观测性”与“AI智能体”技术,通过全域数据采集和智能分析,实现从被动响应到主动预防的运维模式转变。目前,DeepFlow已在金融、电力等行业成功落地,有效提升了系统稳定性与运维效率,展现了其技术先进性和跨行业普适价值,未来将继续深化生态合作,助力更多行业数字化转型。

Read More

全景性能监控如何实现多维度分析?

Air

April 18, 2025

产品资讯

在数字化转型浪潮中,企业信息系统复杂度呈指数级增长——从云端微服务集群到边缘计算节点,从高频交易系统到物联网终端设备,性能问题已从单一服务器宕机演变为跨层级、跨区域的系统性挑战。当某电商平台大促期间因缓存雪崩导致交易链路瘫痪时,运维团队需要的不只是CPU使用率图表,而是能穿透12层调用栈的立体化观测能力。这种背景下,全景性能监控正成为技术团队破局的关键武器,其核心价值在于通过多维度分析将碎片化指标转化为可行动的决策洞察。 一、构建全景监控的三维坐标体系 传统监控工具常局限于单一维度指标收集,犹如仅用温度计诊断人体健康。真正的全景性能监控体系需要建立时间、空间、业务三维坐标: 时间维度:不仅记录实时指标,更构建分钟级到年度级的趋势基线。某银行通过对比交易响应时间的*工作日模式*与节假日模式,提前48小时预测到支付通道瓶颈。 空间维度:从物理机到容器Pod,从机房光缆延迟到CDN节点负载,实现基础设施的全域映射。全球部署的流媒体平台正是借助地理热力图,动态调整边缘节点流量分配。 业务维度:将技术指标与业务KPI(如订单转化率、用户停留时长)深度关联。当API错误率上升0.5%时,智能告警系统可同步显示对应的GMV损失预估。 这种三维建模能力,使得性能数据不再是孤立数字,而是构成业务健康的动态全息投影。 二、数据编织技术打破信息孤岛 实现多维度分析的前提,是对分散在日志文件、APM探针、基础设施监控中的数据进行有机整合。数据编织(Data Fabric)架构的应用,如同为监控数据构建中枢神经系统: 智能元数据管理:自动识别Nginx访问日志中的URI模板,将其与微服务调用链中的span名称建立映射。 上下文感知的数据关联:当数据库慢查询激增时,系统能自动关联同期进行的代码发布记录与K8s集群资源变更事件。 动态数据血缘分析:通过机器学习构建指标间的因果关系图,例如识别出内存泄漏总是先于TCP重传率上升出现。 某头部证券公司在实施数据编织后,故障定位时间从平均43分钟缩短至9分钟,关键证据链的自动拼图准确率达92%。 三、多维分析的核心方法论 在数据融合基础上,多维度分析需要组合运用多种分析范式: 1. 切片-钻取分析 横向切片:对比不同地域节点的同一服务P99延迟 纵向钻取:从集群总负载下钻到具体异常的Worker节点 某云服务商利用该方法,在5分钟内锁定导致全球API延迟飙升的特定可用区网络故障。 2. 关联规则挖掘 通过Apriori算法发现隐式规律,例如: 当Kafka消费者滞后超过5000条时,订单履约成功率下降具有87%的置信度 JVM Young GC频率与Redis缓存命中率呈强负相关 3. 异常模式识别 采用DTW(动态时间规整)算法,识别与历史故障相似的趋势形态。某智能制造企业利用该技术,提前12小时预警到与半年前产线停摆相同的传感器数据模式。 四、智能引擎驱动的决策闭环 当多维分析遇见机器学习,性能监控进入认知智能阶段: 根因定位引擎:基于贝叶斯网络构建故障传播模型,在数千个可能因素中计算各节点后验概率。某次大规模服务降级事件中,系统在17秒内将根本原因从”网络抖动”修正为”配置中心的证书轮换缺陷”。 预测性容量规划:结合业务增长预测与资源利用率趋势,自动生成扩容方案。某视频平台通过此功能,在春节流量高峰前精准完成万核级计算资源储备。 自愈策略编排:对于已识别模式的故障(如数据库连接池耗尽),自动触发预案执行。某电商在2023年双十一期间实现35%的常见故障自动修复。 这些智能能力将传统”监测-告警-处理”的线性流程,升级为”感知-分析-决策-行动”的增强闭环。 五、落地实践中的关键突破点 企业构建全景监控体系时,需重点突破三大障碍: 指标爆炸控制:通过指标分级治理(核心业务指标、辅助诊断指标、长期趋势指标)和自动相关性分析,避免陷入数据沼泽。某金融机构将监控指标从12万项精简至8600项,反而提升故障识别准确率。 可视化效能革命:采用*可观测性画布*技术,支持自由拖拽多维度数据源生成定制仪表盘。运维人员可快速构建”地域×服务版本×错误类型”的三维矩阵视图。 组织协同升级:建立SRE、开发、业务部门的联合指标评审机制,确保监控维度与业务目标对齐。某互联网公司通过该机制,将业务方关注的用户流失率纳入监控黄金指标集。 随着云原生与AIOps技术的深度融合,全景性能监控的多维度分析能力正在重新定义运维边界。当每个API调用都能被置于业务流程、基础设施、用户体验组成的多维空间中审视时,技术团队获得的不仅是故障排查的望远镜,更是业务创新的显微镜。

Read More