IT系统为什么需要可观测性?

01 |  争论

IT领域中,可观测性(observability)的争论源于2017年Peter Bourgon(Go Kit 作者)的一篇文章《Metrics, tracing, and logging》。文中将可观测性问题映射到了如何处理指标(metrics)、追踪(tracing)、日志(logging)三类数据上。其后,Cindy Sridharan在其著作《Distributed Systems Observability》中,进一步讲到指标、追踪、日志是可观测性的三大支柱(three pillars)。云监控领域的领导者,Datadog也在其网站上用三大支柱来阐述可观测性。
三大支柱流传甚广,很大程度是因为,明确数据类型和优化处理方法,是广大开发者们最易理解的方式。但三大支柱只是讲到了如何实现可观测性,而非为何要采用可观测性。Ben Sigelman (Google Dapper作者)对此即有争论,说这样的定义毫无意义,因为这只是三种数据类型。Charity Majors(Honeycomb CTO)也反对上述说法。她更进一步指出如果说传统监控工具是用来解决“known-unknown”问题(已知问题),那么可观测性是用来解决“unknown-unknown”问题(未知问题)的。
既然标题是为什么需要可观测性,那么实在无需讨论三大支柱相关内容。就新技术采用的决策者来说,为什么需要可观测性比如何实现可观测性更为重要。如果答案仅仅是Charity Majors所说的“unknown-unknown”,则实在有点玄之又玄的感觉了。因此,下文将从可观测性的实际案例分析其价值,尝试说明为什么需要引入可观测技术。

02 |  价值

从实用主义出发,理解可观测性解决什么问题,比理解可观测性如何实现更有价值。Google SRE book第十二章给出了简洁明快的答案:快速排障。
There are many ways to simplify and speed troubleshooting. Perhaps the most fundamental are:
  • l Building observability—with both white-box metrics and structured logs—into each component from the ground up
  • l Designing systems with well-understood and observable interfaces between components.
Google SRE Book, Chapter 12 为何快速排障需要可观测性?这是由于IT系统不断增加的复杂度决定的。大量云原生技术的采用,导致IT系统越来越复杂,快速排障变得越来越难。传统的应用监控(APM)和网络监控(NPM)工具,可以发现某个函数调用失败或者某个链路性能下降,却难以在复杂的云环境下找到故障发生的根本原因。 下面的几个场景你是否也遇到过?

场景1:“谁动了我的数据库!”

某大型银行,采用私有云基础设施部署微服务架构的应用。随着业务不断上云,经常遇到这样一个棘手问题:核心数据库访问量陡增,只知道来自某个云资源池,却由于其中的80000多个容器POD都做了不止一次的IP地址转换,而无法定位到底是哪些POD造成了核心数据库的流量陡增。
如果采用传统的监控方式,只能发现陡增这个现象,而难以快速定位到引发问题的容器POD。

场景2:“审批系统每周都出问题!”

某地产公司,将面向全球数万员工的业务审批系统部署在公有云基础设施之上。该系统由30多个微服务构成,并依赖10多个外部系统,应用调用关系复杂,故障定位极其困难。
自从上了公有云,该业务审批系统每周都出现问题。即便尝试了拨测和APM等监控工具,依然没有达到每周99.9%时间可用。

场景3:“开发测试环境带来生产隐患!”

某大型金融机构,开发测试和生产系统均构建在两地三中心的私有云基础设施之上。开发测试环境中,新业务的性能出现了“一会儿好一会儿不好”的问题。无论使用云平台自带监控,还是进行人工抓包分析,数周来一直没有找到根因,即无法确定是应用还是基础设施的问题。
如果新业务真的“带病”上生产,一旦发生业务自身问题带来的生产事故,责任是极其重大的。
从以上几个场景可以看出来,云原生技术的广泛采用,大大增加了IT系统故障的复杂性,进而为快速排障带来了困难。

 03 |  结语

控制领域中,研究可观测性的目的是提供基于系统内部状态(白盒),而非系统外部输出(黑盒)进行控制的理论依据。在IT领域中,简单而言,可观测性就是为复杂IT系统寻求白盒监控能力。
其实,无论三大支柱还是快速排障都是管中窥豹。最早提出可观测性的是现代控制理论奠基人Rudolf  Kalman。曾经的登月计划,以及未来的无人驾驶,都离不开他发明的卡尔曼滤波器。而卡尔曼滤波器,才是最优(美)的观测器。 %e5%be%ae%e4%bf%a1%e6%88%aa%e5%9b%be_20211228115643]]>

Related Posts

DeepFlow 智能体发布!开启业务连续性保障新时代

随着大型语言模型(LLM)日臻成熟,AI 智能体(AI Agent)从概念走向实际应用的时代已然到来。在众多的智能体使用场景中,可观测性天然具备智能体成功落地的三大要素:高质量的结构化数据、功能丰富的专业工具,以及明确的业务目标——保障系统稳定性。通过将先进的 AI 技术与可观测性场景融合,DeepFlow 智能体能够自主感知环境、推理决策并执行任务,为 IT 团队提供从日常巡检到快速诊断的全方位支持。这不仅提升了运维效率,更将 IT 人员从繁琐的日常任务中解放出来,使他们能够紧跟技术趋势,驾驭先进的 AI 工具,为业务连续性提供更坚实的保障。

Read More

DeepFlow携手保险行业巨头亮相SIGCOMM,展示AI可观测性于金融系统的价值

在美国计算机协会(ACM)旗舰会议 SIGCOMM 2025 的首届 Next-Generation Network Observability (NGNO) Workshop 上,云杉网络与中国某头部保险集团展示“基于 DeepFlow 智能体的IT健康评估和故障诊断平台”,成为全球产学研关注的焦点。作为保险行业首个实现 “可视 — 维稳 — 智能” 全阶段落地的标杆项目,其不仅印证了AI时代下智能体和可观测性技术相结合的应用价值,更为此保险科技公司践行 “科技资源整合、服务能力支撑、运营共享服务、价值创造” 四大战略定位提供了核心技术支撑,为金融行业 IT 转型输出了可复制的实践路径。

Read More