可观测性(Observability)指的是一个系统或应用程序的内部状态、行为和性能在运行时能够被主动地监测、收集、分析和理解的程度。它是评估系统的可用性、健壮性和可维护性的重要指标。DeepFlow利用BPF技术自动采集每个调用关系及其全栈性能指标,连接运维和开发团队;通过自动集成Prometheus、Telegraf等业务指标数据,连接开发和运营团队;通过eBPF及自动集成的OpenTelemetry、SkyWalking等追踪数据,实现从代码函数、系统调用到网络路径的全链路分布式追踪,有效避免上下游团队摩擦。 可观测性关注以下几个方面: 日志(Logging):日志记录是记录系统运行过程中产生的事件和信息的基本组成部分。通过收集和分析应用程序的日志,可以了解系统中发生的事件、错误和警告情况,从而帮助故障排除和系统监控。 监控(Monitoring):监控系统的各个方面,如资源利用率、性能指标、请求响应时间等。实时监控可以提供系统的状态和趋势,帮助及早发现问题并作出相应的响应。 指标(Metrics):指标是被收集和记录的量化数据,用于度量和衡量系统的性能和运行状况。常见的指标包括吞吐量、延迟、错误率等。通过指标的收集和分析,可以评估系统的健康状况和趋势。 分布式追踪(Distributed Tracing):对于分布式系统,追踪请求在各个组件之间的流动和处理过程,能够帮助定位性能问题和故障,了解请求的整体路径和延迟情况。 告警(Alerting):设置并监测系统的阈值,当指标达到或超过预设的阈值时,触发告警通知,以便快速响应和解决潜在的问题。 通过提供可观测性,开发人员和运维团队可以了解系统的内部工作原理、性能行为和状态,从而更好地管理、调试和优化系统。可观测性使得问题定位和故障排除更加高效,提高系统的稳定性和可维护性。
Read MoreDeepFlow 是一款零侵扰的可观测性产品,旨在加速云原生应用和云基础设施的持续创新。 产品介绍 DeepFlow 是云杉网络开发的一款可观测性产品,旨在为复杂的云基础设施及云原生应用提供深度可观测性。DeepFlow 基于 eBPF 实现了应用性能指标、分布式追踪、持续性能剖析等观测信号的零侵扰(Zero Code)采集,并结合智能标签(SmartEncoding)技术实现了所有观测信号的全栈(Full Stack)关联和高效存取。使用 DeepFlow,可以让云原生应用自动具有深度可观测性,从而消除开发者不断插桩的沉重负担,并为 DevOps/SRE 团队提供从代码到基础设施的监控及诊断能力。 产品应用场景 l 云原生业务全景性能监控 覆盖应用、系统、网络的全栈性能指标、链路日志、函数剖析数据,自动关联观测信号的资源属性、服务属性、业务属性、变更事件,通过零侵扰的采集能力和高性能的分析能力可视化展现任意服务、任意调用、任意函数的性能数据。 l 微服务调用全栈链路追踪 展示指定时间段内服务间调用的上下依赖关系,完整追踪微服务所有访问路径,分段呈现两个端点间访问途经的容器节点、云服务器、物理服务器、网络功能等关键位置信息和黄金指标数据,快速定位问题边界,提升排障效率。 l 混合云网络性能监控诊断 面对多地多中心复杂的混合云、异构资源池场景下,基于零侵扰的采集技术将全网流数据、包数据、日志数据聚合、统计、分析、可视化展现,结合资源知识图谱绘制出混合云网络全景图,满足从全局视角到故障点深度钻取的1000多种性能数据的灵活查看。 l 混合云全网流量采集分发 流量采集与分发方案具备较好的平台适应性,支持各类overlay网络方案如Linux Bridge、OVS、VSS、VDS等,以及基于underlay或overlay的各类容器网络方案。提供数据包过滤和分发功能并具备自动跟随能力。整体方案满足10万采集点规模的统一管理。 产品特性 l 任意 Service 的全景图 基于领先的 AutoMetrics 机制,利用 eBPF 技术零侵扰绘制生产环境的服务全景图,包括任意语言开发的服务、未知代码的第三方服务、所有的云原生基础设施服务。内置大量应用协议解析能力,并提供 Wasm 插件机制扩展解析任意私有协议。零侵扰计算每一次调用在应用程序和基础设施中的全栈黄金指标,快速定界性能瓶颈。 l 任意 Request 的分布式追踪 基于领先的 AutoTracing 机制,利用 eBPF 和 Wasm 技术零侵扰实现分布式追踪,支持任意语言的应用程序,并完整覆盖网关、服务网格、数据库、消息队列、DNS、网卡等各类基础设施,不留下任何追踪盲点。全栈,自动采集每个 Span 关联的网络性能指标和文件读写事件。从此,分布式追踪进入零插桩的新时代。 l 任意 Function 的持续性能剖析 基于领先的 AutoProfiling 机制,利用 eBPF 技术以低于 1% 的开销零侵扰采集生产环境进程的性能剖析数据,绘制函数粒度的 OnCPU、OffCPU 火焰图,快速定位应用函数、库函数、内核函数的全栈性能瓶颈,并自动关联至分布式追踪数据。即使在 2.6+ 内核版本下,仍然可提供网络性能剖析能力,洞察代码性能瓶颈。 l 无缝集成流行的可观测性技术栈 […]
Read MoreSkyWalking是一个开源的分布式服务跟踪系统,它能够帮助开发人员监视和诊断分布式系统中的性能问题。以下是SkyWalking的工作原理: 代理注册:SkyWalking代理服务部署在应用程序或云原生容器中,负责收集和发送跟踪数据到SkyWalking收集器。代理在应用程序启动时会向SkyWalking注册,并获取唯一的标识符,以便在跟踪数据中进行标识和区分。 跟踪数据收集:代理通过拦截应用程序的方法调用,收集关键的跟踪数据。这些数据包括请求的起始时间、结束时间、调用链路、耗时等关键信息。代理还可以收集其他一些指标数据,如指标监控和日志信息。 数据传输和存储:收集的跟踪数据会通过网络传输到SkyWalking收集器。收集器是一个中心化的组件,负责接收、处理和存储跟踪数据。收集器可以部署在单个节点上,或者使用集群进行高可用性和可扩展性。 数据分析和展示:收集器将收到的跟踪数据进行处理和分析,以生成有关系统性能的洞察。这些洞察信息包括请求的链路图、调用的耗时、各个组件的性能指标等。SkyWalking使用分布式追踪数据的上下文信息,将跨多个服务的请求和响应链路重新构建,并以可视化的方式展示给用户。 告警和诊断:SkyWalking还提供了告警功能,可以根据预设的规则和阈值,及时检测到系统中的异常情况,并向用户发送告警通知。这有助于快速定位和解决潜在的性能问题。 插件和扩展性:SkyWalking提供了丰富的插件和扩展性机制,支持与各种应用程序框架和组件进行集成,并提供更细粒度的性能监测和诊断。用户可以根据需要自定义和扩展SkyWalking的功能。 总之,SkyWalking通过代理注册、跟踪数据收集、数据传输和存储、数据分析和展示等一系列步骤,实现对分布式系统的性能跟踪和监测。它通过可视化的方式展示系统中的请求链路和性能指标,帮助用户快速诊断和解决性能问题,并提供了插件和扩展机制,以满足各种应用场景和需求。DeepFlow可观测平台 有效提升了云上业务故障的定位效率,多维度、深层次、快速诊断云原生应用故障,缩短MTTR;全栈链路追踪可快速发现瓶颈链路,提升应用性能指标,让应用云化、云原生化的过程更加高效、平稳、可靠,企业全面数字化转型更加稳健。
Read More全栈可观测(Full-Stack Observability)是一种综合性的方法和工具集,用于实时监测、分析和理解复杂的软件系统的性能、可靠性和运行状态。它关注整个应用程序的各个层面(前端、后端、基础设施等)以及它们之间的相互依赖关系。DeepFlow可观测性平台 面向混合云、容器、微服务的全栈虚拟化环境,解决云原生应用诊断难的核心痛点。帮助用户实现对网络、系统、应用的全栈指标采集和全栈链路追踪,并结合云资源知识图谱实现100+维度指标数据的动态标注,构建多维度、一体化的可观测性平台。 全栈可观测的目标是帮助开发人员、运维团队和业务部门全面了解应用程序的各个组件和系统之间的关系,以便更好地识别和解决问题,提高系统的可用性和效率。 全栈可观测通常涉及以下方面: 日志(Logging):收集、存储和分析系统生成的日志信息,包括错误消息、警告和其他关键事件。日志记录可以用于故障排除、系统监控和安全审计等方面。 指标(Metrics):收集和监测关键指标,如内存、CPU使用率、请求的响应时间等,并将其汇总和可视化以便于监控和性能分析。 分布式追踪(Distributed Tracing):追踪和分析跨多个服务和系统的请求和响应链,以便更好地了解系统的整体性能和延迟情况。 事件(Events):捕捉和分析系统中的事件,如用户活动、错误事件、事务处理等,以及它们的相关上下文信息。 链路(Linking):将各个组件和服务的监测数据关联起来,形成全栈的视图。这有助于追踪问题的根源,修复和优化整个应用程序的性能。 全栈可观测的实现通常依赖于各种工具和技术,如日志管理平台、指标监控平台、分布式追踪系统和应用程序性能监测工具等。 通过全栈可观测,团队可以获得对整个应用程序生命周期的深入洞察,从开发、测试、部署到生产环境,以及对系统的实时运行状态进行监控和优化。这有助于快速发现和解决问题,提升系统的可靠性和用户体验。
Read More服务调用链追踪组件是一种用于分布式系统中进行跟踪和监视服务之间调用关系的工具或软件库。在复杂的分布式系统中,服务之间经常存在大量的相互调用和依赖关系。服务调用链追踪组件可以通过记录和追踪每个请求在系统中经过的各个服务和组件,以及请求的处理时间和过程中的事件,帮助开发人员更好地理解和分析系统内部的调用关系、性能瓶颈和错误。DeepFlow全栈链路追踪极大降低了运维人员故障定位压力,通过面向业务的主动运维监测能力,改变了传统运维以故障定位为核心的工作模式,转而采用更为主动的面向业务服务质量的运维模式,智能化的业务访问关系绘制、全栈链路追踪能力,实现了分钟级的故障定位。 服务调用链追踪组件通常通过以下方式工作: 注入追踪代码:在每个服务的关键节点(例如请求进入和离开点)插入追踪代码,将关键信息记录下来。 生成唯一标识:为每个请求生成一个唯一的标识符,作为该请求的追踪ID。 跨服务传递追踪信息:将追踪ID和其他相关信息传递给下一个被调用的服务,以便追踪整个调用链。 存储和分析:将追踪信息存储在后端存储系统中,并提供查询和分析功能,以便开发人员可以根据需要查询和分析特定的调用链。 通过使用服务调用链追踪组件,开发人员可以跟踪和监视分布式系统中请求的流动路径和流程,识别潜在的性能瓶颈和错误,进行系统优化和故障排查,提高系统的可靠性和性能。此外,服务调用链追踪还可以用于分析系统的整体性能、服务间的依赖关系和调用频率,为设计和规划系统的发展提供有价值的数据支持。
Read More分布式追踪(Distributed Tracing)是一种用于监测和分析分布式系统中请求的跟踪和性能的技术。在分布式系统中,一个请求通常会经过多个不同的服务和组件,每个组件都可能会对请求进行处理和响应。分布式追踪的目的是跟踪和记录请求在系统中的传播路径和各个组件的性能指标,以便于分析和优化系统的性能和可靠性。 分布式追踪通常通过在请求中添加唯一的标识符(例如Trace ID)来实现。当一个请求进入系统时,该标识符会被传递给每个组件,组件会将自己的处理信息和性能指标与该标识符关联起来。这样,就可以在整个系统中追踪请求的路径和各个组件的性能情况。 通过分布式追踪,可以获得以下好处: 故障排查和调试:当一个请求出现问题时,可以通过分布式追踪来追踪请求的路径,找到导致问题的组件,并进行故障排查和调试。 性能优化:通过分析分布式追踪数据,可以了解请求在系统中的传播路径和各个组件的性能指标,找到性能瓶颈并进行优化。 服务依赖分析:通过分布式追踪,可以了解系统中各个服务之间的依赖关系和调用频率,帮助进行服务拆分和微服务架构设计。 监测和报警:通过监测分布式追踪数据,可以实时监测系统的性能和请求的处理情况,并设置相应的报警机制。 分布式追踪是一种用于监测和分析分布式系统中请求的跟踪和性能的技术,可以帮助提高系统的可靠性、性能和可维护性。DeepFlow全栈链路追踪,‘全栈’即代表着虚拟网络、物理网络的各个节点都可以进行追踪,包含虚拟网络中客户端与服务的POD、容器节点、宿主机、各种NFV网关、物理网络中的各种支持设备等,通过系统的外部监测数据(指标、日志、追踪等)实时分析系统的内部状态(吞吐、错误、时延等),彻底解决云内监控的“黑盒”问题。
Read More业务性能指标是用来衡量和评估一个业务或系统的性能和效能的指标。以下是一些常见的业务性能指标: 响应时间(Response Time):指完成一个操作或请求所需的时间。较低的响应时间通常表示更高的性能。 吞吐量(Throughput):指单位时间内处理的请求数量或事务数量。较高的吞吐量表示系统能够处理更多的请求。 并发用户数(Concurrent Users):指同时使用系统或应用程序的用户数量。较高的并发用户数要求系统具备更好的性能和扩展性。 错误率(Error Rate):指在一定时间内发生的错误或失败的操作的比例。较低的错误率表示系统的稳定性和可靠性较高。 可用性(Availability):指系统或应用程序在一定时间内可供使用的时间比例。较高的可用性表示系统的稳定性和可靠性较高。 网络延迟(Network Latency):指数据在网络中传输所需的时间。较低的网络延迟有助于提高系统的响应速度和用户体验。 数据传输速率(Data Transfer Rate):指数据在网络中传输的速率。较高的数据传输速率有助于提高系统的吞吐量和效率。 资源利用率(Resource Utilization):指系统或服务器的资源使用情况,如CPU利用率、内存利用率、磁盘利用率等。较低的资源利用率表示系统的性能和效率较高。 容量规划(Capacity Planning):指根据业务需求和预测数据,评估系统的容量和资源需求,以确保系统能够满足未来的需求。 用户满意度(User Satisfaction):指用户对系统或应用程序的满意程度。通过用户反馈、调查和评估,可以了解用户对系统性能和功能的评价。 这些业务性能指标可以根据具体的业务需求和系统特点进行调整和衡量。通过监测和分析这些指标,可以评估系统的性能状况,及时发现问题并采取相应的优化措施。DeepFlow从业务开发、运维、运营团队皆可通过DeepFlow获得可观测性能力,实现应用性能调优,提升新业务上线速度,保障业务运行稳定。
Read More云网监控平台是一种用于监控和管理网络设备、服务器和应用程序的工具。下面是一些使用云网监控平台的基本方法: 注册和登录:首先,你需要注册一个账户并登录到云网监控平台的网站或应用程序。 添加设备:在登录后,你可以开始添加需要监控的设备。这些设备可以是路由器、交换机、服务器、防火墙等。根据平台的不同,你可以手动添加设备的IP地址或域名,或者通过自动发现功能扫描网络并添加设备。 配置监控项:一旦设备添加完成,你需要配置要监控的项。这些项可以包括网络连接状态、CPU使用率、内存利用率、带宽使用情况等。根据你的需求,你可以选择监控项并设置相应的阈值。 设置警报和通知:云网监控平台可以通过警报和通知功能及时通知你设备或应用程序的异常情况。你可以设置警报规则,如当某个监控项超过设定的阈值时发送警报。你可以选择通过电子邮件、短信或应用程序推送等方式接收警报和通知。 数据分析和报告:云网监控平台通常提供数据分析和报告功能,帮助你了解设备和应用程序的性能和趋势。你可以查看历史数据、生成图表和报告,以便进行性能优化和故障排除。 远程管理和控制:一些云网监控平台还提供远程管理和控制功能,允许你通过平台远程访问和管理设备。这样你可以进行配置更改、软件更新和故障排除,而无需直接物理接触设备。 请注意,不同的云网监控平台可能具有不同的功能和界面,因此具体的使用方法可能会有所不同。在开始使用之前,建议你阅读平台提供的用户手册或文档,以便更好地了解和使用云网监控平台。全景性能监控是 DeepFlow 重要功能之一,覆盖了应用、系统、网络的全栈指标、链路、日志数据,动态关联监控节点数据的资源属性、服务属性、业务属性、变更事件,并且通过强大的计算能力可视化展现任意时间段内、任意路径、任意节点上的黄金指标数据,以及云网全景视图下的监控诊断解决方案。
Read More网络流量分发是指将网络中的流量从一个源地址(发送者)传送到多个目的地址(接收者)的过程。在网络中,流量分发可以有多种目的,包括负载均衡、高可用性和多路径传输等。DeepFlow在全景图、包分发及基础功能方面均有较多改进。其中全景图继续增强对容器的支持,改进了混合云异构资源的流量检索能力,增强网络性能、安全态势的监控能力,并将流日志数据与指标数据关联,优化了易用性和流量拓扑展示。 负载均衡:在高负载网络环境下,流量分发可以通过将流量分发到多个服务器或处理节点上,以实现负载的均衡。这样可以避免某个节点过载,提高整体性能和吞吐量。 高可用性:流量分发可以通过将流量传送到多个备用服务器或处理节点上,以实现高可用性和冗余。当某个节点或服务发生故障时,其他节点可以继续处理流量,保证服务的可用性。 内容传递网络(CDN):CDN是一种通过在全球不同位置部署服务器节点来优化内容分发的技术。流量分发在CDN中起到关键作用,通过就近选择合适的节点,将流量分发到最接近终端用户的节点上,提高内容的访问速度和用户体验。 多路径传输:在多路径网络中,流量分发可以将数据流通过不同的路径传输,以提高网络的带宽利用率、降低延迟并提供冗余。这可以通过路由协议和负载均衡技术来实现。 数据中心网络:在大型数据中心网络中,流量分发可以通过将流量分发到不同的服务器、存储设备和网络设备上,以实现数据中心的可扩展性和高性能。 总之,网络流量分发是将网络中的流量从一个源地址传送到多个目的地址的过程,可以实现负载均衡、高可用性、内容传递和多路径传输等目的,以提高网络性能、可用性和用户体验。
Read More网络流量采集和分析是一种用于监测和分析网络中数据流的活动的方法。通过对网络流量的收集和分析,可以获得有关网络性能、安全漏洞、异常活动和用户行为等方面的有用信息。云监控如 DeepFlow 则是基于云计算平台构建的。DeepFlow 主要通过网络流量进行数据收集,并利用先进的技术如 eBPF、WASM 和 OpenTelemetry 实现了 AutoTracing、AutoMetrics、AutoTagging 等高度自动化的可观测性平台。以下是网络流量采集和分析的一般步骤: 流量采集:网络流量可以通过多种方式进行采集。常见的方法包括: 网络抓包:使用网络抓包工具,如Wireshark,捕获网络接口上的流量数据包。 网络设备日志:通过监视网络设备的日志,如路由器、交换机和防火墙,收集流量信息和事件记录。 流量镜像:将特定网络接口的流量镜像到另一个接口,以便进行捕获和分析。 数据预处理:采集到的网络流量需要进行预处理,以便后续的分析。预处理步骤可以包括去除冗余数据、过滤噪音和无效流量、解码数据包等。 数据存储:经过预处理的网络流量数据可以存储到数据库或专门的流量分析工具中,以便更好地进行分析和查询。 流量分析:对存储的网络流量数据进行分析可以得到以下信息: 流量量和速率:了解网络的总体流量负载和速率,识别峰值和低谷时段。 流量类型:识别不同协议、应用和服务的流量,了解流量的来源和目的。 网络性能评估:监测延迟、吞吐量和带宽利用率等指标,帮助优化网络性能。 安全监测:检测和识别异常和恶意流量,如入侵尝试、DDoS攻击等。 用户行为分析:对用户的网络行为进行分析,了解用户的访问模式、兴趣和偏好等。 可视化和报告:将分析结果以图表、报告和仪表盘等形式进行可视化展示,以便用户更直观地理解和使用分析结果。 流量采集和分析可以帮助网络管理员和安全团队更好地理解网络的运行状态和安全状况,及时发现和解决问题,优化网络性能和加强网络安全防护。
Read More
云杉 世纪
2023年11月29日
产品资讯