DeepFlow全栈混合云网络监控最佳实践【阿里云篇】

  • 流量采集分发:提供物理网络探针、虚拟网络及容器全网流量采集、存储及引流再分发的能力。
  • 网络质量分析:高效展示多地区、可用区、虚拟机、宿主机、应用、POD、服务等维度的关联性、连接状态、性能等网络性能指标。
  • 多维数据聚合:构建网络知识图谱,提供关联网络、云平台、容器平台、服务等各平台信息,快速查询关联信息。
  • 监控纳管:报警、报表、视图、资产管理等。
  • 云原生兼容:流量分析组件支持弹性伸缩,满足云原生场景下架构横向扩容的需求。
  • 在阿里专有云及混合云场景部署DeepFlow
    在专有云环境中部署DeepFlow之前,用户需要开通服务隧道资源,并记录相关服务及其IP地址信息、服务隧道IP地址信息。其部署示意图如下: ali1

    阿里专有云部署示意图

    在阿里混合云的部署示意图如下所示,用户完成DeepFlow部署之后,通过登录管理后台进行配置管理(为控制器和数据节点绑定隧道IP地址信息),关于部署的详细信息可参考 https://help.aliyun.com/document_detail/201110.html ali2

    阿里混合云部署示意图

    DeepFlow全栈混合云分析能力
    云杉网络DeepFlow自5.6之后的版本开始适配容器,并最终全栈覆盖网络+应用的流量监控和分析,具备了细至端到端及服务端口的逐跳流粒度检索能力。即,覆盖流量从业务POD经过容器节点、物理宿主机、物理网络链路(包括负载均衡器、网关等),到另外一台宿主机上某个容器节点内的业务POD,提供全栈混合云环境下的全链路监控追踪能力。 ali3 网络拓扑功能聚焦于从逻辑、虚拟、物理的视角展现网络的配置信息和状态指标数据。完整描述各虚拟资源及虚拟网元之间的访问关系以及流量状态,帮助用户全面掌握虚拟网络整体情况,有效应对虚拟网络内部组件关系复杂、容器或虚拟机变动频繁等现象。 ali4 当用户遇到业务问题时,可以借助DeepFlow逐跳的监控能力排查性能问题:
    1. 通过广域网追踪,过滤网流,定位问题地域;
    2. 通过物理链路追踪查看网络性能指标的变化,定位丢包和时延位置;
    3. 通过虚拟链路追踪查看网络性能指标的逐跳变化,定位丢包和时延位置;
    4. 通过精细搜索,过滤指定网流:源、目的、协议、服务端口。
    ali5
    DeepFlow业务全链路排查能力
    全景图是DeepFlow重要功能之一,5.6版本后提供了多个维度(包括IP、VPC、子网、区域、可用区、宿主机、虚拟机、容器节点、容器POD、业务、资源组等)的资源流量搜索和知识图谱展现。全景图展示的视角包括:
    • 流统计:以IP五元组聚合流,以流属性为基础统计吞吐、负载、时延、性能、异常及流量属性数据,支持以趋势、排名、分布、拓扑的方式进行可视化。
    • 包统计:以IP二元组聚合,对包的播送类型、TCP标志位、TTL、包长区间等属性进行吞吐量统计,支持以趋势、排名、分布、拓扑的方式进行可视化。
    • 广域网:从地理位置的视角展示资源与Internet之间的流量分布,支持以中国省份维度进行分组统计,支持的指标量与流统计相同,支持以趋势、排名、分布的方式进行可视化。
    ali6 用户可通过DeepFlow对物理链路、虚拟链路统一进行链路逐跳的排查,快速定位丢包和时延的位置。针对需要钻取或详细查看的环节,用户通过通过点击拓扑中的资源、路径,以及分布图中的分组等选项,可在多个维度的展示界面之间进行随意切换,从不同的视角对目标段的数据进行细致的展现。 ali7 此外,在钻取环节,页面还可进一步跳转到流量曲线二级页面,以折线图的视角,展现现拓扑中的节点、路径或分布图中分组的统计数据在不同时间的结果,并与虚拟机、容器POD的启停、创建(同步)、删除、迁移、IP变更事件进行关联展示。进一步的,可以跳转到流日志三级页面,查看对应的原始流日志详细信息。 DeepFlow采集器分布式部署在用户的计算节点,拥有多种形态的版本、以进程形态独立运行并支持在异构的混合云资源池中一键部署。DeepFlow控制器按角色分为主控制器、备控制器、从控制器,用户可根据实际部署要求进行灵活选择;控制器集群最大可管理10万台规模的采集器,分布式部署的采集器与控制器构建成一个与云网规模一致的分布式流量处理系统。满足大型企业私有IT、公有云、容器等对云数据中心资源池建设持续演进的网络流量监控分析要求。]]>

    Related Posts

    运动战:AI 时代 IT 运维的决胜之道——DeepFlow 业务全链路可观测性的落地实践

    当真实的系统故障来临时,告警此起彼伏,由于全线布防,各个系统都在疯狂报警。工程师手忙脚乱,真正的故障究竟发生在哪里,反而更难判断。那位朋友期望的"AI 处理海量告警",真到了关键时刻却变成了这样:一次核心交易系统故障,系统瞬间喷涌出数千条告警,AI 分析平台面对海量噪音反而不知道什么是重点,运维团队花了两个多小时才从层层迷雾中手工找到问题点。

    Read More

    云网监控平台如何实现与第三方服务的整合

    Lei

    April 29, 2025

    技术探讨

    随着信息技术的飞速发展,云网监控平台在企业网络管理中的重要性日益凸显。为了进一步提升其功能和适用性,云网监控平台与第三方服务的整合成为了一个关键的发展方向。这种整合不仅能够拓展云网监控平台的功能边界,还能为企业提供更全面、高效的网络管理解决方案。 一、接口对接的关键要素 云网监控平台与第三方服务整合的第一步是接口对接。在这个过程中,数据格式的统一是至关重要的。不同的第三方服务可能采用不同的数据格式,例如JSON或者XML。云网监控平台需要能够识别并转换这些格式,以便顺利地接收和处理数据。例如,在与某知名网络安全服务的整合中,该平台开发了专门的数据格式转换模块,成功将其原本复杂的XML格式数据转换为内部统一使用的JSON格式,从而实现了数据的有效对接。 接口的稳定性也是不可忽视的。一个不稳定的接口可能会导致数据传输中断或者错误。云网监控平台在与第三方服务进行接口对接时,需要进行严格的测试。比如,采用压力测试来模拟高并发的情况,确保接口在大量数据传输时依然能够稳定工作。在与一家大型数据存储服务的整合中,通过多轮压力测试,及时发现并修复了接口的性能瓶颈,保证了整合后的服务稳定运行。 二、数据共享与安全机制 数据共享是云网监控平台与第三方服务整合的核心内容之一。一方面,要明确共享数据的范围。云网监控平台需要根据自身的需求和第三方服务的功能,确定哪些数据可以共享。例如,在与一家网络性能分析服务整合时,平台仅共享网络流量和延迟等相关数据,避免了不必要的数据暴露。 数据安全机制的建立是保障整合成功的关键。加密技术是常用的数据安全手段。云网监控平台和第三方服务之间传输的数据应该进行加密处理,防止数据在传输过程中被窃取或者篡改。有研究表明,采用AES加密算法可以有效地提高数据传输的安全性。访问控制也不可或缺。只有经过授权的用户和服务才能访问共享数据,通过设置严格的用户权限和认证机制,确保数据安全。 三、功能互补与协同工作 云网监控平台与第三方服务整合的目的之一是实现功能互补。例如,云网监控平台可能在基础网络指标监控方面表现出色,但在特定应用的性能分析上存在不足。而一些第三方服务专注于特定应用的性能优化。通过整合,两者可以相互补充。以电商平台的网络管理为例,云网监控平台与专注于电商应用性能的第三方服务整合后,能够同时监控网络的基础指标和电商应用的响应时间、交易成功率等关键指标,提升了整体的监控效果。 协同工作是功能互补的延伸。在整合过程中,需要建立有效的协同工作机制。这包括任务分配和协调机制。比如,当发现网络故障时,云网监控平台和第三方服务需要明确各自的职责,是由平台负责基础网络的排查,还是由第三方服务针对特定应用进行问题诊断。通过合理的任务分配,可以提高故障排除的效率。 云网监控平台与第三方服务的整合涉及接口对接、数据共享与安全、功能互补与协同工作等多个方面。接口对接要注重数据格式和接口稳定性;数据共享需明确范围并建立安全机制;功能互补和协同工作能提升整体监控效果。这种整合有助于云网监控平台功能的拓展,为企业提供更优质的网络管理服务。未来,可以进一步研究如何在更复杂的网络环境下优化整合过程,以及如何提升整合后的服务智能化水平。

    Read More