DeepFlow®网络全景图 打开云数据中心网络流量的黑盒

云杉网络

April 22, 2019

技术探讨

【本文是云杉网络研发总监向阳在2019北京SDN/NFV/AI大会上的演讲】

今天论坛的主题是人工智能和自动化,我想和大家分享一下我们在虚拟网络监控与分析领域的一些思考。人工智能和自动化的前提是要有数据,当我们有了相关的数据之后,这个智能化的系统才能去做一些决策。那么,对于数据中心虚拟网络来说,这些数据又来自哪里呢?

云数据中心网络东西向流量成黑盒

近年来数据中心流量的变化有一些特征,来自思科的数据显示,到2020年,数据中心内部东西向网络流量占到了77%,再加上数据中心之间的(例如灾备场景下,同城的光纤)流量,我们可以认为这也是东西向的,那么数据中心东西向流量占比高达86%之多,因此我们可以说,东西向流量已经成为数据中心的主角。 %e5%9b%be%e7%89%871

通常一个数据中心云网络规模的流量是TB级别,出口流量低1~2个数量级。另外一个数据是,数据中心在不断云化,思科预计2015~2020年数据中心流量会翻两番。如果我们把数据中心分为传统数据中心和云化的数据中心(包括虚拟化环境、微服务环境、自服务环境),思科对此的预测是云化数据中心的流量是占全球数据中心总流量的92%,这是一个非常大的数字。这时带来的问题是,对数据中心流量的采集,传统的分光/镜像/采样(sFlow、NetFlow等)的方法,其缺点是只能覆盖到物理网络,其对接的后端NPM/安全分析能力也只是GB级别。

%e5%9b%be%e7%89%872

对于一个整体的Fabric网络,其流量是能轻松达到TB级别的,当我们将这些流量全部采集下来之后,如何将流量和消费端对接起来(因为后端的分析能力是无法消化TB级流量的)也是一个严肃的问题日。这两个因素叠加起来,跟传统网络一层层漂亮的规划图相比起来,云数据中心的多租户的各种业务跑在一张网里,这里有不同的VPC、IP重叠,我们很难再用一幅清晰的图来表示这个网络,此时的数据中心网络无疑是一团乱麻。当出现业务故障时,团队的权责也因此开始模糊起来。

%e5%9b%be%e7%89%873

当业务发生故障的时候,虚拟网络「虚拟网元」成为了故障的盲点。重点行业对于这部分网络和流量的覆盖有明确要求,例如等保要求企业对虚拟网络的拓扑和流量具备采集和展现的能力,并且要求采集的方式要安全可靠。以前的网络拓扑环境中,防火墙的位置是固定的,因此策略的配置也很少出现遗漏,因为我们会有完善的分区,例如DMZ、Web、APP、DB等区域。但现在的网络结构是灵活多变的,由此产生的虚拟机的迁移、容器的创建和销毁,这对海量安全策略的配置下发和验证来说无疑是个挑战。而对于多租户场景,目前仍缺乏全局检测和海量规则下发与验证的手段。

总的来看,业务系统普遍运行在VPC网络里,有许多业务系统会共享这个VPC网络,在这样一个较大的平台上,新业务通常无法判断应该在哪里上线。以往的资产采购有明确的归属,现在企业里申请虚拟机变得十分便捷,但是管理员并不能掌握这些资源的使用情况。遇到故障时,网络运维人员通常没有服务器的管理权限,也不知道该去哪里抓包(需要先定位故障点)。常规的解决方法,是把流量和网络配置全部拿下来。但在虚拟化环境中,分光镜像的手段在云里是无法工作的。我们知道VMware的VDS有镜像能力,但商用的OpenStack环境里OvS通常没有这个能力,而镜像的方案对资源的消耗也是倍增的。

构建云数据中心网络全景图

我们的目标是网络本地的转发和计算的本地处理,那么我们应该怎么实现对虚拟网络盲点数据的全量采集呢?物理网络的关键节点(主要是接入部分)覆盖,例如数据中心出口、防火墙的前后,以及接入交换机等。但是虚拟网络要相对复杂一些,常见的虚拟交换机一般没有流量镜像能力、有镜像能力的资源开销太大、用户也难以接受。

对于不同的环境我们有不同的应对方案,对于KVM这类开放方案,可以进行本地的预处理——在宿主机上将流量转换成(各个维度的)遥测数据。在我们的实践中,GB级别的流量,我们发包头就是M级别,如果再压缩一些,能够到K级别。因此这种方案才能在大规模的网络中落地。在封闭的VMware环境里,我们采取本地SPAN的方式,在虚拟机里做预处理之后发送出去。而在公有云的场景下,我们需要在VM内植入探针,这样能覆盖全部盲点的流量采集场景。

%e5%9b%be%e7%89%874

在混合云的场景中,我们的解决方案如上图所示。探针的主要功能是把网络数据包变成遥测数据。在x86上实现该方案,大家比较关注的是资源消耗,主要的消耗在于把包抽取出来和压缩后的发送。我们的优化方案是利用DPDK或者Linux内核实现零拷贝,当然这里也有局限,在追求性能极致的同时还要兼顾对客户系统环境的无扰,我们需要做到仅靠已有的环境来获取自己想要的流量,这在性能优化方面给我们带来了许多的技术挑战。

由于我们是在VPC网络里做流量的采集,所以会面临IP冲突的问题,在复杂环境里这种冲突十分难定位。我们会用Mac地址来定位,但这样还不够,因为任何有偏差的数据对后端分析系统来说都是灾难。我们需要从流量的角度看有偏差的数据,其校正需要和云平台进行联动,例如静态的资源属性,动态的路由表等。通过这些手段我们就能判断和确认流量的对端信息。

接下来的工作要相对容易一些,后续的分析比较好理解。我们把拿到的数据写入时序数据库,然后打一些标签,再通过多种纬度对数据进行解释。例如生成的资源报表,可以解决业务上线的问题、虚拟机迁移的问题、对于僵尸虚拟机的清理也十分有帮助,等等。微服务会产生大量容器到容器、VM到VM的通信,通过对这些通信的分析能发现一些端口扫描等安全隐患。对于采集到的数据,通过标记后,我们可以从不同的维度绘制一个从地域到VPC再到服务器、子网、虚拟机、虚拟机接口、IP等从宏观到微观地刻画云网络的全景视图。

打开云网黑盒

刚才讲的是我们如何利用采集到的数据做一个可视化展现,更多地偏向资源的用量、计量、异常的发现等场景。另一个使用场景是在安全层面,我们可以对新上线业务的端口进行聚类,将这些资源映射为一个服务。针对端口的统计、分析和聚类,我们可以生成一些建议的安全策略,这在后续的业务变更中十分有用。我们将安全策略和采集到的流量mapping对比之后,就能验证策略的有效性。

%e5%9b%be%e7%89%875

通过流量采集,做一个从报表展现到搜索、再到安全策略的建议和验证的实现。从流量的角度看,我们把虚拟网络的盲点消除了,今天的重点是在数据侧,有了这些数据之后我们可以通过机器学习实现一个自动化控制。另外一个层面,流量是网络的一个组成部分并且是动态的,但网元自身的配置和状态相对于流量是静态的,虚拟机通常会包含这些静态的配置。我们不但要采集流量,我们还需要采集配置和状态。采集完这些信息之后,我们在一张视图里就能够绘制出流量访问的直观路径。再和控制器上的规则加以比对,就能实现端到端的链路诊断。

但事请远非这么简单,对于取证的问题。传统的方法是抓包,在虚拟网络里这件事比较复杂,我们需要抓包后把他们送出去,这时需要我们打隧道送到后端。考虑到性能和资源开销,我们不能在虚拟网络里全量采集包,这时我们要一步步来,先确定范围,再缩小范围(协议、端口、去重、切片),最后定位之后再把故障点的包按需地、精准地抓出来交给后端的分析工具。通过构建这样一个完整的监控网络,我们实现了打开云网黑盒的目的。

%e4%b8%ad%e7%be%8e%e8%ae%ba%e9%81%93%e7%be%a4

]]>

Related Posts

云网监控平台如何实现与第三方服务的整合

Lei

April 29, 2025

技术探讨

随着信息技术的飞速发展,云网监控平台在企业网络管理中的重要性日益凸显。为了进一步提升其功能和适用性,云网监控平台与第三方服务的整合成为了一个关键的发展方向。这种整合不仅能够拓展云网监控平台的功能边界,还能为企业提供更全面、高效的网络管理解决方案。 一、接口对接的关键要素 云网监控平台与第三方服务整合的第一步是接口对接。在这个过程中,数据格式的统一是至关重要的。不同的第三方服务可能采用不同的数据格式,例如JSON或者XML。云网监控平台需要能够识别并转换这些格式,以便顺利地接收和处理数据。例如,在与某知名网络安全服务的整合中,该平台开发了专门的数据格式转换模块,成功将其原本复杂的XML格式数据转换为内部统一使用的JSON格式,从而实现了数据的有效对接。 接口的稳定性也是不可忽视的。一个不稳定的接口可能会导致数据传输中断或者错误。云网监控平台在与第三方服务进行接口对接时,需要进行严格的测试。比如,采用压力测试来模拟高并发的情况,确保接口在大量数据传输时依然能够稳定工作。在与一家大型数据存储服务的整合中,通过多轮压力测试,及时发现并修复了接口的性能瓶颈,保证了整合后的服务稳定运行。 二、数据共享与安全机制 数据共享是云网监控平台与第三方服务整合的核心内容之一。一方面,要明确共享数据的范围。云网监控平台需要根据自身的需求和第三方服务的功能,确定哪些数据可以共享。例如,在与一家网络性能分析服务整合时,平台仅共享网络流量和延迟等相关数据,避免了不必要的数据暴露。 数据安全机制的建立是保障整合成功的关键。加密技术是常用的数据安全手段。云网监控平台和第三方服务之间传输的数据应该进行加密处理,防止数据在传输过程中被窃取或者篡改。有研究表明,采用AES加密算法可以有效地提高数据传输的安全性。访问控制也不可或缺。只有经过授权的用户和服务才能访问共享数据,通过设置严格的用户权限和认证机制,确保数据安全。 三、功能互补与协同工作 云网监控平台与第三方服务整合的目的之一是实现功能互补。例如,云网监控平台可能在基础网络指标监控方面表现出色,但在特定应用的性能分析上存在不足。而一些第三方服务专注于特定应用的性能优化。通过整合,两者可以相互补充。以电商平台的网络管理为例,云网监控平台与专注于电商应用性能的第三方服务整合后,能够同时监控网络的基础指标和电商应用的响应时间、交易成功率等关键指标,提升了整体的监控效果。 协同工作是功能互补的延伸。在整合过程中,需要建立有效的协同工作机制。这包括任务分配和协调机制。比如,当发现网络故障时,云网监控平台和第三方服务需要明确各自的职责,是由平台负责基础网络的排查,还是由第三方服务针对特定应用进行问题诊断。通过合理的任务分配,可以提高故障排除的效率。 云网监控平台与第三方服务的整合涉及接口对接、数据共享与安全、功能互补与协同工作等多个方面。接口对接要注重数据格式和接口稳定性;数据共享需明确范围并建立安全机制;功能互补和协同工作能提升整体监控效果。这种整合有助于云网监控平台功能的拓展,为企业提供更优质的网络管理服务。未来,可以进一步研究如何在更复杂的网络环境下优化整合过程,以及如何提升整合后的服务智能化水平。

Read More

云网监控平台如何实现与第三方日志服务的集成

Lei

April 29, 2025

技术探讨

在当今数字化的环境中,云网监控平台对于企业的网络管理和运维至关重要,而第三方日志服务则提供了丰富的日志数据管理与分析能力。将云网监控平台与第三方日志服务集成,能够为企业带来更全面、高效的网络管理解决方案。 一、集成的接口与协议 云网监控平台与第三方日志服务集成首先要考虑的就是接口与协议的适配。许多云网监控平台都提供了标准化的API接口,例如RESTful API。这些接口为与第三方日志服务的交互提供了基础。一方面,通过定义明确的请求和响应格式,云网监控平台可以方便地向第三方日志服务发送数据获取请求。例如,监控平台可以按照API的规范,发送包含特定时间段、日志类型等参数的请求,以获取所需的日志数据。在协议层面,常用的如HTTP协议,确保了数据传输的可靠性。就像[网络技术专家张三在其研究中提到](具体研究出处),良好的接口与协议是实现不同系统集成的第一步,它决定了数据能否准确、高效地在云网监控平台和第三方日志服务之间流动。 安全协议也不容忽视。在数据传输过程中,采用SSL/TLS加密协议,可以保障日志数据的安全性。这不仅防止了数据在传输过程中的泄露风险,还增强了企业对数据隐私保护的信心。因为在当今网络安全形势严峻的情况下,数据泄露可能会给企业带来巨大的损失,如[某企业曾因日志数据泄露导致的安全事件](具体案例出处),所以安全协议的应用是集成过程中的重要环节。 二、数据格式的转换与映射 云网监控平台和第三方日志服务可能采用不同的数据格式。云网监控平台通常会以自己特定的格式存储和管理监控数据,而第三方日志服务也有其自身的数据格式要求。在集成过程中需要进行数据格式的转换。例如,云网监控平台的数据可能以JSON格式存储,而第三方日志服务要求的数据格式为XML。这就需要在两者之间建立转换机制。可以通过编写数据转换脚本或者使用专门的中间件来实现。 数据的映射关系也是关键。不同系统中的数据字段可能代表不同的含义,需要建立准确的映射关系。比如,云网监控平台中的“网络流量峰值”字段,在第三方日志服务中可能对应的是“网络带宽最大值”字段。只有建立了正确的映射关系,才能确保数据在集成后的准确性和可用性。这就好比在不同语言之间进行翻译,准确的词汇映射才能传达正确的信息。 三、日志数据的过滤与筛选 在集成过程中,日志数据的过滤与筛选是提高效率和针对性的重要手段。从云网监控平台的角度来看,由于监控数据量巨大,如果将所有数据都发送到第三方日志服务,不仅会增加网络传输负担,还可能导致第三方日志服务处理效率低下。需要在云网监控平台端对数据进行初步的过滤。例如,对于一些常规的、已知正常的网络监控数据,可以在本地进行简单处理,不发送到第三方日志服务。 而第三方日志服务也可以根据自身的需求进行二次筛选。比如,第三方日志服务可能只对特定类型的网络事件日志感兴趣,如网络攻击相关的日志。通过设置筛选条件,只接收和处理符合条件的日志数据,可以节省资源并提高分析的准确性。这就如同在大海捞针时,先使用一个大网筛去大部分无关的东西,再用一个小网进行更精准的筛选。 四、实时性与异步处理 对于云网监控平台与第三方日志服务的集成,实时性是一个重要考量因素。在某些场景下,如网络安全监控,需要及时将监控到的异常日志发送到第三方日志服务进行分析,以便快速做出响应。这就要求集成系统能够支持实时数据传输机制。例如,可以采用消息队列技术,如RabbitMQ,确保日志数据能够及时到达第三方日志服务。 在一些情况下,实时性并不是唯一的要求,异步处理可以提高系统的整体性能。当网络负载较高或者第三方日志服务处理能力有限时,异步处理可以避免数据传输的阻塞。比如,云网监控平台可以先将日志数据缓存起来,然后按照一定的规则和时间间隔逐步发送到第三方日志服务进行处理。这就像是在交通拥堵时,车辆可以选择合适的时间再出发,而不是都挤在同一时间造成更严重的拥堵。 本文主要探讨了云网监控平台如何实现与第三方日志服务的集成。从接口与协议、数据格式转换与映射、日志数据过滤与筛选以及实时性与异步处理等多个方面进行了详细阐述。通过这些方面的合理处理,可以实现云网监控平台和第三方日志服务的有效集成,为企业提供更强大的网络管理和运维能力。在未来的发展中,随着网络技术的不断进步,云网监控平台和第三方日志服务的集成可能会面临更多的挑战,例如新的数据类型的处理、更高的实时性要求等,这也为相关的研究和开发提供了方向。

Read More