【演讲实录】金融云业务网络 智能采集与一体化分析实战

root

2018年11月12日

技术探讨, 行业趋势

引言:2018年11月3日的《2018 DevOps金融峰会•深圳站》上,针对金融业务上云的现状和挑战,云杉网络华南区的高级技术经理吴毓华分享了主题为《金融云业务网络 智能采集与一体化分析实战》的议题,讲解了如何借助精准的虚拟网络流量采集和预处理能力,结合金融应用的分析工具链,帮助云平台运营者构建全方位的云端业务态势感知系统。

大家好,我先介绍下我自己,我是来自云杉网络的吴毓华,今天想给大家分享一个关于金融云业务网络的采集、分析与分发的实战故事。在讲之前,我想先同大家一起探讨一个问题:我们为什么需要采集虚拟网络的流量。

▌为什么要谈虚拟网络采集

云杉网络做SDN伊始2008年,摸索了十载,在云计算,云网络均有研究及实战,这期间我们看到两个很明显的网络变化,第一:网络流量形态转变,过去网络是烟囱式架构,都是南北向的流量,现在变成了东西向的流量,据统计在一个数据中心网络里面大概80%的流量都是东西向流量,可见东西向流量成为了主导。

640-webp

第二:网络与业务脱节。为什么这么说,不是说网络已经不能满足业务的需求,而是网络与业务的关系,变得越来越远。什么意思呢?比如在从前传统网络里,我们可以从网络里面抽取流量,再通过协议可以大概了解到是什么应用。但是现在因为有underlay网络,有overlay网络,我们再按照老方法,从抽取的流量里看到的却是VXLAN封装和报文,即便把封装解开,里面都是重复的IP。

所以想要在如今的云网络里面去发现运行的业务类型,其实是件艰难的事情,所以才说网络逐渐边缘化。在这种发展趋势之下,日常的网络使用、运维会面临怎样的挑战,接下来分享两个典型的例子。

一个每天都在发生的事情:业务部门报障说业务应用反应速度缓慢,网络问题,可网络部门却认为网络没有问题,业务部门当然不认可,之后就是无休止的争论,可问题依然没解决,那么问题发生在哪里?

我们来看网络的剖面,对于网络部门来说,他们的视野范围在underlay网络,看到的是交换机、一段一段链路,但是业务关注的是虚拟机里面的应用,所以在这里有一个很大的管理盲区,里面有OVS、VGW、VFW、VLB,这些都是很重要的网络节点,看不到里面的网络状态,又如何能找到问题的源头?或者判断报障是否属于网络问题。这个事件提醒了我们,看清楚虚拟网络在发生什么是关键。

第二个例子发生在一个知名证券公司,大家知道证券行业有着等保、证监一系列的安全要求,因此安全部门向网络部门提出了需求:将核心业务系统里的重点业务组件的网络流量导出来,做安全分析、数据审计等。

接下来,网络部门为了满足这个需求,建立出一个方案,通过流表的方式将虚拟网络镜像出来。不过在POC过程中,结果并不理想,流量镜像跟流表混在一起,编排复杂,并且在虚拟机发生迁移时,镜像策略不能自动更新,最终方案不能落地,需求也不了了之。

后来更严重的事情发生了,公司出现事故,导致用户信息泄露,这样的事件在证券行业可谓一个重大的故障,安全部门此时此刻必须要担责,同时也因为网络部门没有满足到安全部门的需求,在这整个事件上网络部门与安全部门双方都有责任。

640-webp-1

结合上面两个例子不难看出,在云网络中,业务网络的采集、分析、分发已经成为一个云网络建设的标配,并且想要采集到虚拟网络流量,采集的方式、方案都要安全可靠,不能影响生产。

▌方案及价值

deepflow%e5%88%86%e6%9e%90%e5%88%86%e5%8f%91%e5%9c%ba%e6%99%af%e5%9b%be

如何去解决以上问题,就是云杉DeepFlow数据中心虚拟网络流量采集与分析平台(以下简称:DeepFlow)能做到的。这张图从最左边来看是采集部分,我们知道现在的业务跨度非常广,可能涉及私有云、公有云,云杉DeepFlow同时覆盖这些环境,通过部署DeepFlow,可以帮助您看到所有的业务,所有的VPC网络状态,管理者相当于站在高处从多维度看云网络的全貌,更便于管理。同时也可以聚焦到一个业务,像右上角这个图一样,到某一个VPC网络中,观察数据有多少网络组件,根据每一个点每一个线看到相应的网络信息。

在采集技术安全可靠上我们还做了许多优化。首先,DeepFlow采集器支持500个节点满足覆盖绝大部分的数据中心。

其次是高性能,单个采集点支持支持10G流量采集。安全可靠,通过专门的阈值去控制CPU、内存、网络资源的消耗,使得它不会影响生产网络,在发生迁移时,我们的策略同样可以做到及时更新,不至于采集的流量被中断。

简单总结来说,通过云杉DeepFlow采集得到虚拟网络流量,让我们可以看到虚拟网络正在发生什么,覆盖管理盲区。一旦故障出现,我们能迅速定位,同时能够快速推导出问题根源,提高运维效率。第二,采集虚拟网络流量之后,不仅可以自己拿来分析,还可以分发到第三方工具,帮助数据审计从而满足安全合规的要求。第三,在运维者视角可以看到整个云网络全貌。

▌应用实践

我想再向大家说两个DeepFlow数据中心虚拟网络流量采集、分析和分发的实例。第一个是故障定位事件,利用DeepFlow回溯分析功能可以轻松发现问题根源,如何去做的?拿事发时间段的虚拟网络流量与正常时间段的虚拟网络流量做对比,结果发现很明显的网络指标异常,网包很多、网络延迟非常大等,是谁造成的异常现象?

640-webp-2

通过云杉DeepFlow细粒度的采集能力发现数据库对某个IP地址发送了大量的流量,看到这个现象以后,立刻采取回测措施,回测就是说看这个异常现象在过去是偶然发生的,还是经常发生的,还是说是周期性的发生?经过这一系列的步骤,最后我们得到了结论,为什么数据库一直往外发送数据,其实是因为最近新上了一套数据库的备份系统,但是配备策略的时候,时间的参数写错了,经常是一天一次的备份,因为时间的错误,导致一小时一次的备份,所以数据库不断往外发,不断备份数据库的信息,占用了实际生产的资源,最终导致业务慢的现象。

我在其他案例当中也看到过一些比较有意思的问题,有的时候负载均衡配错了,导致后面的资源不均衡,可能某一台服务器虚拟机流量很大,其他空余。或者设定好数据指定某一个服务器处理的,但由于负载均衡配置错误,固定处理的流量被哈希掉了。

640-webp-3

讲第二个例子前,回忆一下刚才讲的安全部门向网络部门提出的需求,将虚拟机的流量导出来做安全审计和分析。其实这个问题只要通过部署DeepFlow后就可以轻松把虚拟网络流量采集出来,并且同时分发给后端两个分析工具资源池,为什么我们是两个?实则是起备份的作用,因为对于安全、审计、分析部门来说数据是非常重要的。

▌总结

640-webp-4

DeepFlow自有专利的虚拟流量采集技术具备大规模、零干扰、无依赖、过载保护、预处理等优点。支持VMware、OpenStack平台且对版本无依赖,单台控制器可管理500个采集点且无需对生产网络的虚拟交换机进行额外策略配置,支持对数据包去重、过滤、截短等操作,支持用户配置采集器的资源使用,保障生产环境稳定。

640-webp-5

云杉网络已经在SDN云网络方面有相应的研究以及方案落地应用,并且在十年当中获得了资本跟客户的认可。目前,云杉网络融资金额超过一个亿,拥有众多世界500强客户的成功案例,在金融、电信、电力、教育行业近百家企业部署,包括平安科技、兴业数金、甜橙金融、中国移动、国家电网、苏州国科数据中心等标杆客户,成为企业云数据中心网络稳定和高效运营的典范。

%e4%b8%ad%e7%be%8e%e8%ae%ba%e9%81%93%e7%be%a4

Related Posts

SDN云网分析中的服务拓扑与业务网络

SDN云网分析基于服务拓扑和业务网络两个视角对数据中心的业务应用进行相应的用量、性能、回溯、安全等分析,是实现SDN白名单模式的细粒度网络与安全整体解决方案部署与运维自动化的基础和保证。

Read More

云杉网络论剑四川政务云云网融合与安全保障之道

root

2018年8月13日

云杉动态, 技术探讨

对于未来的政务云建设,吕海波提出了构建智能网络监控平台、与SDN联动打造监、管、控一体化的云数据中心。

Read More