云杉可观测性服务快讯( 2024年10月)

云杉 世纪 | 2024-11-18

01|某银行 压测偶发高时延 新核心业务非功能压测偶发 10s 高时延响应,通过 DeepFlow 调用链追踪、数据库监控等功能,定界原因是后端分布式数据库响应时延高所致。 难度⭐️ 02|某银行 Redis访问认证失败 在 DeepFlow 的追踪–拓扑分析中发现某服务异常比例很高,经过调用日志的响应异常指标,定位到 Redis 服务在报-NOAUTH Authentication required.错误。推测是 Redis 配置了访问密码导致;帮助其缩小排查范围,提高定位问题的效率。 难度⭐️ 03|某证券公司 K8s集群网络延时 客户反馈中间件 K8s 集群最近出现大面积网络时延高、丢包问题,通过 DeepFlow “全链路追踪” 功能快速定位到故障的 Node 节点,且 POD 网卡建连时延高,分钟级定界是 CNI 转发性能问题,极大缩短了排障效率。 难度⭐️ 04|某银行 系统下发重复指令 自动化运维系统下发重复指令,影响执行效果,因中间经过了多重代理,不确定是从哪里开始有问题的,通过流量镜像等方式排查周期长、成本高,在客户端和服务端虚拟机内部署 deepflow-agent 后,使用 PCAP 下载功能快速提取业务原始流量,发现客户端一个指令几乎同时下发了 2 次,从而确定根因在客户端内部。 难度⭐️⭐️ 05|某银行 数据库网络链接失败 高斯数据库偶发性出现网络连接失败,在数据库系统中安装 deepflow-agent 后定位到原因是 TCP 建联客户端 SYN 结束,也就是高斯数据库服务没有对这个 TCP […]

阅读全文>>

可观测性实战:从拨云见日到抽丝剥茧快速定位业务响应时延高问题

云杉 世纪 | 2024-10-23

本文分享借助 DeepFlow 在某头部劵商业务压测场景中通过调用链追踪快速定位问题的过程。解决在容器云内等复杂调用场景中解决传统监控手段覆盖不全面、排障定位无手段等痛点。分享利用 DeepFlow 如何快速在复杂的业务调用过程中抽丝剥茧,快速排除网络问题,定位Pod服务自身业务逻辑问题,展现 DeepFlow 产品价值。

阅读全文>>

金山办公基于 DeepFlow 的零侵扰可观测性实践

云杉 世纪 | 2024-10-23

金山私有化项目在可观测性建设中,面临数据孤岛和缺乏全局视图的挑战,影响了问题排查效率。为此,引入 DeepFlow 和 eBPF 技术,打通了指标、追踪和日志数据的联动,提供了全局微服务调用关系。通过分阶段建设,已完成第一期目标,实现了从被动排障到主动观测的转变,提升了系统稳定性和运维效率。

阅读全文>>

云杉网络 DeepFlow &必示RiskSeer应用性能智能监控预警方案

SDN in China | 2024-09-20

随着云原生技术的广泛应用,社会数字化快速发展,政府、金融、通信、电力、制造、消费等各行各业正在不断的被数字化、智能化改变,涌现出越来越多的大型、超大型 IT 业务。随之而来的是 IT 业务系统的复杂度越来越高,开发迭代速度越来越快,系统规模越来越大,运行风险越来越高,而业务抖动、业务故障的经济影响、社会影响也越来越广泛。 为了应对新的 IT 生产力带来的业务保障能力的挑战,可观测性技术快速发展和成熟,成为云原生时代公认的运维技术演进方向,可观测性平台也成为 IT 企业的必备选项。 可观测性技术从数据出发,致力于提升 IT 系统的可观察性、可维护性和运行可靠性,通过新的数据采集、数据处理、数据存储技术打通数据孤岛,形成百倍、千倍于上一代监控时代的数据体量,产生了 IT 运维的“数据大爆炸”。同时伴随着机器学习、神经网络、大模型等 AI 技术的不断爆发,使用 AI 技术对“数据大爆炸”产生的可观测性数据进行智能分析,逐步落地运维智能化将进一步改变 IT 运维,并最终实现端到端的 AI 运维保障能力。 通过在OpenAIOps 社区基于AIOps Live  Benchmark:https://www.aiops.cn/aiops-live-benchmark 进行充分验证,云杉网络与必示科技携手联合发布应用性能智能监控预警方案,融合云杉网络 DeepFlow 产品在可观测性、必示科技 RiskSeer 产品在运维数据 AI 分析的深厚技术积淀,实现 IT 系统高质量、高性能、全栈的可观测数据采集、智能监控和智能分析,全面提升云原生系统的可观测和智能化运维能力。 PART.01 方案架构 云杉网络 DeepFlow 可观测性平台,以 eBPF 零侵扰(Zero Code)观测数据采集技术实现的分布式追踪数据、应用调用性能数据、函数剖析数据为核心,以智能标签(SmartEncoding)技术实现的观测信号高性能关联和存取为支撑,以观测数据 Sink 接口实现的观测数据 Pipeline 为补充,面向复杂的云基础设施及云原生应用,实现了全栈、全链路的分布式追踪、应用性能指标分析、TCP 性能指标分析、持续性能剖析、网络流回溯等一系列的深度观测能力。平台通过高性能、高质量的数据采集和开放的数据汇入,形成了汇聚 Metrics、Trace、Logging、Profiling、Events 等观测信号的可观测性数据湖,湖内的各类观测信号数据通过自动注入的标签(资源标签、业务标签)高度关联并富含上下文信息。 必示科技 RiskSeer 产品基于大数据技术和时序基础模型,面向时序数据提供基于智能动态基线的指标监控预警能力,在趋势预测方面积累了丰富的数据样本和模型算法参数,具有模型算法通用性强、处理性能高、抗数据噪音、抗数据缺损、非周期变化自适应、周期漂移自适应等诸多优异的智能特性,帮助用户及时准确的发现系统运行异常、主动消除潜在风险,持续提升业务运行健康状态。 DeepFlow 与 […]

阅读全文>>

云杉网络可观测性服务快讯( 2024年8月)

云杉 世纪 | 2024-09-20

01|某省电力公司 业务无响应 能源互联网营销服务系统集群某节点业务无响应,在 DeepFlow 中发现该节点的 TCP 连接都被服务端直接重置,根据经验判断是磁盘故障导致,通过 DeepFlow 的文件读写监控发现从故障时间点开始就没有磁盘写入操作,客户通知相关业务运维修复磁盘问题后业务恢复正常。 难度⭐️ 02 | 某互联网金融公司 关键服务监控视图 客户反馈 k8s 对外服务应用报了大量线程池满,无法对外提供服务。客户侧排查 1-2 小时后才确认具体出现故障的服务点。后续通过 DeepFlow 创建 k8s 对外服务监控视图,可以直观看到具体某个时间点,服务故障响应耗时的变化,快速排查故障点及故障原因。 难度⭐️ 03 | 某汽车企业 关键业务偶发超时 客户某注册中心业务长期存在低频偶发超时情况,经多次排查发现异常 reset 请求,但始终无法界定具体故障点。通过 DeepFlow 不同位置流日志,结合时序图快速发现,在问题发生时客户端容器节点处存在一个未经 SNAT 直接请求对端 Pod 的情况,并且 ACK  序列号完全相同,初步判断为容器 CNI 异常 BUG,客户立即通知云服务团队做进一步处理。 难度⭐️ 04 | 某汽车企业 业务流量治理与优化 客户成立流量治理团队,通过调用 DeepFlow 应用 RED 指标,嵌入 DeepFlow 业务拓扑图,利用 DeepFlow […]

阅读全文>>

DeepFlow面向电力营销2.0系统全链路可观测创新实践

云杉 世纪 | 2024-08-26

本文将详细介绍 DeepFlow如何运用创新全链路观测技术,从业务全链路视角、系统服务全链路视角为电网行业带来全面的业务洞察和优化体验。

阅读全文>>

云杉网络可观测性服务快讯( 2024年7月)

云杉 世纪 | 2024-08-02

01|某省电力公司 业务可观测性 能源互联网营销服务系统在云原生环境上线后,通过 DeepFlow 平台以及 WASM 插件解析扩展能力,无需系统改造,实现对电网营销系统中交易标识等重点字段的安全提取,形成业务视角与网络、系统及应用视角相结合,极大提升了运维与业务的联动效率。 难度⭐️ 02|某金融科技公司 应用响应延时 某寿险业务中,应用程序同一工作负载的若干 POD 总存在响应延时超过 1 秒的现象,通过 DeepFlow 全栈链路功能的指标分析,分钟级定界问题存在于负载均衡达到性能极限边界时,负载处理所使用的轮询策略存在瓶颈,调整策略配置后解决故障。 难度⭐️⭐️ 03|某银行 告警根因分析 基础服务系统 Calico 服务超时触发告警,通过 DeepFlow CPU 持续剖析功能,排除 Calico-Node 自身问题的可能性;通过平台调用追踪功能中网络观测数据,确认 Loopback 网卡已经发出数据包,排除网络问题的可能性;通过平台调用追踪功能中应用观测数据,确认客户端收到数据但未进行处理,从而超时触发告警。系统团队精准应答解决。 难度⭐️⭐️ 04|某银行 应用响应超时 在交易高峰期“借贷系统”响应超时,通过 DeepFlow 平台的网络分析功能,对比指标以及链路状态,迅速确认网络路径均正常,通过应用调用追踪功能,数据库访问存在处理性能瓶颈。 难度⭐️ 05|某银行 业务可观测性 除保障金融业务外,对于云平台自身也同样存在观测能力提升的需求。云运维团队对于云资源的增删改查等行为始终处于监控黑盒状态,无法知晓业务方的使用情况,同时,当出现操作失败等异常情况,只能从多个服务的海量日志中过滤有效信息。监控盲点多,排障效率低。通过 DeepFlow 平台以及 WASM 插件解析扩展能力,提取标识符,绘制云控制系统服务间的调用链追踪,实现操作失败后的快速定位;对租户行为的监控分析,追踪 API 调用及 API 返回状态等。 难度⭐️ 06|某省电力公司 性能测试 在业务上云的非功能压测过程中,通过 DeepFlow 平台全景视图直观呈现交易调用、服务拓扑、网络性能、函数瓶颈等,提升测试团队评估及性能优化效率。 难度⭐️ […]

阅读全文>>

云杉网络可观测性服务快讯( 2024年6月)

云杉 世纪 | 2024-07-04

第一期:10个代表性的服务典范 2024年6月 01| 某银行-数据库访问时延数 客户应用管理部门反馈某业务访问数据库与数据库部门看到的数据时延不一致,通过 DeepFlow 查看相应业务的端到端访问路径的追踪数据,定位到时延主要消耗在客户端宿主机到服务端宿主机之间,确认是因经过了非预期的过多宿主机网络链路造成时延过高。随后建议客户调整 Overlay 网络流量路径,优化后整体时延明显减低,优化效果明显。 难度 ⭐️⭐️ 02 | 某银行-压测超时重置 客户反馈信用卡联机交易压测出现超时重置现象,通过 DeepFlow 链路追踪能力,在网络拓扑中分钟级找到 LB 的 node 到 K8S Node 链路有异常,网络包中有服务端重置(RST)异常。客户随即联系云服务商,精准调整配置后解决此问题。 难度 ⭐️ 03|某银行–压测超时 客户反馈在新核心系统非功能压力测试过程中访问超时,体现为 CPU 利用率不高 ,访问流量不大,但是存在 Timeout 现象。通过 DeepFlow CPU 持续剖析能力,定位到 log 的调用是一个反射,函数没有到内核,还在应用阶段。测试组随即联系应用部门优化代码,解决超时问题。 难度⭐️⭐️ 04| 某银行-应用网关节点异常 客户认证中心网关节点偶尔无响应,异常现象持续一周时间,紧急在认证中心网关虚拟机内部署 DeepFlow 进行分析,5 分钟内通过持续剖析帮助客户判断出故障原因在处理侧的应用函数上。 难度 ⭐️⭐️ 05| 某银行-宿主机宕机 客户反馈宿主机在某时间点出现宕机现象,使用 DeepFlow 知识图谱搜索相应的宿主机,即刻得知当时受影响的云服务范围。并通过云服务器的流量数据、事件、调用日志、流日志,确定宿主机恢复后其下业务虚机恢复的时间,以及业务网络和应用性能情况。协助客户快速完成故障定位定界和性能分析报告。 难度 ⭐️⭐️ 06| […]

阅读全文>>

DeepFlow 6.5升级揭秘:新特性解读(速览版)

云杉 世纪 | 2024-07-04

AutoTracing 支持 bRPC 协议,增强 gRPC、Dubbo、HTTP 协议 消息队列++,Pulsar、NATS、ActiveMQ、RabbitMQ、ZeroMQ WebAssembly 插件支持增强更多协议 支持采集 SQL 预编译参数值、登录用户名等信息 AutoProfiling 新增 Off-CPU 持续剖析并支持 AI 智能体分析 AutoTagging 更强大、更实时的标签自动注入能力 Exporter 新增 Kafka,增强 Prometheus 和 OpenTelemetry Reliability 增强熔断等防护机制,增加告警分析 Dashboard

阅读全文>>

DeepFlow 智能汽车可观测性解决方案落地实践

云杉 世纪 | 2024-06-14

DeepFlow 通过 eBPF 技术零侵扰实现的全景图、分布式追踪和持续剖析等能力为车端的可观测性建设提供了开创性的新思路。

阅读全文>>

金融银行业可观测性方案

Air | 2024-05-24

金融信创是金融机构重点投入以及技术迭代的方向,经过多年阶段迭代,进入难度更大的核心系统、关键业务系统的更替阶段。DeepFlow解决行业中普遍存在的分布式交易系统保障难、平台双轨多芯调优难、云上资源把控难、分布式数据库追踪难等挑战。

阅读全文>>

云杉网络 DeepFlow 联合 TDSQL 完成技术兼容互认证

云杉 世纪 | 2024-04-19

近日,北京云杉世纪网络科技有限公司(以下简称:云杉网络)的云原生可观测性产品 DeepFlow 与腾讯云数据库 TDSQL 完成相互兼容认证。 本次兼容性认证测试验证了 DeepFlow 对 TDSQL 的零侵扰数据采集、可观测性分析,以及使用 TDSQL 进行数据存储、检索、分析等功能测试,经验证后全部通过测试认证。在测试期间各功能运行稳定,所有用例、场景均符合测试通过标准,无异常发生。经过以上多项测试表明,云杉网络的云原生可观测性产品 DeepFlow 与 腾讯云数据库 TDSQL 完全适配,双方完全满足产品兼容认证要求。 DeepFlow 介绍: DeepFlow是一款为云原生开发者实现可观测性而量身打造的全栈、全链路、高性能数据引擎。帮助解决云及云原生应用诊断难的核心痛点,通过细粒度、多维度的可观测性数据打通各部门之间的协作壁垒,为企业数字化、智能化转型提供高度自动化的可观测数据底座。DeepFlow基于eBPF、WebAssembly、OpenTelemetry 等领先技术,在此基础上创新地实现了 AutoTracing 和 AutoTagging 两大核心机制,实现对网络、系统、应用全栈指标自动采集和全链路自动追踪,并结合云资源知识图谱实现100+维度指标数据的动态标注,提升了DevOps自动化水平,并降低了可观测性平台的运维复杂度。利用精细到微服务 API 粒度的全栈指标数据,帮助技术运营制定并观测更细致的业务性能指标(SLI),不断提升业务稳定性。同时,DeepFlow 的可编程能力和开放接口,使开发者可以快速将其融入到自己的可观测性技术栈中。 TDSQL介绍: TDSQL是腾讯自主研发的企业级分布式数据库产品,旗下拥有涵盖金融级分布式、云原生、分析型等多引擎融合的完整数据库产品体系。最早于2007年上线,对内支撑着腾讯90%的金融、计费、交易类业务核心系统,对外则通过腾讯云为众多政企和金融机构提供数据库的公有云及私有云服务,客户覆盖银行、保险、证券、物联网、政务等领域,成功服务的客户数已超50万。TDSQL目前已经被4000多家来自金融、公共服务和电信等垂直行业客户采用,服务超过30家金融机构完成核心系统替换,中国十大银行中的七家都应用了TDSQL。 去年,国际事务处理性能委员会(TPC)披露,腾讯云数据库TDSQL已顺利通过TPC-C基准测试,性能达到每分钟8.14亿笔交易(tpmC),打破了世界纪录。这个成绩相当于持续8小时应对每分钟创建8.14亿笔交易订单的需求,数据库系统不出现抖动。

阅读全文>>

G行全栈云原生可观测性实践 分钟级定位业务不规律中断故障

云杉 世纪 | 2024-03-29

导读 01用户:G行、金融行业 02用户挑战:1)云网故障定位技术要求高:在云网中对每一个微小故障的定位均需要对SDN、云技术架构、容器技术架构等技术领域经验丰富的中高级工程师参与。2)云网故障定位过程繁琐:云网工程师在故障定位过程中需要从源端开始抓包、查找路由表,再到下一跳节点抓包、查找路由……3)云网故障定位工作量大:每一个微小故障的定位均需要海量的Pcap包读包分析,给运维团队带来大量的工作量。 03用户期望:1)实现在云网内任意访问的全链路追踪,消除运维工程师的逐段查找路由表、逐段抓包的工作;2)对云网流量实现全面的L3-L7层性能指标分析,能够代替人工对绝大部分的故障场景的流量性能指标进行自动化分析。 03实现价值:1)消除人工的路由追踪工作,消除人工的Pcap读包工作;2)将云原生应用故障的定界周期由数小时缩短到1分钟以内;3)将云原生基础设施的定位周期缩短到5分钟以内。 近几年,在金融同业谋求差异化、互联网平台跨界竞争的格局下,G行积极拥抱趋势并直面挑战,在数字化转型战略中一直稳步推进,是国内金融行业内数字化步伐较领先的一家企业。在2019年建设了全栈云平台,并成立了专门的云技术团队负责全栈云的选型、建设、运维。在智能运维的建设中,G行更注重于平台能力建设和科技运营数据的全面、实时和准确的治理,实现对数据中心运行情况的可观测性与运维管理的辅助决策。 01运维的日常 G行的全栈云方案选型和建设中,使用了SR-IOV、智能网卡 VxLAN Offloading、DVR 分布式路由等诸多新技术,同时使得云网络、容器网络异常复杂,但目前云管平台缺乏可观测性手段,云运维团队面临着巨大的运维压力。 这些压力体现在了日常的工作中,例如遇到云网络问题时,需要精通SDN网络的运维人员逐段查询路由,逐段抓包,逐段定位丢包、业务失败等问题,这样操作复杂,且问题定位周期长,难以发现隐性问题。 某日 zdns-business 系统在生产测试环境部署上线后,在业务同步时频繁出现响应慢、业务连接中断等问题,而且中断无规律。 运维人员立即对业务系统抓包进行分析,遇到了2个难点,一是数据包数量太大,1分钟内即抓取了5372条数据包,读包分析工作量巨大,短时间内无法快速找到故障包;二是读包分析需要懂网络协议的中级以上工程师处理,技术要求高。 业务开发、业务运维、网络运维等多位工程师进行了联合定位和读包分析,经过了6小时奋战,还是未能确定故障原因。 02云原生可观测性能做什么? “业务响应慢、不规律中断”等问题表面看起来简单,实际上能够产生此类故障的背后原因却复杂多样,业务访问链条上的每一个物理交换机、OVS、虚拟网桥、操作系统、容器、应用等等均是潜在的怀疑对象,故障定位需要逐跳、逐段、逐次会话从不同维度进行分析,逐个排除。总体上可以梳理出以下三个大类、七个可能原因: 网络丢包问题——网络中如果存在严重丢包,将导致数据包反复的重传,影响应用交互速度,在严重情况下甚至可能造成应用交互的完全中断; 时延类问题——这里所说的时延问题也分为网络传输时延高、操作系统响应慢、应用软件响应慢三种不同的原因,其中每一种原因都可能让应用交互速度慢,甚至业务使用人员感知到中断; 异常类问题——TCP 连接建立过程、TCP数据传输过程中的异常中断、应用协议的响应异常也有可能造成业务使用人员感知到的慢和中断; 不规律中断问题的故障定位,首先需要在数千个数据包、数百个会话中精确锁定故障会话,这已经是一个非常具有挑战的工作了,更不用说对每一个会话的丢包分析、各类时延分析、各类异常行为分析,更是一个非常纷繁庞杂的事情。因此不难看出,此类问题通过人工的读包、解读、分析,需要故障定位人员具备丰富的问题定位经验,还需要投入大量的运维人力,也无法在分钟级定位问题解决问题。 DeepFlow 可观测性平台的云虚拟网络的流量指标可视化分析能力,可以完全将故障定位人员从操作复杂的逐段查找路由、逐段抓包,和枯燥无趣的海量读包中解脱出来,通过自动化的虚拟网络流量性能指标采集、自动化的流量可视化分析,运维人员可以一键绘制业务访问的全局拓扑,可以分钟内观测流量各个层次(网络层、传输层、应用层)的丰富指标(吞吐、异常、时延) 针对此类问题的三个大类、七个可能原因,G行运维人员通过 DeepFlow 在1分钟内快速勾选、调阅观测了全路径的7个指标的变化曲线,并有如下发现: 通过以上7个指标的快速观测,运维人员得出初步结论:TCP 传输过程的重置是导致此次异常的原因。 再次通过 TCP 客户端重置、TCP 服务端重置这两个指标对重置原因进行观测分析,发现所有的 TCP 传输过程的重置行为都是由服务端发起的,从而得出最终结论:服务端系统主动重置 TCP 连接,导致了业务的偶发性中断。 经业务开发人员对服务端系统的分析发现,服务端的 rabbitmq 消息队列没有及时处理,持续积压导致操作系统队列打满,触发了 TCP 连接的异常,引起了业务中断。 通过此次故障的定位过程,运维人员也意识到流量指标分析对云上应用运行可靠性运维保障的重要作用,因此通过 DeepFlow 的运维监控视图灵活定制能力,针对重要系统将如下十个关键指标(在上边七个指标的基础上增加三个负载类指标)纳入到日常监控运维的视图中并进行7*24小时主动监控,从而实现面向应用的更主动的监测、保障能力: 03价值 在此次的问题定位过程中 DeepFlow 可观测性平台可以完全不需要在对云网络进行逐段的查找路由、抓包、读包分析;DeepFlow 采集器自动对云网流量进行了自动化的全链路性能数据采集;DeepFlow 的分析端能够自动的将业务请求在客户端、服务端、中间关键位置进行了自动化的关联分析、拓扑绘制,运维人员无需很高的云网技术背景即可实现对云网故障的快速定位。 通过 DeepFlow […]

阅读全文>>

DeepFlow 证券行业云原生可观测性实践

云杉 世纪 | 2024-03-25

目前,在整体数字化转型过程中,证券行业的业务系统全面云原生化已是必然趋势,我们和很多证券行业的客户沟通交流,发现每个证券行业客户的云基础架构都是由三个或者三个以上的资源池组成,比较常见的有 EasyStack、VMware、K8s 以及超融合资源池 SmartX、Nutanix 等等。 在这样的混合云、异构环境下,DeepFlow 基于自主研发的高性能流量采集器软件,能够实现云上分布式应用、微服务的全流量采集。 比如在 EasyStack、华为云、超融合资源池中,采集器以用户态进程的方式运行在资源池计算节点上,负责采集该计算节点内所有业务虚拟机的流量;再比如在 VMware 资源池中,通过在 ESXi 宿主机上各运行一台专属流量采集器虚拟机,接收 ESXi 宿主机内所有虚拟机的流量;另外在 K8s 资源池中,采集器是以 DaemonSet POD 的方式运行在 K8s Node 节点上,负责采集该 Node 节点内所有业务 POD 的流量。 通过上述的流量采集器部署方式,可以构建面向证券行业混合云业务系统可观测性能力图谱的基座——数据采集层,并经过流量采集器强大的本地计算与预处理能力,向 DeepFlow Server 端输出丰富的 Metrics、Logging、Tracing 指标,包括覆盖网络、系统、应用排障的海量 Metrics 性能指标;网络流量日志、应用流量日志;以及网络流量拓扑、全栈链路追踪、应用调用追踪等 Tracing 数据。 这样能够大大降低监控数据的传输带宽消耗,实测仅为业务传输带宽的万分之一,也就是流量采集器采集到 10Gbps 的业务流量,经过本地预处理后,发送的监控数据带宽消耗仅为 1Mbps,实现对业务网络传输的零侵扰。 基于采集端上送的海量可观测性数据,DeepFlow 提供丰富的应用展示能力,包括业务网络全链路诊断、分布式应用性能分析、全网全流量回溯取证等,并从业务层面针对部署在异构资源池上的分布式业务进行全局的性能保障,这里的业务主要包含核心交易类,如集中交易、集中清算系统等等;还有互联网类、综合支撑类等等,通过 DeepFlow 提供一站式的可观测分析诊断能力,支撑证券行业混合云上业务的长期稳定运行。 另外,DeepFlow 也提供数据开放与协作共享能力,使得 IT 服务管理系统、运维大数据平台能够通过 SQL API 的方式,简单、快速地获取混合云上分布式应用的全栈性能指标;同时也可以和云管平台进行一系列的联动,可以按照租户的维度将租户内的资源和业务的监控视图赋能到租户所在的云管平台上进行使用等等。 此外,流量采集器除了能够采集流量、本地计算可观测数据之外,还具备业务流量数据包分发的能力,通过精细化的策略控制,来补齐云上其他工具对于虚拟网络流量消费的需求,避免流量采集探针的重复建设。 DeepFlow 可观测性协作的价值与使命 […]

阅读全文>>

海通证券 DeepFlow 混合云网络流量分析平台

云杉 世纪 | 2024-03-22

海通证券主要业务已经基本实现了云化迁移工作,大型分布式业务部署于OpenStack、VMware、容器等混合云架构之上,在业务扩展性、动态性、便捷性上得到更加有力的基础资源支撑,但是对于云网运维及云上业务保障给海通证券运维人员提出了新的挑战,主要体现在: 1.缺少云资源池网络流量可视化能力 缺乏多云资源池内网络流量数据包的采集手段,使得云内资源、业务运行处在黑盒状态,缺少云资源池网络流量可视化能力。 2.不能满足复杂网络环境中的运维排障需求 云网络环境复杂度高,网络架构中的物理网络、虚拟网络以及容器网络、租户内的各类逻辑网络缺乏统一监控及运维视角,不能满足实际的运维要求。 依靠传统网络NPM监控方法,可以针对主要网络链路或节点进行流量分析,但涉及云内复杂的通信场景,甚至包含多层云内的NAT、LB规则情况下则不能进行详细的问题分析诊断。 3.缺乏面向业务网络的监控分析能力 在云内业务动态性高,覆盖范围广,业务覆盖的资源范围可能实时动态伸缩,无法动态获知复杂的业务流量拓扑访问调用关系。 无法针对于关键业务进行例如访问时延、丢包、异常等网络及应用指标分析,使得精准的业务保障成为难题。 4.缺乏故障问题取证/举证能力 关键业务系统访问出现故障,无法明确区分是物理网络原因,还是虚拟网络原因或是应用本身所造成,不能快速定位故障源,也不能对历史虚拟网络故障提供责任举证。 解决方案 DeepFlow 面向混合云、容器、微服务的全栈虚拟化环境,解决云原生应用诊断难的核心痛点。基于自主研发的零侵扰采集和高性能实时数仓等创新技术,实现对网络、系统、应用的全栈指标采集和全链路追踪,并结合云资源知识图谱实现100+维度指标数据的动态标注,构建多维度、一体化的可观测性平台。 在海通证券建设的混合云网络流量分析平台的主要技术方案要素包含如下六大方面: 一、先进的流量采集手段 提供面向多元异构混合云资源池零侵扰、高性能的流量采集手段; 采集端具备本地处理分析和指标计算和发送能力; 具备多资源池 agent 统一管理控制能力。 具备一处采集,多处分发能力。 二、贴合云网络的多维度网络性能指标可视化 平台支持通过与云平台进行对接,同步云资源池内资源及网络信息后既可按照云资源池维度(包括:资源池、可用区、宿主机、虚拟机;容器节点、命名空间、工作负载、POD;VPC、子网、IP地址)展示各类资源维度网络及应用链路流量拓扑及详细性能指标视图。 三、全栈全链路网络诊断及指标分析 能够发现并追踪网络交互流的流向,自动化梳理全链路访问关系,在统一的监控视图上分析物理-虚拟-容器网络路径,直观拆解网络路径内性能指标,判断复杂环境中故障问题点。 通过云及容器网络中交互数据包采集计算的网络及应用监控指标包括:网络吞吐、并发、TCP 建连时延、系统时延、应用时延、丢包、重传、零窗、建连失败等70余种。 四、全自动业务网络性能分析 基于业务视角,动态获知复杂的业务流量拓扑访问调用关系,针对关键业务进行例如访问时延、丢包、异常等网络及应用指标分析。 五、云资源池及分布式业务网络 SLI/SLO 评估 以全量网络性能指标为数据基础,以实际业务表现及基线指标作为 SLO 目标,打造云资源池网络及云内业务的可用性服务体系。 六、全局网络及业务性能预警感知 能够动态感知业务网络变化,资源变更情况,结合多资源池一体化的网络性能指标分析,提供各类性能指标阈值告警、基线告警能力,在业务报障之前进行异常指标和状态告警。 实现价值与效果 DeepFlow 可观测性平台帮助海通证券在云网络精细化运维、云上业务全方位保障、资源池及业务量化评估、资源管理辅助决策等方面实现了重要的阶段性建设成果,大幅提升了云团队的运维及运营效率。 (1)补全云网络及业务层监控空白 在已有云资源层面的监控基础上,实现多云异构混合云资源池云上业务交互、上层数据包分析的监控,提供从底层资源到上层业务网络的全方位定界定位与性能保障。大幅提升排障效率,节约运维成本,减少故障损失。 (2)打造云资源池网络 SLI/SLO 体系 在制定云资源池业务网络性能 SLI 体系过程中,以 DeepFlow 的全量网络性能指标为数据基础,以实际业务表现及基线指标作为 SLO 目标,逐步打造成熟的云资源池网络及云内业务的可用性服务体系。 (3)全链路端到端能力建设 针对海通证券大型分布式业务场景面临的全周期支撑需求提供横、纵多维度交叉运维能力,打破传统的专业节点运维信息孤岛,形成可视化、跨层级、多视角的业务链运维管理能力。 […]

阅读全文>>