现网质差类问题难复现:
随着数据中心分布式架构变化,现网因分布式“多打一”造成的微突发、丢包等质差问题层出不穷。此类问题在业务层面仅能感知到卡顿或者性能下降,在网络层面因为缺少系统性的数据分析和评估,难以主动察觉和复现,事后排障也没任何依据,只能手工检查表项/告警等信息,耗时长且对技术要求高。因此网络部门只能配合业务部门反复进行定位和分析,对网络隐患系统性排查和提前识别提出了更高的要求。
因此,如何打破不同管理系统的责任边界和管理范围的桎梏,又不影响现网已有运维系统,是目前金融行业面临的普遍的困难和挑战。基于此,农行坚定地开启了业务网络一体化智能运维的新探索,并明确将全网端到端智能运维作为数据中心运维发展的路标和方向。
跨越式演进
农行首次打破业务与网络运维边界
2022年,为了打破业务与网络的边界,农行启动业务网络一体化智能运维探索。一方面主动梳理并摸排全行的运维痛点和问题,另一方面积极和华为等厂家交流,探索业界最新的技术和运维方向,吸取各家所长。最终,农行流量回溯分析系统由业务性能管理系统和网络智能运维系统两部分构成,并在该逻辑架构基础上进行了如下创新实践。
探索1:
网络运维能力服务化,状态主动上送。为了快速向业务性能管理系统提供网络数据,网络通过100+全量API实现服务化,并全面开放网络数据服务,通过拖拽式整合即可快速发布场景化API与上层业务性能管理系统对接,打破了传统硬编码开发的模式,大大缩短了系统间集成周期。
探索2:
流量镜像叠加,端到端路径还原。为了对业务进行全面的质量保障,实现全面流量镜像,农行在DC出口、Fabric出口、VAS设备互联口等关键节点进行边界出口全流镜像,并由业务性能管理系统进行会话与网络性能分析;在Fabric内部基于TCP特征报文进行ERSPAN流镜像,并上送给网络智能运维系统还原Fabric内转发路径。最后通过两种流量镜像叠加,实现了端到端镜像和路径还原,并支持镜像流量的去重、解密和脱敏等,减轻分析段压力。
探索3:
AI智能分析与推理,网络风险智能评估。为了实现全量风险评估,网络通过采集设备的ERSPAN流、Telemetry性能Metrics进行大数据分析,并结合AI算法主动感知网络可能存在的故障,智能分析识别是否存在网络或者应用的群体性故障,逐步实现故障主动感知、分钟级故障定位定界的主动智能运维目标。
分钟级根因分析
迈出端到端智能运维第一步
通过如上探索,农行流量回溯分析系统实现了“业务质量分析→网络会话分析→网络路径分析→故障根因定位”的端到端立体化运维,能够提供覆盖Underlay与Overlay的业务和网络性能分析能力;打通业务、会话、网络问题分析路径,快速发现并定位质差问题;同时满足问题定界、全网路径分析、质差主动感知等具体分析场景。最终达到了如下效果:
Copyright 2015-2022 财务报告网版权所有 备案号: 京ICP备12018864号-19 联系邮箱:29 13 23 6 @qq.com