AIOps实践三板斧:从可视化、自动化到智能化
在“容器下的AIOps”分会场,新炬网络董事、副总经理程永新做了主题为《AIOps实践三板斧:从可视化、自动化到智能化》的精彩演讲。程永新从事运维管理工作近二十年,历经了IT技术架构、运维管理模式与工具的变迁,本次演讲阐述了企业级AIOps的演进路线,从实际场景进行突破,围绕AIOps落地展开。
AIOps平台产品化之难何以突破
在移动化、大数据、云计算、人工智能等新技术的推动下, IT技术架构悄然变迁, 从传统“IOE架构”走向“互联网架构”。互联网架构所涉及的网元数、技术栈、服务数等元素成倍剧增,使得运维压力越来越大。这样的趋势下,运维管理模式从ITIL向DevOps演化,运维管理工具也发生了从ITOM、ITOA到AIOps的颠覆性变革。
虽然Gartner给出了AIOps平台市场指南,但是依照数据管理、模式算法、场景驱动这三要素进行,AIOps平台就能实现落地吗?其实不然。在这个过程中会遇到多重困难:其一,擅长开发的开发人员不擅长运维,擅长运维的运维人员不擅长开发;其二,规模不一的诸多历史系统纵向经历过几次迭代、横向经历过多大规模,是否能与AIOps完美兼容?其三,AIOps平台产品化需要既能兼顾历史与未来需求,又能满足静态稳定与敏捷发展需要,还要能跨越规模与行业的界限。
新炬网络自2006年成立至今,一直在为电信、电力、航空、金融等大型企事业单位提供运维管理服务。结合行业实践经验,程永新提出了AIOps落地三板斧:从可视化、自动化到智能化,以新炬网络建设AIOps智能运维平台做示例,证实了场景驱动是实现AIOps落地的最佳方式。
AIOps落地三板斧之可视化
可视化为何如此重要,成为第一板斧?原因在于可度量是一切管理的开始,可视化是管理结果的呈现。在AIOps落地过程中,不可或缺的环节是尽可能量化更多的指标,并且实现指标可视化。在这个过程中,企业需要构建立体的可视化监控体系,进而实现从业务到资源的立体、深度关联分析。
图1新炬网络可视化智能监控体系框架图
如图1所示,新炬网络的智能监控告警系统通过对操作系统、数据库、虚拟化、网络设备、中间件、存储等进行统一数据采集,让用户通过监控大屏即可实时查看系统各指标情况。此外,通过智能算法构建的可视化健康度模型,还将系统监控简化成智能打分形式,简化监控决策。
AIOps落地三板斧之自动化
AIOps落地的第二步是自动化,对于大量的频繁操作,如安装、部署、补丁下发、巡检操作等,都可以用自动化的方式来减少运维人员的工作量。
AIOps场景:故障分析自动化
图2 实时故障路径分析
如图2所示,在自动化处理过程中引入大数据和智能分析能力,实现运维实时故障路径分析、快速定位故障的能力,并能对复杂系统的“点、线、面”故障影响度进行分析。
AIOps场景:数据库运维自动化
图3 数据库智能运维与智能SQL优化
所有的PaaS核心在于数据库,而数据库运维的工作又在整个生产运维中占非常大的比重。如图3所示,新炬网络针对性地推出了DPM数据库智能运维平台,目前已经支持Oracle、DB2、MySQL、SQL Server等多种常见数据库,实现一个平台多种数据库的智能运维管理,可快速发现问题、定位问题、提供优化建议,还可以对应用版本变更过程引发的SQL问题,提出针对性的优化建议、对高危SQL进行自动识别与审核,降低应用上线带来的风险。
AIOps落地三板斧之智能化
走过了可视化、自动化阶段,就解决了企业80%的运维问题,那么接下来如何走向智能化?突破口在于场景驱动。新炬网络根据自身在企业级运维服务市场深耕十余年的经验,总结出智能巡检、资源管理、应用容量、网络安全、用户体验、故障诊断、容灾切换、安全审计这八大运维场景,均可从自动化走向智能化。
图4 智能化落地前提:运维大数据
如图4所示,程永新特别强调了运维大数据的关键作用,它是智能化落地的前提。以新炬网络为例,当有了统一采集、多维立体的可视化监控体系,实现了八大运维场景自动化之后,基于新炬网络自主研发的IVORY大数据日志分析平台,发力AIOps实时运维数据分析,从而实现故障的提前预警、异常隐患的及时发现及趋势分析。IVORY结合了多年的行业运维经验沉淀,逐步探索出了告警自愈、故障自动恢复等能力,并在移动运营商和金融行业实现了生产实践。
新炬网络AIOps企业级实践与演进路线
新炬网络AIOps企业级实践与演进路线整体分为三个阶段:运维平台基础能力、运维大数据和工具能力,以及AIOps能力及场景落地,每个阶段的相关建设与举措如图5所示。