详解AIOps(智能运维)基本概念、目标、原则及能力分级
概述
很多人可能只是了解过devops,AIOps可能没怎么去了解,今天主要介绍下AIOps的概念、目标、原则和能力分级。
基本概念
AIOps,即 Artificial Intelligence for IT Operations,智能运维,将人工智能应用于运维领域,基于已有的运维数据(日志、监控信息、应用信息等),通过机器学习的方式来进一步解决自动化运维没办法解决的问题。
早期的运维工作大部分是由运维人员手工完成的,这被称为手工运维或人肉运维。这种落后的生产方式,在互联网业务快速扩张、人力成本高企的时代,难以维系。
AIOps,通俗的讲,是对规则的AI化,即将人工总结运维规则的过程变为自动学习的过程。
具体而言,是对我们平时运维工作中长时间积累形成的自动化运维和监控等能力,将其规则配置部分,进行自学习的“去规则化”改造,最终达到终极目标:“有AI调度中枢管理的,质量、成本、效率三者兼顾的无人值守运维,力争所运营系统的综合收益最大化”。
AIOps 目标
利用大数据、机器学习和其他分析技术,通过预防预测、个性化和动态分析,直接和间接增强IT业务的相关技术能力,实现所维护产品或服务的更高质量、合理成本及高效支撑。
AIOps 指导原则
AIOps 能力分级
AIOps的建设可以先由无到局部单点探索、再到单点能力完善,形成解决某个局部问题的运维AI“学件”,再有多个具有AI能力的单运维能力点或学件组合成一个智能的运维流程,如智能化的监控预测及告警,免干预的自动化扩缩容,免干预的性能调优、免干预的成本组成调优等。
具体可描述为5级:
1)开始尝试应用AI能力,还无较成熟单点应用
2)具备单场景的AI运维能力,可以初步形成供内部使用的学件
3)有由多个单场景AI运维模块串联起来的流程化AI运维能力,可以对外提供可靠的运维AI学件
4)主要运维场景均已实现流程化免干预AI运维能力,可以对外提供可靠的AIOps服务。
5) 有核心中枢AI,可以在成本、质量、效率间从容调整,达到业务不同生命周期对三个方面不同的指标要求,可实现多目标下的最优或按需最优。
AIOps 是 企业级 DevOps 在运维(技术运营)侧的高阶实现。
AIOps 和 DevOps 两者并不冲突,企业级 DevOps 涵括包括运维在内的整个软件生命周期。
自动化做devops,专业化做Dataops,智能化做AIOps!
AIOps是一项十年以上的大项目,值得我们去探索落地实践,有兴趣的朋友可以深入研究下。