深入浅出:聊聊什么是AIOps?
根据Gartner的说法,IT运营人员(IT Ops)在未来几年内将发生重大变化。这种变化是受传统IT管理技术(企业IT Ops团队认为无法应对数字业务转型的方法)的挫折所驱动的。 Gartner预测,我们将看到当前IT运营程序的重大变化,以及我们如何管理IT生态系统的重组。而这些变化的关键是Gartner称之为AIOps的新平台。
今天的这篇文章将讨论AIOps是什么以及推动其发展的原因。
数字化转型和AIOps之路
了解数字转换如何引发Gartner的AIOps平台非常重要。数字化转型包括云采用、快速变化和新技术的实施。它还需要把重点转移到应用程序和开发人员,增加创新和部署的步伐,以及购买新的数字用户,包括机器代理、物联网(IOT)设备、应用程序接口(API)等。这些组织过去不需要服务。所有这些新技术和用户正在将传统的性能和服务管理策略和工具引向突破点。
Gartner使用AIOps这个名称来描述处理这些数字转换问题所需的IT运营模式转换。
什么是AIOps?
AIOps代表人工智能的IT操作。它是指利用分析和机器学习从各种IT运营工具和设备收集的大数据,实时自动发现问题并对问题做出反应的多层技术平台,可自动化并加强IT运营。
Gartner通过图1解释了AIOps平台如何工作。AIOps有两个主要组件:大数据和机器学习。为了将大数据平台中的参与数据(通常在票据、事件和事件记录中找到)与观测数据(如监控系统和作业日志中的观测数据)结合起来,需要从单独的IT数据中移除。 AIOps针对合并的IT数据实施全面的分析和机器学习(ML)策略。期望的结果是持续的洞察力,使用自动化产生持续的改进和修复。 AIOps可以被认为是核心IT功能的持续集成和部署(CI / CD)。
AIOps架构了三个不同的IT学科:服务管理、性能管理和自动化,以实现持续洞察和改进的目标。 AIOps是一个认可和一个游戏计划,在我们新的加速IT环境中,必须有一个新的方法,由大数据和机器学习的发展所承载。
什么驱动AIOps?
AIOps是一个足够新的IT平台。 AIOps是Gartner IT运营分析(ITOA)的下一步发展。它正在发展出几种影响IT运营的趋势和需求,其中包括:
·IT运营部门在手动管理基础架构方面遇到的困难。现代IT环境包括托管云、非托管云、第三方服务、SaaS集成、移动等等,这里使用“基础设施”这个术语不够准确。传统食物管理复杂性的方法在动态的、弹性的环境中不起作用。通过手动跟踪和管理这种复杂性,人类的监督已经很难实现。目前的IT Ops技术已经超出了人工管理的范围,而且在未来几年里只会变得更糟。
·IT Ops需要保留的数据量呈指数级增长。性能监控正在产生指数级的大量事件和警报,对于手工报告和分析来说,处理会比较复杂。
·基础设施问题必须以不断提高的速度对此作出回应。技术的“消费化”改变了用户对所有行业的期望。对IT事件的反应,无论是真实还是感知,都需要一个即时的回应,特别是当问题真切影响到用户体验时。
·更多的计算能力正在移动到网络的边缘。云基础架构和第三方服务的易用性已经赋予业务线(LOB)功能来构建自己的IT解决方案和应用程序。控制和预算已经从IT的核心转移到边缘。核心IT部门正在增加更多的计算能力(可以利用的)。
·开发人员拥有更多的权力和影响力,但是核心IT部门仍然负有责任。DevOps和Agile正在迫使程序员在应用程序级承担更多的监控责任,但是IT生态系统整体运行状况以及应用程序、服务和基础架构之间的交互仍然是核心的领域。就像网络越来越复杂一样, IT运营正在承担更多的责任,
AIOps的组成元素
AIOps承认,执行IT Ops的旧方法在由上述需求定义的新世界中将不起作用。与Gartner将IT运营管理(ITOM)和应用性能管理(APM)定义为魔力象限市场的方式一样,Gartner也可能为AIOps市场建立一个魔力象限。
AIOps平台由以下元素组成,如图2所示:
·广泛而多样的IT数据源,包括当前孤立的工具和IT规程,如事件、指标、日志、工作数据、票据、监控等。
·一个大数据平台,汇总了它的历史分析、实时反应和见解的数据。
·计算(计算)和分析,使系统能够从现有的IT数据中生成新的数据和元数据。计算和分析也可以消除噪音、识别模式或趋势,隔离可能的原因,揭露潜在的问题,并实现其他IT特定的目标。
·利用IT领域专业知识的算法能够适当和高效地智能应用计算和分析,这取决于组织的数据及其预期结果。
·无监督机器学习,可以基于算法分析和引入系统的新数据的输出自动更改或创建新的算法。
·可视化,以易于消耗的方式向IT运营商提供见解和建议,以促进理解和行动。
·自动化,它使用分析和机器学习产生的结果来自动创建和应用响应或改进识别的问题。
如上所述,AIOps平台应包含性能管理、服务管理、自动化和流程改进等IT技术,以及诸如监控、服务台、容量管理、云计算、SaaS、移动性、物联网等技术。
需要说的是,虽然AIOps代表了IT Ops的一个激进的出发点,但它并不是一个激进的分析和机器学习的应用。当股票经纪人从手动交易转移到机器交易时,类似的ML方法被实施。 Analytics和ML被用于社交媒体,例如Google Maps、Waze和Yelp等应用程序,以及Amazon和eBay等在线市场。这些技术在实时响应动态变化条件和用户定制的环境中是可靠和广泛使用的。
IT Ops人员在适应类似AIOps的环境方面进展缓慢,因为出于必要,我们的工作一直比较保守。 IT运营部门的工作就是确保灯光持续亮起,并为组织应用程序的基础架构提供稳定性。但是,由于上面列出的趋势,更多的IT运营商(特别是企业中的)将需要在不久的将来实施AIOps战略和技术。