如何通过AIOps将智能注入IT运营
云平台、托管服务提供商和进行数字化转型的组织正开始从一种新兴的IT趋势中获益:使用人工智能驱动的IT运营技术来自动监控和管理其IT产品组合。
这种新出现的实践称为AIOps,它能够帮助企业在潜在的停机和性能问题对运营、客户和利润产生负面影响之前加以防范。但更先进的部署已经开始使用人工智能系统了,不仅能识别问题,或在问题发生之前预测问题,还能够以智能、自动化的缓解措施对事件做出反应。
但是AIOps到底是什么,现在的组织又是如何使用它的呢?在这里,我们将深入了解人工智能辅助IT运营的技术、策略和挑战。
什么是AIOps?
AIOps是一种新兴的IT实践,它能够将人工智能应用于IT运营,帮助组织智能地管理基础设施、网络和应用程序,以获得相应的性能、弹性、容量、正常运行时间,在某些情况下,还包括安全性。通过将传统的、基于阈值的警报和手动流程转型为利用人工智能和机器学习的系统,AIOps使组织能够更好地监控IT资产,并在负面事件和影响发生之前进行预测。
Carhartt的CIO John Hill在三个主要的领域利用了这家工作服装零售商的AIOps:包括服务管理、绩效管理和IT自动化。多亏了智能监控,Carthartt现在可以在问题影响用户或客户之前发现问题了。
“这是一个自动进行监测的环境,帮助你了解发生了什么,然后可以根据这些指标采取行动,”他说。“以前,你会依赖于停机或某些东西不工作的指示”来了解何时需要进行修复--但是在你知道这些事件之前,它们可能已经降低了客户体验。
AIOps的用例
AIOps可能已经在你的IT投资组合中工作了,而你甚至都不知道它。先进的CRM或ERP系统通常就已经内置了智能管理。大多数主要的云平台也使用了机器学习--即监视和管理工具。
但是依赖于单点解决方案中的内置功能依然有其缺点。在一项AIOps的交流调查中,65%的IT组织表示,他们仍然依赖于监控的方法(无论是否智能),这些方法要么是孤立的、基于规则的,要么就是无法满足整个IT环境的需求。此外,根据最近BigPanda的调查,42%的IT组织对其IT环境使用了超过10种不同的监视工具。
Carhartt就是这样开始AIOps的。“在以前,对于不同的环境,我们必须独立地监控它们,”Hill说。为了管理这种复杂性,Hill选择将监控结合到了两个平台上,首先是在AppDynamics上进行应用程序性能监控,然后又添加了Turbonomic来监视Carhartt的基础设施。
在“黑色星期五”和“网购星期一”期间,该公司网站的性能问题迫使公司不得不做出改变。但当公司发现问题时,客户已经感觉到服务质量有所下降了,Hill说。
自从Carhartt在2017年秋天部署了AppDynamics以来,在黑色星期五和网络星期一的峰值期间就再也没有出现过宕机。
“我们实现了创纪录的增长,”他表示。“我们的增长速度是整个行业的两倍,再也没有出现我们之前经历过的任何中断或性能下降。”
Carhartt在2019年初增加了Turbomency,用于本地和云环境的资源管理。有了新系统,利用率从70%提高到了92%,他说。“这可能为我们节省了25%的基础设施成本。”
增加的利用率需求是自动处理的,不需要人工干预,而容量的减少仍然需要人工批准。
“当它发现我们面临着产能挑战,就会向ServiceNow提出更改请求,”Hill说。“而当我们的容量太大时,它也会在ServiceNow中创建一个票证,有人会先查看它。这只是一个快速的回顾——只需点击一下。这在目前还不需要自动化。”
公司的下一步是自动化业务任务,例如使用文本识别和自然语言处理来处理客户订单。
AIOps的采用
根据Gartner的数据,到2023年,40%的公司将使用AIOps对应用程序和基础设施进行监控。但无论如何,AIOps的采用仍处于初级阶段。波士顿咨询集团的董事总经理兼合伙人Akash Bhatia表示,根据Loom Systems在2019年发起的一项调查,到目前为止,只有5%的公司实施了AIOps。其中有一件事损害了AIOps的采用,那就是市场上有太多的供应商。“实在是太多了。”
根据Loom Systems的报告,有59%的公司还处于探索阶段,客户仍然很难确定他们到底提供了什么。此外,Bhatia也说,许多供应商只是提供了AIOps的一个部分,如应用程序性能监视、基础设施管理或网络性能监视和诊断。但他补充说,随着技术的成熟,市场已经出现了整合迹象。
国际数据公司(IDC)预测,被称为运营分析的AIOps市场将从2018年的29亿美元增长到2023年的45亿美元,其中大部分增长来自于作为服务的AIOps。IDC分析师、AIOps项目副总裁Stephen Elliot表示,尽管AIOps常常与企业软件平台或云服务捆绑在一起,但大型企业正开始将AIOps作为一个独立的预算项目来进行投资。
“他们意识到自己身处于一个多云的世界,”他说。“他们正在进行敏捷转型,他们有DevOps团队,他们意识到了他们必须加快步伐,复杂性正在增加。”
AIOps的价值主张
利用AIOps的公司已经开始认识到,从执行分析和预测的系统转向自行决策的系统的重要性。是时候开始自动化了。
“他们需要能够收集大量信息、应用分析、降低噪音、更快地进行识别和解决问题的工具,”Elliot说。
自动化还需要更好的AIOps集成。应用程序的性能问题可能是由软件问题、网络问题或硬件问题造成的。在一个多云环境中,根本原因可能是在一个云中,也可能是在另一个云中,或者是多种因素组合的结果。如果你的AIOps基础结构是碎片化的,那么查找和修复问题的根源也可能是一个挑战。
“然后你就又回到了白刃战,每个团队都将有自己的工具,”AIOps供应商ScienceLogic的首席执行官David Link表示。“如果你对每一个应用项目都有一个独特的工具,你就不能以那种方式扩展企业。”
与此同时,像Carhartt这样已经部署了AIOps的公司也发现他们的投资正在获得回报。根据企业管理协会的一项调查,81%使用AIOps的企业报告了积极的投资回报。事实上,42%的人说AIOps的价值“大大”超过了成本。
根据EMA的说法, AIOps最常见的六个用例是跨域应用基础设施和性能、容量管理和基础设施优化、DevOps和敏捷、客户和终端用户体验管理和业务一致性、成本管理和变更管理。
作为收入来源的AIOps
Cincinatti Bell的CBTS子公司正在为企业客户提供通信服务。CBTS过去代表着“Cincinnati Bell技术解决方案”,但随着公司扩展到其他地区,它现在已经代表了“咨询构建转型支持”,公司的首席创新官Joe Putnick说。
他表示,加入AIOps对于帮助改善反应时间是至关重要的,现在它已经成为了新的商机来源。例如,Putnick说,在公司转向AIOps之前,将客户设备安装到CBTS监控、管理和计费系统可能需要花费数小时、数天甚至是“无穷无尽”的时间。
“现在我把供应时间从5小时减少到了2分钟,”Putnick说。“当我说配置时,我指的是整个IT服务管理和事件管理系统的全面配置。我知道这些数据会很有说服力。”
该公司还使用了AIOps来分析使用模式和自动化响应。“我们正在应用AIOps来预测哪里需要产能,以便我们能够保持最大的正常运行时间和最大的客户满意度,”他表示。
Putnick说,AIOps帮助CBTS从每月不到40个站点发展到了每月超过500个站点,而每个站点的用户数量几乎相同。
CBTS使用了AWS内置的工具、ServiceNow内部的自定义编码应用程序、自定义机器学习和自适应算法以及ScienceLogic的AIOps工具的组合。而下一步:则是为客户提供增值服务。例如,CBTS为其客户提供的客户服务聊天机器人可以通过其AIOps系统提供的数据、分析和预测,使其变得更智能、响应更快。
AIOps和托管服务提供商
但要看到AIOps的全部潜力,你不应该只关注于托管服务提供商 (MSP) 行业。
“这可能是目前市场上最大的一块,”数字服务咨询公司Nerdery的数据科学主管Justin Richie表示。“他们肯定是在尽可能地投资算法支持。他们知道,在硬件之外,他们最大的开支是人力资本。”
对于MSP们来说,AIOps意味着更高的效率、更低的成本和更快的解决时间——这些都是该领域的重要竞争优势。
“这只是我们为AIOps提出的价值主张的一半,”总部位于圣何塞的MSP NetEnrich负责战略与运营的高级副总裁Raghu Kamath表示。“我们开始在一些客户中实施它,然后在过去的12个月里逐渐扩展到了我们的整个客户群。现在,我们有超过50%的客户都在使用AIOps平台。”
对于NetEnrich来说,最明显和最直接的好处之一是减少了噪音。假警报给员工带来了不必要的工作,也降低了客户的响应时间。
“最终,我们检测和采取行动的响应时间增加了——在实施AIOps之后,我们的平均修复时间至少缩短了30%,”Kamath说。“随着AIOps变得更加成熟,并引入了更多的推理模型,它还将继续增长。”
因为NetEnrich在许多不同的客户环境中都使用了AIOps,所以Kamath对这项技术有自己独特的看法。首先,他发现环境越同质化,就越容易部署AIOps。
“当你开始整合所有这些不同的环境时,情况就会变得复杂得多,”他表示。
另外,使用公共云基础设施的客户也会有一些优势,因为环境更加一致。不过,要让云供应商开放他们的系统,偶尔也会遇到一些障碍。