百度云曲显平：AIOps时代下如何用运维数据系统性地解决运维问题？

xiaoshe

2019-06-30

百度云曲显平：AIOps时代下如何用运维数据系统性地解决运维问题？

本文是根据百度云智能运维负责人曲显平10月20日在msup携手魅族、Flyme、百度云主办的第十三期魅族技术开放日《百度云智能运维实践》演讲中的分享内容整理而成。

内容简介：本文主要从百度运维技术的发展历程、如何做智能运维、故障管理场景、服务咨询场景和面对的挑战等几个方面介绍了百度云智能运维实践。

百度运维技术的三个阶段

第一阶段：基础运维平台 2008年~2012年

2008年，在百度运维部建立之前，还没有一个标准而统一的运维平台。例如，搜索、广告、贴吧都有各自的运维平台。

存在的问题：

技术和平台能力无法复用，业务之间需要交互时比较复杂。

解决方法：

①为帮助业务解决问题，我们把各个分散在不同业务的运维平台整合起来做成一套标准化运维平台；

②有了统一运维平台后，运维部门内的角色就分为了两个，即标准的运维工程师和运维平台研发工程师。

第二阶段：开放的运维平台 2012年~2014年

第一阶段仍然存在的问题：

①个性化需求很多，统一平台很难全部解决

②PaaS出现之后，运维平台和PaaS的关系

解决方法：

①开放运维平台，即全部API化。

②通过提供标准化的监控数据的采集、计算、报警能力，最基础的程序分发、数据分发、任务调度能力，解决自身平台的需求。

③利用PaaS方法，把一些研发的技术平台和运维技术平台整合在一起，解决重复造轮子的问题。

第三阶段：AIOps阶段 2014年开始

百度从2014年就开始了智能运维的实践。最早的时候，我们更多是通过完善底层的大数据平台能力，提供一些数据分析和挖掘的算法和工具，解决运维数据没有得到合理运用，运维人工效率低等问题，这是偏大数据的方法。

百度对于AIOps的理解

在2015年，AI变得异常火热，百度也是想将自身先进的机器学习算法应用到运维领域之中，于是我们和百度的大数据实验室、深度学习实验室进行了合作。运维研究人员把需求和归整好的数据提交给实验室的人员，然后他们会根据数据训练模型，最终提供一些库和方法供业务使用。2016年，Gartner提出了AIOps这个词，也就是我们说的智能运维，这和百度的实践是不谋而合的。

三个核心内容

随着智能运维的发展，百度也是把数据、工程和策略三个，作为最核心内容来系统地解决运维行业的应用。从数据角度来讲，首先要构建一个完整的数据仓库，接着要建设运维知识库。知识库是在数据仓库上抽象进行的。从工程角度，一方面，分析数据和训练算法模型需要大数据平台和框架，另一方面，运维业务研发人员还做了一套运维工程研发框架，用以解决标准化、可扩展和复用的问题。这个框架十月份刚刚开源，感兴趣的朋友可以看下。

在百度内部，一致的运维“语言”非常关键。我们要统一不同的工具和平台，形成一致的运维模式。所以不管是故障感知、故障诊断决策、弹性伸缩决策还是运维操作和执行，只有统一起来才能解决这个问题。一致不仅是数据一致、工程一致，还需要策略本身的一致性。

自动驾驶分级

在构建整个百度智能运维体系的过程中，我们重点参考了自动驾驶里的分级理论。百度是有这样两个部门的，一个叫L3，一个叫L4。L3部门重点在做类似于辅助驾驶或者高度辅助驾驶；L4部门做的是高度完全自动驾驶。下图是关于自动驾驶的分级。

百度云曲显平：AIOps时代下如何用运维数据系统性地解决运维问题？

运维能力分级

自动化运维能力分级

当时我们团队参照这个自动驾驶分级，构建出了一个自动化运维能力的分级标准，用以评估我们各个方向的自动化水平，一共分为六个能力等级，即人工、工具辅助、部分自动化、有条件的自动化、高速自动化和完全自动化。

关键点：决策规划由运维系统做出，而不是人

人负责：制定优化目标（比如，可用性、效率、成本等）

运维系统负责：根据其对待处理的需求、待解决的问题的理解，以及对运维对象的认知（经验），自主做出解决方案（规划）并在控制执行过程中根据目标和运维对象的状态反馈来适时调整执行规划。

智能化运维能力分级

在自动化能力分级之中，我们还细化出了一个智能化运维能力分级（我们始终认为智能运维是实现完全自动化运维的一种手段）。实现智能化能力，重点解决的是在运维感知和决策过程中，人工效率低和准确率不足的问题。

关键点：决策规划由运维系统做出，而不是人

人负责：制定优化目标（比如，可用性、效率、成本等）

运维系统负责：根据其对待处理的需求、待解决的问题的理解，以及对运维对象的认知（经验），自主做出解决方案（规划）并在控制执行过程中根据目标和运维对象的状态反馈来适时调整执行规划。

如何做运维

我们希望每一个运维工具都像一个小型的运维机器人一样，解决运维的问题。运维工程师需要把每一个运维工具抽象化，同时也要像一个标准框架一样，可以在代码库里克隆，把框架代码复制下来。通过三个基本核心，感知、决策和执行来进行编写执行器，接着可以通过配置实现一些具体任务调度的配置或者并发执行的配置；每一个运维工程师要实现感知逻辑、决策逻辑、执行逻辑，利用运维核心解决可靠性的问题。在测试方面，要在线下建立看代码的逻辑去验证。结合这个看代码，把比较核心的运维故障抽象出来，再把一些常见的故障模拟出来，具体的情况可以在这里面运行；写完一个运维工具或者算法，需要直接在上面运行，从而检测出是否有效。

故障处理场景

百度内部如何解决故障处理场景

故障处理场景一般分四个主要阶段：故障发现、服务止损、服务恢复、故障总结。

在服务止损方面，核心是如何让用户感知不到这个故障，对于运维来讲，更多用的方法是隔离、降级，而非从代码BUG入手解决的问题。

在服务恢复方面，这个一般是在服务止损或者说故障被隔离之后，很大程度上需要运维和研发共同合作，比如定位代码的BUG，最终要决定如何把线上的问题真正解决掉。恢复，更多用的是修复来解决。在百度，大多数的故障都是可以用隔离和降级解决的，只有那些极特殊的case，才会通过程序回滚来恢复。回滚风险很大，而且效率很低。

在整个解决故障处理场景的阶段，每一个阶段都可以结合智能运维的方法。从开始服务部署、监控添加、故障发现、止损决策、止损操作、根因诊断、恢复操作，最后报告自动生成。

把AIOps应用到故障处理最核心的基础是，全面覆盖监控。在百度，做的最全面的是云上的监控，所以包含这四个维度的监控：系统监控、业务监控、内网监控和外网监控。

系统监控主要的监控对象是机器/容器和服务的动态内容；业务监控针对业务和用户的访问日志等；内网监控则针对IDC内网设备和内网链路；外网监控为了保障用户、运营商链路到百度IDC中间的状态。

有了全面的监控之后，才能开始现在业界常提到的一个智能运维技术，自动异常检测。

典型的异常检测场景

有关异常检测场景，我为大家举三个典型的例子，第一个，周期波动的数据。

百度云曲显平：AIOps时代下如何用运维数据系统性地解决运维问题？

上图中的蓝、绿、黄三条线分别代表着今天、昨天、上周的时间线，蓝线比较明显，后面还有绿线和黄线。它们相对来说周期性体现得特别强。这种数据很难用传统的计算方法设置阈值。针对这种场景，我们会使用不同类的算法，专门解决这种问题。

第二个，关心突变的数据。

百度云曲显平：AIOps时代下如何用运维数据系统性地解决运维问题？

突变的数据也是一个比较典型的场景，周期性数据更多参考的是天级和周级的数据，而这个场景更多说的是某一个细节层面，可以理解为它是对一小块数据的放大。

第三个，关心是否超出了一定波动范围的数据。

百度云曲显平：AIOps时代下如何用运维数据系统性地解决运维问题？

这种场景是我们用普通的监控方法很难覆盖的，很多情况下，其均值或基线不会有特别明显的变化，但系统现在确实出现了很大的不同状态，可能仅仅是波动更剧烈了，对于这类场景，我们更多的是去看波动的情况，就是除基线以外的一些特征。

今年八月份，百度云开源了一个数据标注的工具－Curve 。我们始终觉得算法虽然很重要，但远没有数据本身重要。做机器学习时，数据的建设才是最需要花时间解决的问题，百度的运维工程师也是重点在解决数据标准和数据获取的问题。

如何应对报警风暴

当出现大规模报警时，手机可能会直接被打爆。异常检测重点解决的是故障感知的问题。当故障被感知后，需要通知给运维工程师。首先，做逐级通告，对报警进行分级。接着做数据的整理，整理出每一个数据，最后抽象化数据的特征，按照每个维度或特征进行报警的归并。

百度云曲显平：AIOps时代下如何用运维数据系统性地解决运维问题？

完成前两步之后，报警会有一定改善。最后要用数据分析方法或者机器学习的方法处理。数据的特征已经被抽象化，所以有很多方法可以解决，第一种方法是传统数据挖掘，比如关联分析，频繁项集挖掘是最被广泛使用到的方法，它可以有效将同类报警进行合并。第二种方法是机器学习，因为前面抽象出了特征，那做分类聚类都是比较直接的事情。从我们的实践情况看，最后的效果两者相差不大，大家都可以尝试。

报警产生后，就相当于感知阶段结束，之后就到达故障处理阶段。接下来，我分享几个百度内部觉得效果最好的处理方法。

第一个方法，多维度定位。这个更多偏业务问题的定位。业务都有访问日志，日志由各个不同维度的数据组成。一个故障的出现可能有不同维度，运维工程师需要通过访问日志的数据进行计算分析，分析出真正影响故障的维度。

百度云曲显平：AIOps时代下如何用运维数据系统性地解决运维问题？

在这个基础上，可以做可视化。这是一类结合业务特征的可视化方法，如上图，这是一个模块拓扑图，很多圈圈，很多研发，这里有健康度、响应时间等等各种维度的展示。像模块响应时间，又可能会分很多类、很多维度或者很多模块，底下是每一个不同的模块，都可能产生对应的一些情况。

接下来，百度现在大部分在用的是基于信息熵的维度特征推荐。例如，一个出现故障问题的指标，大的流量下降，可能有不同的维度。运维工程师会对每一个维度里的子维度数据进行分析，分析下降的程度，以及对于现在整个流量总体的下降程度的不同占比，然后做一个排序，就可以得到故障影响较高的某几个维度，从而帮助工程师尽快定位到这个问题或者缩小问题的范围。

第二个方法，基于服务拓扑或者服务关联做定位。这是内部比较重要的故障判断基础和指导意见。百度运维倾向于把一个问题的分析分成六个维度：

①时间维度，缩小时间范围；

②网络拓扑模型，缩小空间范围，区分整体和局部故障；

③服务管理模型，推导异常集群、实例或者机器；

④变更关联模型，定位程序、配置、数据、运营活动上线；

⑤模块关联模型，上下游关联服务的异常传播链；

⑥多维度模型，维度关联层级分析，缩小业务范围。

百度云曲显平：AIOps时代下如何用运维数据系统性地解决运维问题？

上图是一类典型的故障诊断框架。我们可能有很多故障的分类，比如有网络故障，细分一点是有交换机故障、链路故障，可能有系统故障，业务问题、操作问题等各种各样的，都是属于假说生成，可能都是备选故障问题。中间有一个证据评分，相当于基于前面的模型拓扑关系，对不同的故障做评分，把拓扑关系的线做权重，然后做置信计算和排序，最后给出最优决策判断。

有关自愈的问题

· 故障自愈

通过自动化、智能化处理故障节省人力投入，通过预设定的处理流程和只能化判断策略，提高故障处理可靠性，同时降低故障时间，为业务可用性保驾护航。

· 智能自愈

①感知：通过监控系统获取业务运行指标、智能异常检测、网络异常事件多种触发方式

②决策：根据不同感知方式可以配置不同决策模型

③执行：在单机执行基础上，提供集群级别、分布式的处理方式

在执行故障自愈过程中，并不止是一个工具的执行，而是包括了调度、伸缩、隔离预案处理甚至多个不同业务的联动。自愈本身的核心并非自动化过程，更多是决策的过程。

举一个典型案例叫单机房故障自愈。单机房，不仅仅指机房网络故障，更多指的是故障范围只要限定在一个IDC内部，不管这个故障是代码BUG，还是外面流量接入出了问题，还是机房整个掉电，只要故障范围是在一个IDC内都可以解决。

百度云曲显平：AIOps时代下如何用运维数据系统性地解决运维问题？

基础能力达标后，我们要设计一个故障自愈系统，核心部分是外网流量调度止损决策器和内网流量调度止损决策器。外网比较简单，而内网则涉及到一些负载均衡策略、弹性伸缩策略、主备切换策略等。

盲测验收

百度云曲显平：AIOps时代下如何用运维数据系统性地解决运维问题？

最后讲一下盲测验收。有了故障自愈的系统后，怎么证明你的方案好用呢？在不通知业务的情况下，我们会和IDC同事进行配合，拔网线或是制造网络拥塞，这时候才能进行完整的切换，从而可以证明基础能力是否达标。

百度现在单机房故障自愈已经覆盖了所有核心业务线，自愈时效控制在5分钟内，并且对于非数据库依赖的业务，可以做到1-2分钟完成机房级自愈。

咨询服务场景

服务咨询的场景可分为以下三种：

①通过聊天窗口（IM软件、浏览器等）实时查询业务状态，用户可视化、可追查各种问题；

②通过聊天窗口（IM软件、浏览器等）实时触发运维操作，运维工程师可远程上线、启停任务等；

③当运维操作完成，出现状态变化或异常等情况时，运维工程师可主动发送相关通知，或按照策略自动进行后续操作。

在百度内部，我们将这种场景称为ChatOps：

•“放心”：分级发布和可用性干预、保障

•“贴心”：监控、部署一站式集成，信息主动推送和确认

•“省心”：高度自动化，减少人工介入和等待

•“开心”：助力业务发展，如迭代效率提升

•将运维人员从日渐琐碎、枯燥、疲惫、低价值、高事故率的工作中解放出来

•实现运维人员的转型和增值

AIOps的挑战

最后说一下AIOps的挑战。现有的AIOps技术，比如指标异常检测、故障自愈等，更多解决的是数据本身的特征和问题，还没抽象到服务、程序本身的特征这个层次上，也就是说，我们并没有真正地了解和解决问题本身。比如，不同类的服务所产生的故障和表征是不一样的，我们希望让数据更多、业务场景可扩展，而非针对几个横向的场景；在业务运营方面，我们不仅仅局限在IDC、操作系统、机器，而是注重资源和性能优化，运维还可以继续拓展。对内，可以做系统优化、成本优化；对外，帮助所有用户做云服务资源池优化，让大家更好的节约成本，提升服务能力。

以上内容来自曲显平老师的分享。

声明：本文是由msup原创，转载请联系 [email protected]

大数据百度云运维工程师百度

xiaoshe

0 关注 0 粉丝 0 动态

相关推荐

docker容器与宿主机的数据交互方式总结

在生产环境中使用 Docker ，往往需要对数据进行持久化，或者需要在多个容器之间进行数据共享，这必然涉及容器的数据管理操作。docker cp :用于容器与主机之间的数据拷贝。当删除Docker容器，并通过该镜像重新启动时，之前的更改将会丢失。在Dock

yangkang 2020-11-09

分布式文档存储数据库之MongoDB备份与恢复的实践详解

　　为什么要备份？　　备份的目的是对数据做冗余的一种方式，它能够让我们在某种情况下保证最少数据的丢失；之前我们对mongodb做副本集也是对数据做冗余，但是这种在副本集上做数据冗余仅仅是针对系统故障或服务异常等一些非人为的故障发生时，保证数据服务的可用性；

lbyd0 2020-11-17

分布式文档存储数据库之MongoDB分片集群的问题

　　1、什么是分片？比如用户要查询年龄大于30的用户，该怎么查询呢？而年龄大于30的用户的数据，可能server1上有一部分数据，server2上有部分数据，我们怎么才能够把所有满足条件的数据全部查询到呢？

sushuanglei 5评论 2020-11-12

详解Vue数据驱动原理

Vue区别于传统的JS库，例如JQuery，其中一个最大的特点就是不用手动去操作DOM，只需要对数据进行变更之后，视图也会随之更新。比如你想修改div#app里的内容:. 在代码层面上的最大区别就是，JQuery直接对DOM进行了操作，而Vue则对数据进行

85477104 13评论 2020-11-17

vue+echarts+datav大屏数据展示及实现中国地图省市县下钻功能

随着前端技术的飞速发展，大数据时代的来临，我们在开发项目时越来越多的客户会要求我们做一个数据展示的大屏，可以直观的展示用户想要的数据，同时炫酷的界面也会深受客户的喜欢。大屏展示其实就是一堆的图表能够让人一目了然地看到该系统下的一些基本数据信息的汇总，也会有

KANSYOUKYOU 2020-11-16

THINKPHP5分页数据对象处理过程解析

在用到THINKPHP5的分页的时候，我们可以发现获取的数据是对象，如果我们要对数据进行循环增加数据就实现不了。V5.0.9版本开始支持分页类后数据直接each遍历处理，方便修改分页后的数据，而不是只能通过模型的获取器来补充字段。

wushengyong 2020-10-28

需要知识的后深度学习时代，如何高效自动构建知识图谱

前沿的知识图谱自动构建技术有哪些？这篇文章将逐一解答这些问题。二者展示的信息量是差不多的，但右边这种看起来更加直观。而且，随着文本篇幅的增长，这种优势会体现得更加明显。其中，图的节点代表现实世界中存在的“实体”，图的边则代表实体之间的“关系”。基于知识图谱

lizhengjava 12评论 2020-11-13

人工智能技术如何落地交通出行？

在城市交通领域，有AI红绿灯控制，街道交通智能监测、智能公交车站，以及智能高速，这些领域都已经渗透了人工智能。围绕自动驾驶和车路协同也已经在全国多个地区进入商用测试阶段。那么日常还有哪些出行场景是应用到了AI技术的呢?大大降低了人工运营维护成本，人工审核降

星月情缘 11评论 2020-11-13

将云技术带入数据中心-走向数据驱动型业务的旅程

COVID-19产生的大量数据正在为企业创造新的增长机会，但拥有合适的基础设施对于有效应对这场数据风暴至关重要。Gartner最近警告说：“数据和分析领导者必须为多云和跨云部署的复杂性做好准备，以避免潜在的性能问题、计划外的成本超支和集成工作中的困难”。负

huangxiaoyun00 9评论 2020-11-13

联想持续发力智能物联，构建新基建时代下的行业新引擎

联想Tech World 2020创新科技大会于今日开幕。

zhoushuntian 15评论 2020-11-09

数据科学面试中应了解的十种机器学习概念

如您本文转载自公众号“读芯术”。如您所知，数据科学和机器学习必须提供无穷无尽的信息和知识。话虽如此，大多数公司都只测试少数核心思想。这是因为这十个概念是更复杂的思想和概念的基础。您可能想知道为什么我什至不愿意将其放入，因为它是如此的基础。换句话说，更加重视

luyong0 12评论 2020-11-08

Forrester发布全栈公有云开发平台报告，腾讯云再次入选领导者象限

今日获悉，国际领先行业咨询机构Forrester发布《2020年Q4中国全栈公有云开发平台Wave报告》显示，腾讯云再次入选公有云开发平台领导者象限。在2018年同主题报告中，腾讯云也曾入选。本次报告通过33项评估标准，针对中国市场最具代表性的12个厂商进

腾讯soso团队 2020-11-06

雾计算在物联网中的应用

雾计算是指一种分散的计算结构。资源被放置在数据源和云之间的逻辑位置。雾计算的优点之一是可以在同一时间上维持多用户连接的状态。本质上，它提供了与基于云的解决方案相同的网络和服务，但是它增加了分散网络的安全性。随着物联网的发展，越来越多的设备被添加到网络中。据

Apsaravod 2020-11-05

AI格局正在从“数据”转变为“知识”

半个多世纪以前就引发了人工智能革命。我们看到的最常见的AI业务策略是围绕数据构建的。我们认为专有数据是AI公司目前很具战略意义的护城河，但在未来几年中，专有数据将不再是一种独特的资产，从而使专有数据差异化的可持续性降低。因此，我们希望重点从基于数据的AI策

PeterChangyb 2020-11-05

SAP AMDP介绍 - ABAP托管的HANA数据库过程

最近Jerry的处境可以用本世纪初，八零后刚上大学时校园内风靡的一款FPS游戏名称来形容: 《半条命》. 为了避免让汪子熙这个公众号成为神经外科前中颅底亚专业医学知识的普及号，咱们还是继续聊SAP技术吧。随着ABAP 7.40 SP05的发布，SAP AB

gaobudong 15评论 2020-11-04

数据骗子无处不在，教你拆穿所谓“万金油”

数据分析师、机器学习/人工智能工程师、统计学家，这样的头衔是不是听起来很高大上?但小心别被骗了!高薪诱惑之下，不少数据骗子也隐藏在其中，这些骗子毁了遵纪守法的数据专业人士的好名声。第一点线索就是，他们无法理解分析学和统计学是两个截然不同的学科。这样的p值没

wwwjun 15评论 2020-11-02

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中的数据偏差是一种错误，其中数据集的某些元素的权重和/或表示程度高于其他元素。偏置数据集不能准确表示模型的用例，从而导致结果偏斜、精度低和分析错误。通常，机器学习项目的培训数据必须代表现实世界。数据偏差可能发生在一系列领域，从人类报告和选择偏差到算

gyunwh 2020-11-02

机器学习中处理缺失值的9种方法

它是任何数据科学或机器学习项目的关键。在大多数情况下，当我们从不同的资源收集数据或从某处下载数据时，几乎有95%的可能性我们的数据中包含缺失的值。我们不能对包含缺失值的数据进行分析或训练机器学习模型。这就是为什么我们90%的时间都花在数据预处理上的主要原因

EchoYY 14评论 2020-10-31

人工智能和机器学习如何从物联网数据中提取关键见解

过去几年，围绕物联网的大部分讨论都集中在连网设备本身——它们是什么、有多少以及如何保护它们。虽然所有这些小端点都很重要，但在物联网中更重要的是这些设备所生成的大量数据，以及通过分析可以从中获得的业务见解。这些缺点在物联网环境中更加严重，在物联网环境中，大量

dingyahui 14评论 2020-10-30

IT打工人，AI来“抢”你饭碗了！这次从数据中心下手

ningwentao 14评论 2020-10-30

xiaoshe

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号