可运营的IT运维三大要素
IT 运维是目前企业IT 运营最关注的重点,也是IT 部门最难把握的管理方式。虽然市场上的各种IT 运维系统红火纷呈,可对企业来说仍然是无所适从,他们迫切需要找到一个可以提升IT 部门的整体管理效率,改善服务品质,并且可灵活定制、满足长期需求的运维管理系统。北京游龙科技,由资深留美学者张泽军创办于2003 年,是国内最早并且始终专注于IT 运维领域相关软件研发和市场营销的专业公司之一。对于IT 运维,他们有自己独特的解决方案和很多成功案例。在采访中,张总谈到了IT 运维体系的最核心要素:统一的数据模型、非常强大的可定制性、开放和集成性,也表示了看好IT 运维市场——未来客户需求会很大,整个市场也会非常稳健的成长。
IT 运维管理的要素
IT 运维管理目前是支撑企业IT 部门提供服务的最有效管理体系,一套好的运维系统必须具备以下几个要素。
首先,运维体系要统一IT 运维管理应该是一个一体化的系统,而不应该是一个分散的系统。做为一名IT 运维管理人员,在每天上班的工作时间内,如果他面对的是几套完全不同的系统,而不是一套相对统一的管理体系,那他就会在有限的时间内,不仅要处理各种各样的问题,还要去熟悉掌握这些不同的系统,工作效率可想而知。所谓统一的管理体系,就是共用同一个数据库如CMDB这样一个模式。IT 部门建好这样一个体系,其他系统也都基于CMDB 之上来提供各种各样的功能,不管是对服务器管理和网络设备管理,还是对桌面管理,以及对IT 服务管理、人员管理等等,这些都是基于统一的数据库CMDB 的,能做到这一点对IT 运维管理是非常关键、非常重要的。如果要让IT运维很高效,并且能够长期为企业带来价值,就要努力实现运维的统一和稳定,不能经常更换不同的系统, 所以能够建立一个扎实的CMDB 体系非常关键的。当然这是企业IT 运维到达一定的规模以后才可能建立一套完整的CMDB,是一个很有价值的投资。
其次,要灵活、可定制化随着企业信息化程度的提高,IT 运维体系越来越多地牵涉到人的因素,而不仅仅只是面向被管理的对象,不是只面对服务器、网络设备、终端设备以及被管理的各种应用。IT运维不仅仅只牵涉到被管理的这些IT 基础架构,更多的是把人与人的协同、合作以及人与人之间的诸多流程之间要整合起来。这是更为复杂的运维模式,对技术架构和IT 运维管理要求更高,也让IT 运维走上了一个新高度。所以IT 运维、IT服务管理以及ITIL,他们最核心的部分应该是能够把人与人之间的合作、协同这种流程做得更全面、更完善、更加透明化。IT 运维管理系统一定要特别灵活,它不仅仅在建设初期可以满足需求,还能够随着组织结构和人员的变化以及公司内部运维规章、规则的变化,系统也能够做出及时适应和调整。在以前传统的运维方式中,管理一台服务器或一台网络设备是相对固定的,所以建设初期及以后维护阶段就可以长期使用,在相当长的时间内不会发生变化。而现在加入了流程,这就意味着被管理的对象是一个非常动态、变化性非常强的目标,所以对IT 运维系统的架构和技术结构体系上提出了一个非常大的挑战,要求它们能够应对和满足不断变化的环境。例如人事制度,可能会经常变化,人员会经常增加或减少,同时流程也会经常变化,随着人以及组织体系的变化,IT 运维的体系也要能够满足这种变化和其他复杂的情况。所以IT 运维系统对技术架构提出了非常高的要求,这就是灵活性和定制化,也就是不需要通过开发编程,通过自由配置就能够定制出各种各样的流程和CMDB 这样的业务之间的对应关系,能够满足不断快速变化的环境要求。特别要强调的是,不是通过开发人员去修改程序源代码,而是通过用户自由
配置和简单操作就可实现这种灵活的定制。
能够为用户提供一种非常方便、非常完善、非常灵活、可配置、可定制化,可以满足用户各个发展时期的需求,能做到这些的IT 运维系统才是未来最有生命力的。对于这样一套系统,它如果能够满足各种行业的需求,则需要实现非常强的可定制性; 同时,对于同一个客户,要满足其日益变化的需求,也需要具备很强的可定制性。所以只需通过简单、灵活的配置,就能够实现非常强大的可定制化,这样的IT 运维系统才是用户真正需要的,才真正具备市场竞争力。
第三,具备可集成性好的运维体系一定要有很好的可集成性,可以把各种各样的系统能够集成到一起来,可以通过CMDB 的形式、面向服务的架构把各种各样的服务集成起来。它能够把服务器管理、网络设备管理、桌面管理等管理体系都能够纳入到其中,让它们之间的信息无缝交换。开放性和可集成性也应该做得非常好,不然就会给用户的使用带来很大障碍,推广方面也会有很大的限制。
IT 运营管理
这里所说的IT 运营管理,包括监测、IT 运维管理、IT 服务管理,可以套用一个名词——ITOSS,IT 部门越来越需要一套这样的IT 运营支撑系统。
新需求
IT 服务管理只是IT 运营支撑系统之中的一部分,事实上有相当一部分IT 部门的日常管理内容没有包括在ITIL 定义的流程里面。ITIL 定义的主要流程包括变更管理、配置管理,规范管理,库存管理,资产管理等很标准的流程, 而IT 部门还有很多管理流程都没有包括在ITIL 或IT 服务管理所定义的流程里面。比如说面向用户管理方面的,运维要做值班管理,这是非常有中国特色的,但在ITIL 的标准流程里面是没有定义的。还有其他如出入机房管理等, 这都是IT 部门每天所必须要走的流程,这些流程如果不纳入到管理平台里面,就会出现管理上的缺失。
如果把这些流程全部整合在统一的管理平台下,就不仅仅是IT 服务管理这个范畴了。有一些如人事流程,如果也同样整合在这个系统平台里面,则对人员资源的利用也会更有成效。同样,IT 运维管理也需要覆盖这层面。所以说IT 运营支撑系统,应该是对IT 部门的所有人员、所有流程、所有被管理对象的一个集成化的整合。这不仅是IT 管理系统平台的研发目标,也是用户给IT 运维厂商提出的一个新需求。
新挑战
这样一套完整的运营支撑系统对用户来说是很有价值的,它会成为IT 部门真正依赖的系统,也很容易实施和推广。从管理角度看,就象用好ERP 能够提升企业运营效率一样,这套系统也能够极大地提升整个IT 部门的运营效率。所以很多用户并非是不想实施IT 运维,而是很难找到一个合适的厂商能够提供这样一个完整的平台。虽然国外的一些知名管理系统也很完善,但对国内用户都不太适用:一方面,通常这种大型的系统都是英文化,难以使用; 另一方面,这些系统所定义的流程并不完全适合国内的流程,一旦缺少几个关键的流程,这个系统就无法运转。
新模式
IT 运营支撑系统与传统的IT 运维系统相比,它涵盖了IT部门的所有人员、所有流程,所有被管理的对象,而传统的IT 服务管理系统则做不到。因此,它管理更全面,对IT 部门的支撑更好,更有利于实施并提供优质服务。
IT 运营支撑系统在实施过程中,都会与用户有更加深入的沟通,最终目标是要让用户经过培训后能够自行使用系统中的工具来进行灵活配置。因为用户对自己的业务是最清晰的,对自己的需求也最清楚,所以在他们学会使用系统之后,就能很方便地通过简单操作来满足自己的需求。不再像以往一样先把需求提交给开发人员,开发人员再把编程结果反馈给用户,这个过程耗费的成本很高而效率却很低,并且当中的很多需求容易缺失。而现在的系统对用户而言
就是一个所见即所得的环境,他们自己就能轻松配置出自己想要的环境。这相当于把中间这个需求的沟通过程简化,让用户自己直接满足他的需求,因此这是一个完全基于可定制化的体系。
BSM的产生不是偶然,是企业业务需求与IT支持需求发展到一定阶段的必然结果。
什么是BSM?
BSM(Business Service Management),即业务服务管理,是IT与业务管理手段的一种整合与互补。它以ITIL为理论基础,实现IT管理与业务服务的融合。
BSM能够从不同监控系统(包括第三方)整合出需要的IT营运信息,给企业带来IT服务方面的优势,从而体现在企业竞争优势上:
从业务的视角来重新定位企业的IT系统,确保IT服务可管理、可测量。把IT管理与业务管理的表现相关联,使双方利益一致,提高客户满意度;
以ITIL的流程框架为中心,通过与Business Process Management(BPM)整合,实现ITIL服务提交和服务支持的流程,以可视化方式为管理者提供一览式的IT服务状况,简化对IT系统的理解。让企业管理者花更多的时间在决策上,而不是用在了解复杂、繁琐的IT细节上;
以仪表盘展现的方式,从服务定义、服务水平管理、服务监控、服务诊断的角度,让管理者一目了然;
端到端的BSM,既满足客户要求的服务水平,确保最佳的业务系统表现,又辅助整个企业的业务运营与IT决策。
BSM的三大核心要素
人员
企业需要清晰定义IT支持人员的角色职责,明确人员的技能等级,进行IT部门内部的梯队建设。IT支持人员的素质与质量最终决定了整个IT服务管理实施的质量。
流程
业务流程是一个逻辑群组的活动,有规律地为用户提供可重复性的业务功能;
·有明确的流程目标;
·能达到预期的效果;
·流转结果可度量;
ITIL是成熟的流程模型,企业能通过流程来实践这些最佳实现方式。
技术
有效的技术手段,可以保证企业做到:
· 监控IT系统的可用性、性能;
· 监控IT部门实现SLA要求的质量;
· 配置管理,并跟踪IT系统配置的变化;
· 诊断,快速定位问题原因并对症下药;
· 预测与预防,预测资源的使用情况,并能采取相关的预防措施;
· 提供仪表盘,以可视化的方式展现企业IT服务模型、IT服务报表与指标、网络拓扑等,让领导更方便地了解IT系统现状,并做出决策;
要这三方的元素紧密配合,并不容易,只有实施端到端的BSM,才能从总体上提高IT服务管理的质量并达到最佳实践效果。
企业面临的挑战
1、IT 部门如果缺乏快速有效的协调机制和必要的辅助管理工具,避免“救火队式”的混乱局面;
2、应用系统的管理需要专业技术人员管理,对专业技术人员的能力要求不断提高,所以IT部门需要专业的应用监控软件,并且可视化监控所有主流应用,在第一时间发现应用系统的问题并解决;
3、互联网公司十分重视终端用户体验,但是苦于缺少合适的监控机制,实时动态了解终端用户体验;
4、IT部门只重视技术,与业务部门之间不能形成良好的互动与沟通;
5、IT部门解决问题的经验不能积累到企业的知识库,并且会随着人员的流失而散落。
什么是Mocha BSM 4+1
Mocha BSM 4+1是由以下组成:
1 – 基础架构管理
企业的IT基础架构系统包括了网络设备,网络拓扑,主机,主机可视化以及IT资产,Mocha BSM的基础架构管理对这些不同IT系统的关键成分提供了监控与管理。
2 – 应用管理
应用管理对以下几个重要的应用分类进行了监控与管理:
·J2EE应用服务器
·Lotus Domino
·Portal
·数据库与LDAP
·Web Server
·URL & Ports
3 – 响应时间管理
通过Mocha BSM对以下进行监控与管理:
录制与模拟用户使用网站的关键操作与步骤,并且可以定时回放,并且监控用户在这些页面的响应时间与HTTP状态。
对一个复杂的业务系统,比如网站包括了Web Server,应用服务器和数据库,能够监控各个子系统的响应时间,如果网站出现慢的现象,就能定位是那一个子系统出现问题。
4 – 业务服务管理
以服务的视角来管理企业的IT系统,提供了以下功能:
可视化服务定义 - 服务是由网络,主机与应用组成的,能够通过可视化方式把这些不同的系统组成一个服务。
服务仪表盘 - 让业务部门和IT部门领导了解提供给他们的服务状况而不是技术细节,通过仪表盘展现服务状况以及KPI。
+1 – IT流程管理
通过IT流程管理,以ITIL的流程框架,缔造一个自动化和规范化的IT运维系统
Mocha BSM4+1为客户带来了什么?
基础架构管理,提高高可用性,让业务系统可持续运行
企业的各种IT设备,种类繁多,包括主机、路由器、交换机以及成百上千的员工终端,共同构成了企业的神经网络,为企业的正常运营,提供强大的基础设施支撑。
Mocha BSM 4+1的基础架构管理包括:
网络设备和网络拓扑管理
通过SNMP的主动查询方式,全面监控网络设备运行状况,自动发现企业的网络拓扑。
主机监控,包括对Unix,Linux,Windows主机
以Agent和Agentless两种监控方式,对不同操作系统下面的主机进行监控。
主机可视化管理
以实时动态的展现界面,达到直观的监控主机系统,并可以直接对关键进程进行操控,降低技术门槛。
IT资产管理
通过自动发现IT资产,实现了企业IT资产的全生命周期的管理。
第三方监控软件的数据和事件整合
可以无缝整合IBM,HP,BMC等第三方监控软件。
应用管理,为企业核心应用提供保障
我们支持对所有主流应用监控,并提供可视化地展现企业应用系统的部署架构,帮助IT管理者能够从复杂的应用系统管理中释放出来,一目了然地了解应用的状态。一旦应用组件出现问题,Mocha BSM能够帮助管理者快速定位出应用系统的根本原因,并快速予以恢复,尽最大可能的帮助企业挽回损失。
Mocha BSM支持的应用监控包括:
对各种不同的应用服务提供监控与管理,主要包括:
·J2EE应用服务器
·Lotus Domino, WebSphere, Weblogic, SunOne等
·对Web服务的监控,主要包括:Apache,IIS
·对数据库和LDAP服务的监控:主要包括:SQL Server, DB2,Oracle
·对邮件服务器,主要包括:Lotus Mail,MS Exchange等
响应时间管理,掌握用户体验,提高用户满意度
针对复杂和跨不同应用平台的业务系统(比如一个网站包括了Web Server,应用服务器,数据库等系统),我们提供各应用环节或子系统的响应时间监控,帮助IT管理员获取在各个应用阶段的事务反应时间,从而找出整个应用服务的瓶颈;
现在企业拥有很多的Web应用,但是IT部门往往不知道用户体验,而只是通过监控软件提供可用性和性能指标,但是最关键的用户体验被忽略。企业应用最重要的用户-企业领导往往因为IT系统响应速度慢,浪费了宝贵时间。现在,通过Mocha RTM Studio,我们可以达到以下:
·录制这些用户的体验
·定时模拟这些用户体验,确保响应时间实在可接受范围内,如果不是,第一时间通知IT管理员
通过响应时间管理,IT部门不只是能找到业务系统的瓶颈,并且能通过掌握用户体验,大大提高了用户(特别是领导)的满意度,而网站企业能避免没必要客户的流失,因为竞争只是“一点击”之远。
业务服务管理,让IT服务可视化和量化
Mocha BSM帮助IT管理员从服务的视角来管理IT系统,而不是底层的技术组件。这让IT管理员从业务部门的视角出发,理解业务部门是以提供给他们的服务质量为至关重要,而不是具体的技术细节。当故障发生时,IT管理员也能快速定位受影响的用户,并且第一时间通知他,并让他理解故障对服务的影响。
现在,IT部门领导能通过业务服务的视角,建立全局意识,通过KPI报表和图表,进行长期规划和决策,确保IT基础架构即使经历较大的风险,也能快速恢复,维持IT部门的可持续性管理。
SLM(服务水平管理)将IT服务进行量化,业务部门通过SLA规定的各项服务承诺进行对照,从而了解IT服务的质量以及SLA的满足情况,IT部门的工作范畴也有了量化的目标,并向着SLA所制定的方向迈进。
IT流程管理,以ITIL为核心,迈向规范化,自动化和流程化的IT运维平台。
以ITIL推动规范化和流程化
Mocha BSM 4+1是以ITIL流程框架为核心,遵循并实现了服务支持(Service Support)与服务提供(Service Delivery)。流程是ITIL的核心,通过Mocha BSM 4+1,客户可以通过灵活配置IT流程和表单,实现了IT运维所需要的流程管理。
自动化运维平台
Mocha BSM 把事件和IT流程关联起来,形成了IT自动化必备的工单。一旦被监控系统发生性能超标或者宕机,Mocha BSM会触发相关事件以及事先定义好的流程,可以自动恢复系统。
IT管理员也能用这个自动化运维平台达到:
·自动系统健康检查
·自动配置变更提醒
·自动生成运维周报
......
等多种自动化功能,大大提高了IT管理员的工作效率。
Mocha BSM 4+1的功能亮点
全程可视化的IT服务管理
通过可视化的管理和监控,降低了复杂系统管理的技术门槛,让系统管理员花更多时间在维护工作上,而不是花很多时间在学习怎么操作比较难的技术平台。
展现效果更加直观,易于理解。枯燥乏味的数据信息,通过直观的图形化展示,使系统管理员对于IT资源的营运状态一目了然。
可视化的展现平台,也给企业CIO和技术工程师之间搭建了沟通的平台,而不是再共同面对那些密密麻麻的数据信息。使技术执行与管理决策之间达成默契。
全程自动化的IT服务管理
自动化的资产发现,让设备的管理更为清晰透明。让遍布在企业各办公区各个角落的所有设备都一目了然。
快速的发现企业的网络设备,并根据发现设备之间的关系自动生成全局的网络拓扑结构图。当发生变化时,自动发现引擎能够及时调整网络的拓扑结构图,保证了与实际网络状态的一致。
对各种指标超标和故障,自动触发报警和故障处理流程。
统一的监控管理界面
上至庞大的电信运营商,下到中小企业都非常愿意拥有操作界面统一,一个WEB站点完成所有管理操作的Portal。而Mocha BSM正给用户提供了大量的“一览式”界面,很方便让用户对企业 IT 服务的全局拥有更深层的认识。
为不同角色,提供所需的IT运维内容
Mocha BSM提供灵活的可定义策略,通过Portlet技术给用户展现企业各资源状态,按照管理所需,随意定义监控视图;
提供Top 10排名榜,让用户一目了然了解最耗CPU,内存资源的服务等信息;
采用B/S架构,从监控—管理—报表分析,全部在唯一的管理Portal完成,省却了大量的系统切换工作,提高了管理人员的工作效率。
全生命周期的IT资产管理
Mocha ITAM可以给IT管理人员一个清楚的全局IT资产状况,比如还有多少库存,多少机器在维修等信息。这样极大的减少了企业在IT资产投资的浪费,Mocha ITAM也是市场上少数提供追踪IT资产生命周期功能的产品。
通过系统,客户现在能通过业务流程来管理各个阶段(采购、入库、维修、借调、借用、折旧、报废),确保给予IT资产提供全方位的管理以及优化。
最终,管理者更能在各个阶段做出准确的采购决策以及确保IT资产的规范化管理。
端到端响应时间管理
端到端反应时间监控,能够对企业越来越复杂的、跨应用平台的IT系统进行端到端监控,分段了解每一个相关系统的事务情况以及反应时间,一旦出现故障,系统管理员能够快速而准确地判断故障所在,定位服务故障的根本原因,并且快速排除问题。
企业的Portal门户
Mocha RTM能够提前录入登录动态web页面的各种动作,定时自动执行URL页面登录操作,并分析关键值返回结果,验证web的服务状态。
分布式可扩展的技术架构
Mocha BSM采用CMS(Central Monitoring Server 中央监控服务器)、DCH(Data Collection Hub 数据采集集线器)、DMS(Distributed Monitoring Server 分布式监控服务器)三层分布式架构。
DCH支持纵向与横向扩展,即可配置多个DCH在同一个CMS下(横向扩展),每个DCH下还可再配置DCH(纵向扩展)。
DMS支持横向扩展,可配置多个DMS在同一个DCH下。每个DMS下最多可监控1000个资源,消除了被监控资源的数量上的限制。
多种的预警与报警方式
提供了包括桌面预警小帮手(Mocha Alert)、邮件、短信、语音电话等多种报警与预警。
可追踪、可监控、自定义的服务流程
通过拖拽式的可视化流程定义方式,用户可以自定义触发不同的服务流程;
处理过程从触发到最终办理完成,得到了完整的记录;这些记录,可以作为企业的宝贵知识资产,供IT维护人员查询、借鉴。
自定义符合要求的报表与报告
上级领导的定期检查与IT服务成果的阶段性汇报,都需要完整多样的报告与报表的支持;
以拖拽的所见即所得方式,自定义符合需求的报告格式;iisreset /stop
可以按照,周报、月报、年报的形式导出,紧急情况下的各种及时报告,可以随时定义,随时导出。大大节约了时间。
与第三方监控系统的整合
支持与主流第三方监控软件厂商的数据和事件整合,保护了企业现有投资,避免了Agent License的浪费。