美信云网管监控中石油全国加油站系统
概述
随着社会发展,带宽的增加和设备成本的降低以及虚拟化技术的普及,目前国内外的大型企业、政府机构的IT系统架构都发生了变化。
设备虚拟化:云计算可以把服务器和资源有效整合,将CPU、内存、磁盘等资源虚拟化,某个IP地址后面跟随的只是一个虚拟机,而不像原来代表的是一台真实的机器。通过虚拟化对资源进行整合,提高了设备的使用效率,但同时在不增加设备的情况下,操作系统也会越来越多,管理任务量和复杂度也会增加。
信息系统设计和部署更加抽象:由于通过云计算将负载均摊、压力分散,系统设计人员不用过分关心业务部署具体位置、单台设备负载是否过高,能否承受业务压力这些问题,而是把注意力放在如何设计更能满足用户需求、可用性上。
信息系统的规模不断增大:随着信息技术的不断发展和应用,信息系统在政府、企业使用的深度和广度也在不断增大,这也就造成信息系统的规模不断扩大,系统的用户规模可能达到十万,百万,系统部署的设备超过万台。
企业及政府专网数量、规模不断增大:随着信息化的不断深入,企业即政府建设了很多大型集中信息系统,为了保证数据稳定、可靠、安全的传输,国内一些部委、大型企业都在建立和扩大内部专网,范围从省级扩展到全国。
监控集中、管理分层:为了保证IT系统的正常运行,特别是在整个广域网的正常运行,监控是必不可少的,由于地方的技术力量有限,监控中心一般放在总部,总部集中监测性能、解决重大故障,地方一线工程师主要是处理一些简单问题。
IT系统规模越来越大,系统架构越来越复杂、使用范围越来大,对IT系统的可靠性就要求越高,硬件、软件、网络任何故障运维人员在第一时间就要掌握以便进行快速处理,降低系统瘫痪的可能性,好的监控就成为运维的首要条件。
传统监测架构
国际上大规模网络监测的主要厂商有HP、IBM、CA、BMC。它们的产品都是非常成熟的,有几十年历史了。
最开始网络规模不大的时候,都是一套网管系统安装在一台大型机上,监控所有服务器、网络设备、应用,目前所有小型网管软件还是这套监测架构。
随着网络规模的扩大,一台计算机的计算容量有限,大型网管系统一般都采用二级架构,在每个地方IT中心部署一套监控软件,在总部部署一套管理端,地方中心的监控软件将配置信息和一些重要的报警信息同步到总部管理端。
这种架构有一些明显缺点:首先是管理复杂,监控软件部署很多套,每个地方监控中心都需要有监控软件维护工程师对监控软件进行维护,由于培训、支持很难到位,人员变动等多种原因造成地方维护工程师对软件不会有很深入的了解,产品使用困难,因此产品使用不理想的情况很多。 |
其次是容易产生单点故障,每个地方中心部署一套监控软件,当监控软件本身出现故障时,该地方的系统就没有监控了,故障也无从发现。特别是监控软件属于基础维护软件,在日常运维工作中,如果没有报警产生,网管人员也不会特别注意没有故障报警的原因,到底是因为监控软件本身出现故障无法监测呢,还是系统工作正常没有报警,只有当故障发生后才发现原来网络监控软件出现故障,已经无法完成监测任务了。 |
再次是架构复杂,当下级监测端的被监测设备发生变化,被增加、删除修改后,都需要将新的配置同步到上层管理端,同步过程比较复杂,也很难做到实时同步,造成上层管理端和下层监测端数据不一致,容易导致错误。 |
最后是扩展性差,资源分配不均,随着IT系统规模的扩大,当监测端的监测容量满足不了需求的时候,需要重新安装一套监测端,包括数据库、报警等多种应用,还需要同步到上层管理端,非常复杂。而且不同地方的IT资源数量不同,会造成某些地区监控软件压力非常大,而另一个地方监控软件的资源闲置。 |
云监控的技术和方案
为解决大型企业和政府的IT业务监控问题,将目前最新的云计算技术应用到网络管理领域。国内顶级“云计算”网管厂商MXsoft(北京美信时代科技有限公司)设计了全球第一套CreCloud云监控解决方案。
CCU中央控制器是控制中心,它负责调度监控任务,根据监测设备的数量和监测内容将监控任务分发给监测服务器,并检测监测服务器的工作状态,一旦某台监测服务器出现故障立刻将监测任务转移到其他监测服务器上。 |
监测服务器主要任务是获取设备监测信息。随着监控规模的增加,它可以线性增加,自动注册到CCU中央控制器,中央控制器就会分配监测任务给它。 |
云网管架构的优势如下:首先是部署实施简单,只要在总部部署一套系统即可完成整个广域网的监测,二级单位和三级单位无需部署监控系统,他们只需登录总系统,将被监测设备和监测指标的信息、报警条件设置好就可以。所有日常维护都有总部网管人员负责。 |
其次是负载均衡,监测云中的服务器根据数量和计算能力动态承担各自的监测任务,当数量和计算能力发生变化时,通过自动调节机制去重新调整各自的监测任务量,不会出现二级架构中的某台监测服务器忙,某台监测服务器闲的情况。 |
再次是可靠的双机热备功能。监测服务器之前互相备份,如果监测服务器云中有服务器宕机,这些服务器的监测任务马上就会被重新分配到其它正常运行的服务器上,保证了监控的连续性。CCU中央控制器也可以组成高效的“主”—“备”模式,“主”服务器和“备”服务器之间通过“心跳线”技术实时关联,一旦主控制服务器宕机,备份服务器马上启动执行任务 |
案例试验
目前在中石油全国加油站项目中部署了一套美信的CreCloud云网管解决方案。该系统的一个显著特点就是服务器数量大、分布广,系统终端数量超过5万台,因此要求解决方案能够实现大规模分布式监控。
经过比选,选择CreCloud云网管解决方案进行部署,系统由2台CCU服务器,6台监测服务器,监测全国几万台的服务器。
总部管理人员维护监测系统,配置总部关心的设备和应用系统的监测,接收大范围故障的告警。省级和地方运维人员只被分配本地服务器、网络设备、应用的配置浏览和报警权限。