川庆物探数据机房运维:实现资源统一、自动化调度管理

经过快速稳定的发展,川庆物探IT规模逐渐扩大,IT基础架构建设趋于完备。云计算时代,川庆物探着眼于业务扩展的需要,引入云资源,加快了川庆物探信息化建设的步伐。但是,川庆物探原有的IT运维并不完善,IT运维服务模式的改革创新势在必行。

目前川庆物探共有 3 个数据中心机房: 2 个在成都, 1 个在新疆库尔勒。其中库尔勒为移动式机房,成都 1 楼机房主要为利旧将下线的老设备, 2 楼机房为承载川庆物探重要业务应用的集群化服务器和存储资源。

目前针对机房及设备间的管理都比较完善,服务器和存储设备资源均已池化,但随着支撑业务应用的逐渐增多,资源的合理利用是一个较大问题。

1 行业特性

对石油勘探行业而言,IT资源除了存储海量数据的设备外,最关键的就是计算资源。石油勘探行业采集的地质数据数量庞大,而且需要经由地震资料处理类软件和地震资料解释类软件复杂的运算才能完成数据分析工作,这两类软件分别用于地震数据的处理和地震数据的解释,其所需要的运算量相当庞大。

采集上来的原始数据经过地震资料处理类软件或解释类软件的复杂运算,再通过矩阵的变化,迭代后会产生更庞大的数据量。最后,输出原始数据处理结果时,又需要进行大量计算,最后变成与原始数据体量规模相似的数据。

2 项目背景

2016 年底,勤智运维与川庆物探研究中心合作,搭建一体化智能运维平台承担整个研究中心的运维支撑工作。川庆物探研究中心通过部署勤智OneCenter一体化运维管理平台,对川庆成都数据中心机房的核心网络设备、计算和存储集群资源进行了全面监控;通过网络拓扑图、设备性能视图、设备告警视图、自动化运维及定制化功能,直观了解网络设备、技术、存储集群资源的使用情况,并能及时发现设备故障;通过自动化资源调度合理分配、计算、存储资源,由被动运维变为主动运维。

3 现状描述及需求分析

3.1 现状描述

类似川庆物探研究中心计算所这样的科研机构,承载地学研究、勘探数据分析等任务的石油勘探行业的研究所或计算中心,都面临着同样的信息化运维难题。随着数据规模不断增长,计算压力逐渐变大,计算所的规模也在扩大。川庆物探现有 3 个数据中心, 2 个在成都, 1 个在新疆。各数据中心只能负责各自的数据,数据中心之间的远程监控还未实现。

为了保障勘探项目的顺利进行,为各项目组提供服务,川庆物探研究中心计算所投资建设的高性能计算平台有 2000 多个计算节点,近 40000 个CPU,每个CPU的核数超过了10000。硬件上的投入看似足够,但当项目繁忙需要很多应用软件同时在高性能计算平台上运行时,系统的稳定性就会出现问题。川庆物探急需一套专业的一体化运维平台,实现网络、计算、存储资源监控、远程、自动化的调度管理,让投资的硬件、软件资源的利用率更高,为业务顺利开展提供服务保障。

3.2 需求分析

随着川庆物探投资建设的高性能计算平台上线运行,各核心网络设备运行基本畅通,计算及存储资源在实际项目中的合理高效利用成为关注的焦点。为此,川庆物探从实际业务出发提出了如下要求:

1)实现对核心网络设备的全面监控,并可在拓扑视图中直观显示网络架构、设备的运行状态和网络链路的性能和通断情况。

2)实现对计算及存储集群资源监控,并通过统计视图展现集群资源CPU、内存使用情况。

3)实现磁盘阵列各文件系统的信息采集,并以图表方式展现。

4)实现以矩阵方式展现各计算集群节点运行应用分布情况,不同应用以不同颜色区分。

5)实现计算集群资源通过自动化执行脚本方式自动调度分配。

4解决方案

经过前期需求调研,考虑到需监控管理的计算节点超过 1000 个,勤智运维决定采用分布式部署方式,数据处理器单独部署一台服务器,两个数据采集器、集中门户等组件单独部署一台服务器,数据库采用Oracle11g单独部署一台服务器。

1)通过网络拓扑视图展示,自动发现生成网络拓扑,并且关联设备的性能和告警信息,便于进行故障隔离和快速定位。

1 拓扑图展示

2)通过勤智OneCenter一体化智能运维平台实现对网络、计算、存储集群资源全面监控,实时展现各资源的CPU、内存、磁盘、接口等性能指标信息。

2 网络设备

3 计算集群节点

4 存储集群节点

将业务资源分组,以统计视图方式集中展现各计算、存储集群资源CPU、内存使用情况。

5 计算集群资源使用统计视图

6 计算集群各节点CPU利用率

川庆物探数据机房运维:实现资源统一、自动化调度管理

7 计算集群各节点内存利用率

3)磁盘阵列使用情况统计:通过定时代理方式,在指定存储节点上执行脚本命令采集获取磁盘阵列文件系统目录使用情况,并以图表方式进行集中展现。

8 存储文件系统一级目录

9 存储文件系统一级目录

4)项目应用矩阵视图展现:按照川庆物探的业务,每个计算集群节点上均会部署运行一个项目应用,例如:Omega、Paradigm等。计算集群节点为Linux系统,勤智OneCenter一体化智能运维平台按照Linux对各节点进行监控,并将川庆物探的项目应用名称同Linux操作系统的“系统说明”字段进行绑定,绑定策略可在后台配置文件中进行维护。

以矩阵方式集中展现a段、b段、c段等计算集群节点上运行应用情况。

10 矩阵视图展示

5)自动化资源调度:通过对计算集群资源的全面监控,及时掌控各集群节点的使用情况,结合资源调度功能实现自动化在线分配节点资源(释放空闲节点的资源到业务紧张的节点中)。

11 资源调度

5 用户收益

勤智OneCenter一体化智能运维平台,能够帮助川庆物探用户找到问题出现的根源,比如哪些资源已经超负荷,哪些资源处于闲置状态,并通过在线资源调度合理分配超负荷资源和闲置资源,使其得到高效利用。川庆物探能够实时掌控计算平台上的应用运行情况,预知分配给应用的计算节点何时达到峰值。如果当前CPU利用率较低,就可以加载将要运行的软件,提高平台处理效率。

川庆物探反馈引入勤智OneCenter一体化智能运维平台后,业务能够更好地顺利开展,所有可监控的业务都做到了提前报警,计算集群节点使用状况实时可控,实现了资源的统一、自动化管理,投资的软硬件资源利用率更高。

6 案例亮点

本项目一期建设亮点如下:

1)实现对川庆物探核心网络设备、计算和存储集群资源全面监控,结合ITAM平台实现自动调用脚本实现计算集群资源的在线调度。

2)通过定制化需求对计算集群节点CPU、内存性能指标进行集中展现;以矩阵方式展现各计算集群节点运行业务应用情况。

3)通过定时代理方式在指定存储节点上执行脚本命令,获取磁盘阵列文件系统目录使用情况,并以图表方式进行集中展现。

免责声明:本文为厂商推广稿件,企业发布本文的目的在于推广其产品或服务,安科网发布此文仅为传递信息,不代表安科网赞同其观点,不对对内容真实性负责,仅供用户参考之用,不构成任何投资、使用等行为的建议。请读者使用之前核实真实性,以及可能存在的风险,任何后果均由读者自行承担。

相关推荐