海关数据仓库云平台:大块头有大智慧

栏目寄语:

云计算的大门已经打开。为强化云技术,落地云应用,彰显云价值,《中国计算机报》与微软(中国)有限公司联合举办的Windows Server 2012 云创益大赛,历时5个多月,共吸引了9760名选手报名参加个人赛,103支队伍参加企业级比赛,官网访问量达到180万次,官方微博互动达12384条。大赛为IT人提供了一个了解云、应用云、体验云的交流共享平台。你创想,云实现。通过大赛,更多云人才始露锋芒,更多云应用落地生根。本专栏将连载大赛最终获奖的10个企业级优秀方案,以期展示标杆应用,带动产业发展。

海关数据仓库云平台:大块头有大智慧

“数据是基础。如果数据没有高效的承载,应用做得再好,都不会达到很好的效果。”青岛海关云架构师任林认为。

“数据处理是一个很重要的能力。之前海关的数据都由各个部门分散去做,而我们想找到一个解决方案,将这些数据梳理并构建一个体系,从而提升海关整体的数据处理能力。”任林口中的方案,正是他的团队(XRZ队)参加微软Windows Server 2012云创益大赛团队赛的作品——动态数据仓库高性能云计算平台(简称数据仓库云平台)。

其实,动态数据仓库项目已经在海关运行了多年,但采用的是分布式的部署方式。全国目前共有46个直属海关单位,600个隶属海关和办事处,通关监管点近4000个。分散的数据管理方式显然存在着不便于统一管控、资源得不到最佳配置等弊端。在云计算技术日趋成熟的今天,包括任林在内的海关技术团队,开始思考能否利用云计算,将数据按云的方式向用户提供服务,实现数据服务集中化、降本增效和真正意义上的动态可控。

“过去,我们有实际的需求,但是没有有效的手段。”任林对《中国计算机报》记者表示,“Windows Server 2012的推出,恰好为我们提供了解决实际需求的思路、提供了可实现的手段。”

海关数据仓库云平台:大块头有大智慧

数据仓库云化

云再也不只飘在天上,它已经可以被你我欣赏、触及。特别是随着Windows Server 2012这款被微软称为云操作系统内核的系统软件的发布,任林等人将海关数据仓库云化提上了日程。

任林介绍,他们首先将基础设施云化,再基于微软并行数据仓库(Parallel Data Warehouse,简称PDW)进行高性能的数据存储与管理,将数据处理执行从原来的节点迁移到了云引擎中,并将应用进行了重新设计,以服务的方式提供给用户。就这样,包括北京、上海、广州等多个云数据中心为基础的海关数据仓库云平台设计应运而生,它还包括动态数据仓库云门户、动态数据仓库云引擎和最上层的Web应用云部署中心。

“我们在动态数据仓库云化方面做了很多尝试。目前,我们基于微软Windows Server 2012和Azure架构做了一些工作,建立了一套以数据为核心的管理体系,为用户提供高水平、高效率的平台,以支撑我们整个海关的应用。”任林说。

以服务的方式提供数据

“大数据是现在业界的热点,但是我们的方案绝不是跟风和炒作。这些都是我们的实际需求,也是我们实实在在的应用。”任林表示。

任林将数据处理能力视为信息化体系中非常重要的能力之一,它离不开海关的实际应用场景。全国海关系统每天都在生成大量的结构化和非结构化数据,每时每刻遍布全国的海关业务终端都要利用这些数据进行业务办理、分析与查询。“目前平台整体的数据量已经达到了上百TB的规模,下一步我们还要将基于Hadoop架构的非结构化数据迁移到平台上来。按照我们的规划,平台可以支撑PB级的数据量。”任林说。

据任林的团队测试,在海关数据仓库云平台上,4TB数据量的两表联合查询仅需29秒,10TB数据量的三表联合查询仅需1分30秒。依托Windows Server 2012提供的云计算平台和PDW带来的高性能数据仓库,海关的综合管理业务平台提供了即席查询、固定查询、多维分析、报表指标等各种数据处理功能。云计算与高性能,也让海关各个部门高效联动审批成为可能。例如,如果业务人员通过指标分析发现了业务中的风险点,可立即通过发送联系处置单,要求相应部门进行处置。

实际上,海关云计算“一切皆服务”的理念不仅仅只体现在基础设施层面,它在应用层面也有充分的体现。“我们的目标就是通过云计算的方式,让用户只需要提交需求,接收返回结果,而不用去关心其中具体的操作过程。”任林表示,“Windows Server 2012和微软其他产品帮助我们实现了这一理念。我们自己提供了可视化的操作界面,用户不用再写代码,即可完成对综合业务管理平台的操作。例如在生成SQL查询时,用户可以完全使用拖拽的方式选取各个表和字段,很方便地完成各种定制查询。”

统一管理各种平台

任林认为,云计算的最大价值在于保持业务的连续性。“Windows Server 2012基本具备了云操作系统的特征,它能够为底层提供有效管理,对上层服务提供持续性支持。”

“由于海关IT系统复杂多样,我们对Windows Server 2012采用了逐步引入的方式,并投入了很大精力进行兼容性测试。”为了保障数据仓库云平台服务的高可用性,任林的团队经过反复实验,最终基于Windows Server 2012、System Center 2012建立了兼容性较高的资源管理体系。“通过Windows Server 2012和System Center 2012,平台能够支持各个主流厂商的软硬件和基础环境。比如我们可以兼容管理Linux、VMware等系统,基本满足了需求。”任林向记者介绍。

Windows Server 2012可以实现通过一个节点完成对整个数据中心的实时任务管理,这种管理方式可以让海关运维人员轻松地在一个地点管理大规模的服务器集群。“以前,对服务器集群管理需要从这个控制台到那个控制台,甚至从这个桌面到那个桌面。现在,一个桌面就可以完成数据中心几千台设备的管理。”任林兴奋地说,“对运维工程师来说,这是一个很酷的功能,而且非常实用。”

值得一提的是,目前平台正是使用了微软System Center 2012中的 Virtual Machine Manager(虚拟机管理器,简称SCVMM)进行统一管理。无疑,SCVMM这一重量级工具在新版本中有了新的提升。“它让我们能够以较低的成本去管理多个厂商的产品,让运维人员不用每天对着多个不同的管理界面,大幅提高了工作效率。”任林说。

实现资源最优配置

效率不仅源于高性能的设备和管理工具,更源于对数据仓库资源配置的设计。结合业务需求,任林的团队将海关动态数据仓库的应用分为三个级别:最高级别应用基于PDW,中等级别应用基于青岛海关搭建的数据库群集,而低级别应用基于SQL Server。

“海关中有很多业务是需要即席查询的,业务终端需要即时查询、马上返回结果,这就需要通过PDW来进行快速的执行。”任林向记者介绍,“而有一些固定查询,比如某些报表是每月生成一次,那么就可以安排在较低的应用级别来完成,甚至可以提前进行。”

在这样一个按照业务需求分级别进行数据管理的解决方案中,不仅提高了数据的管理效率,同时也提高了硬件资源的利用率。任林介绍,在数据仓库云平台项目中,他们逐步引入新的系统和设备,并对原有设备进行了整合改造,安排进行相对低级别的工作,这样使得IT资源得到更好的配置利用。

云计算的本质就是对资源进行更为有效的利用。在资源利用方面,任林的团队其实有更伟大的设想。“如果能够通过云计算将IT资源进行充分的配置,作为公共管理与服务部门,我们希望对内部的IT能力进行梳理,最终将能力释放出来,为公众提供更加广泛的服务。”任林说。

方案亮点

(1)本方案让Windows Server 2012的价值在大规模应用场景中得以充分体现,实现了平台的高可用性。

(2)方案同样适合中大型规模应用,结合PDW,实现了系统的可扩展和高性能。

相关推荐