基于Hadoop的存储平台 解海洋数据孤岛之困
本文提出了一种基于云计算技术进行管理和存储海量海洋科学数据方法,构建了海量海洋科学数据存储云计算平台解决方案,采用Linux集群技术,设计开发一个基于Hadoop的海量数据存储平台。 随着《北部湾经济区发展规划》颁布实施,以北部湾经济区海洋为研究样本的系列重大基础研究专项和重大科学研究项目正在逐一展开,届时将产生海量的海洋科学数据,这些数据具有海量、复杂、多样、异构、动态变化等特性。而且目前各项目的海洋科学数据均缺乏统一的采集和存储的标准和规范,形成“数据孤岛”。如何存储和管理海量的海洋科学数据,使这些这些数据得到高效的利用,成为进行海洋科学研究项目的关键之一。因此构建一个北部湾海洋科学数据存储平台是目前充分发挥各重大基础科学研究项目研究效益的现实途径,也是北部湾经济区可持续发展的必然要求。
1平台总体设计
1.1平台总体框架结构
(1)结合海量数据异构性、分布性、多样性等特点,从系统编程实现角度考虑,本系统采用MVC三层架构设计,使结构更加清晰,系统易于扩展。
显示层:为用户提供方便、易用和友好界面,普通用户可以通过页面浏览和查询海洋数据,高级用户可以利用系统提供的公共API接口,扩展系统。
业务处理层:并行处理海量海洋科学数据,并对整个平台系统配置管理。
数据资源层:是整个平台的基础,存储和管理海量海洋科从系统功能角度考虑,可以将整个系统分三层:第一层是数据访问层。对于海量数据存储,在存取数据时不会只局限对一种数据库的操作,本层需要对各种数据库提供的不同数据源进行屏蔽,提供数据库访问服务,这样系统才能够适应处理存储海量数据的要求,具有较好的可扩展性和完备性,方便管理和部署。
第二层是数据处理层。数据处理层作为整个系统的核心,同时也是本系统设计开发的重点内容。它采用分布式数据库技术、Linux集群技术等,提供了对海量数据的并行加载存储等主要功能。只有通过这一层对海量数据并行处理,才能把处理后的数据存储到本系统的分布式数据库中。同时提供了保证系统能够正常运行的管理支撑服务。
图1 平台整体框架结构