基于Hadoop的Clearinghouse系统架构设计
1 Clearinghouse(数据交换中心)介绍
Clearinghouse(数据交换中心)是随着异构组织之间共享空间数据而产生的,它的目标是建立一个虚拟空间数据机制,用来收集空间数据的元数据和发布服务,以便高效的获取空间数据,同时利用空间数据提供决策支持。通常建立Clearinghouse的基本途径是通过一套元数据标准,收集各个组织中空间数据的元数据,通过服务接口帮助用户确定存在哪些数据,以及获取这些数据的方式等。但是随着各个组织中的空间数据的快速增长,其元数据条目也在不断增多。
相关阅读:
Clearinghouse的功能概括如下:
(1)是一个可查询的信息目录。它覆盖所有参与信息共享的地理区域,为用户提供了对相关地理信息进行查询、发布等操作的工具。这个信息目录包含的不是数据本身,而是关于数据的信息,即元数据。
(2)是一个虚拟信息空间。在这里,可以通过简单操作来搜寻和定位感兴趣的地理信息。它是采用统一的元数据,相同的查询和检索协议,以及用于各种元数据收集的注册系统来完成的,可借以实现信息挖掘。
(3)是一个集中式服务系统。所有地理数据的元数据都存放在clearinghouse中,客户端采用现有的Web技术,通过查询元数据来获取数字化地理信息。
在大数据环境下,Clearinghouse存在和需要解决如下问题:
1) 数据量大,增长快。
这里所涉及的数据量比传统事务处理大得多,且随时间的推移而累积。在这种环境下对任何一种数据处理平台的一个关键性要求是它必须具有快速的支持系统扩展的应变能力。
2) 分析需求:复杂的数据挖掘算法
根据TDWI对大数据分析的报告,数据分析由常规分析转向深度分析。深度分析包括数据关联分析、回归分析等复杂分析。
数据分析趋势
2 Clearinghouse关键技术
2.1 在SOA中的角色
SOA(Service‐Oriented Architecture, SOA)是一个面向服务的框架体系,它将应用程序的不同功能单元(称为服务)通过这些服务之间定义良好的接口和契约联系起来。SOA架构中主要包括服务提供者、注册中心和服务请求者三个角色。服务提供者将服务按一定规则发布到注册中心,服务提供者是服务的所有者,从体系结构上看它是提供服务访问的平台。服务请求者是需要服务的人或组织,从体系结构上看是查找和调用服务的客户端应用程序。注册中心充当存储服务描述信息的角色,是建立服务提供者与服务使用者之间的桥梁。SOA的三种操作:发布操作:为了使服务可访问,需要发布服务描述以使服务使用者可以发现它。查找操作:服务请求者定位服务,方法是查询服务注册中心来找到满足其标准的服务。绑定操作:在检索到服务描述之后,服务使用者继续根据服务描述中的信息来调用服务。
从SOA框架来看,Clearinghouse即是服务请求者,也是服务提供者。
SOA服务过程