Oracle大数据机和连接器产品支持与Hadoop和Cloudera Manager集成
Oracle 大数据机和大数据连接器软件支持与 Hadoop、Cloudera Manager 以及 Oracle NoSQL 数据库的集成。上月 Oracle宣布携手 Cloudera 进军大数据机和连接器软件领域。
大数据机融合了 Cloudera 公司的 Apache Hadoop(CDH)和 Cloudera Manager 管理应用,以及一个开源统计性编程语言R。它采用 Oracle Enterprise Linux 5.6 作为其操作系统,配备有 HotSpot JAVA 虚拟机。大数据机能够运行 Oracle NoSQL 数据库社区版和企业版。它同时能与 Oracle 的其他产品,如 Exadata、以及配备有 Oracle 大数据连接器软件的 Oracle 数据库进行集成,以此分析企业内部那些结构化数据和非结构化数据。
大数据连接器软件:
Oracle 的大数据连接器软件产品可利用 Oracle 数据库 11g 整合储存在 Hadoop 及 Oracle NoSQL 数据库中的数据。通过在 Hadoop 数据上直接使用 Oracle 的开源R语言可实现对数据的分析。大数据连接器软件包包含以下组件:
针对 Hadoop 的 Oracle 加载器:这是一种 MapReduce 应用,用以优化从 Hadoop 下载到 Oracle 数据库中的数据。它可以用来在 Hadoop 中对数据进行筛选、分区以及转换成 Oracle 数据库的数据格式。它还可以以 Hadoop 集群中的一项 Hadoop 任务的形式来对数据进行预处理,然后再将转换过的数据加载入数据库中。该特性同样支持在线或离线选项,负载均衡及多种输入格式(如定界文本文件、Hive 表以及自定义格式)。
针对 Hadoop 分布式文件系统(HDFS)的 Oracle 直连器: 支持从 Oracle 数据库中直连在 HDFS 上的数据,并且通过在 Oracle 数据库中创建某外部表,用户能够从 HDFS 访问和导入数据。在 HDFS 中存储的数据可通过 SQL 进行查询,这些数据会与 Oracle 数据库中存储的数据相关联,或被加载至 Oracle 数据库中。HDFS 中的数据可以存在于界定文件中,或者是由 Oracle 加载器为 Hadoop 创建的 Oracle 数据 pump 文件中。
针对 Hadoop 的 Oracle 数据集成(ODI)应用适配器:该适配器提供了与 ODI 的原始 Hadoop 集成。ODI 模块可用于在 ODI 内部构建 Hadoop 元数据、加载数据到 Hadoop、在 Hadoop 内部转换数据以及利用针对 Hadoop 的 Oracle 加载器直接将数据加载到 Oracle 数据库中。
针对 Hadoop 的 Oracle R 连接器:该组件是一个R语言包,用来帮助访问 Hadoop 以及存储在 HDFS 中的数据。它可用于创建R模块来应对使用 MapReduce 处理的海量数据。
Cloudera Manager:
包含在大数据机捆绑包中的 Cloudera Manager 提供一个集群范围的、实时的运行节点及服务视图,它能够用来改变跨集群内的配置。它还包括了报告和诊断工具来观察集群的性能和利用率。
Oracle Advanced Analytics:
Oracle 近期还发布了一款新的针对大数据的产品 Oracle Advanced Analytics,它将统计式编程语言R集成至 Oracle 数据库 11g 产品中。Oracle Data Mining,作为内嵌于 Oracle Advanced Analytics 的数据挖掘软件,能够帮助客户构建并部署预测分析应用从而获悉更多应用性能方面的信息。