hadoop框架结构的说明介绍

李春春

2018-10-15

近年，随着互联网的发展特别是移动互联网的发展，数据的增长呈现出一种爆炸式的成长势头。单是谷歌的爬虫程序每天下载的网页超过1亿个（2000年数据，）数据的爆炸式增长直接推动了海量数据处理技术的发展。谷歌公司提出的大表、分布式文件系统和分布式计算的三大技术构架，解决了海量数据处理的问题。谷歌公司随即将设计思路开源，发表了具有划时代意义的三篇论文，很快根据谷歌设计思路的开源框架就出现了，就是如今非常火爆的hadoop、Maperduce和许多Nosql系统。这三大技术也是整个大数据技术的核心基础。

目前国内的hadoop商业发行版也是比较多，这些hadoop商业版大部分都是由国外发行的，纯国产的发行版不是很多，比如DKhadoop，可以说是目前国内自主做hadoop商业版比较好的了。下面就以大快搜索DKhadoop为例来给大家介绍一下hadoop框架结构！

图示：DKhadoop技术技术架构图

hadoop框架结构核心：

hadoop的框架结构最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，MapReduce为海量的数据提供了计算。

大数据一体化开发框架：

大数据的应用开发过于偏向底层，设计技术面非常广泛，学习的难度自然要大的很多。对于新手入门更是难上加难。DKhadoop则是大快搜索将一系列技术框架在底层进行了重新封装。把大数据开发中的一些通用的，重复使用的基础代码、算法封装为类库，降低了大俗局的学习门槛，降低开发难度。

DKhadoop框架结构构成模块：

我们以DKhadoop发行版为例：

1、框架由：数据源与SQL引擎、数据采集（自定义爬虫）模块、数据处理模块、机器学习算法、自然语言处理模块、搜索引擎模块，六部分组成。

2、大快的大数据通用计算平台（DKH），已经集成相同版本号的开发框架的全部组件。如果在开源大数据框架上部署大快的开发框架，需要平台的组件支持如下：

（1）数据源与SQL引擎：DK.Hadoop、spark、hive、sqoop、flume、kafka

（2）数据采集：DK.hadoop

（3）数据处理模块：DK.Hadoop、spark、storm、hive

（4）机器学习和AI：DK.Hadoop、spark

（5）NLP模块：上传服务器端JAR包，直接支持

（6）搜索引擎模块：不独立发布

Dkhadoop是大快深度整合，重新编译后的HADOOP发行版，可单独发布。独立部署FreeRCH（大快大数据一体化开发框架）时，必需的组件。DK.HADOOP整合集成了NOSQL数据库，简化了文件系统与非关系数据库之间的编程；DK.HADOOP改进了集群同步系统，使得HADOOP的数据处理更加高效。

关于hadoop框架结构暂且简单介绍这些，感兴趣的朋友可以找一下大快搜索的DKhadoop试一下。

text-align hadoop 大数据 text-indent

安科网

hadoop框架结构的说明介绍

李春春

李春春

相关推荐

vue+echarts+datav大屏数据展示及实现中国地图省市县下钻功能

如何在Fedora上安装Google Chrome浏览器

Chrome 87新特性解读，多年来Chrome性能最大提升！

软件架构设计分层模型和构图思考

Golang中Delve版本太低无法Debug的问题

关于go语言编码需要放到src 文件夹下的问题

Navicat如何远程连接云服务器数据库

mysql 8.0.22 安装配置图文教程

基于postman实现http接口测试过程解析

最新PyCharm从安装到PyCharm永久激活再到PyCharm官方中文汉化详细教程

Linux安装Nginx步骤详解

如何将Pycharm中调整字体大小的方式设置为\"ctrl+鼠标滚轮上下滑\"

Pycharm中使用git进行合作开发的教程详解

Linux安装Nginx步骤详解

Docker使用Portainer搭建可视化界面的方法

nginx proxy_cache 缓存配置详解

浅析Linux之bash反弹shell原理

详解docker-compose速度太慢解决方式

详解docker pull 下来的镜像都存到了哪里

带你使用webpack快速构建web项目的方法

李春春