Hadoop都2了大数据应用会迈上一个新台阶吗

学习我们是认真的

2013-10-29

Apache软件基金会终于推出了最新的Hadoop2数据分析平台，从而引发了舆论对大数据演进大飞跃的美好憧憬，此前我曾经写过“Hadoop就是大数据应用又何妨”一文，对国内大数据市场现状进行了分析。如今Hadoop 2发布，会如舆论所预计一样刺激大数据应用和发展吗?

我认为首先要看一下，Hadoop 2进行了哪些改进?从相关报道来看，Hadoop 2最大的改进是发布了YARN数据处理和服务引擎，用于对Map/Reduce进行了改进，同时为Hadoop File System (HDFS)添加高可用特性。

可以看一些技术细节，对Hadoop数据进行访问，需要开发Java应用实现Map/Reduce，学习起来会有一些困难，除此之外，也可以采用Hbase，用近似数据库范式来处理数据。其Hive数据仓库让你可用类SQL的HiveSQL查询语言来创建查询，并转化为MapReduce任务。不过Hadoop仍受限于单线程性。MapReduce任务、Hive查询、Hbase操作等等都要轮流进行，这就是局限。

Hadoop开发社区也意识到这个问题，在Hadoop2进行了改进，将Map/Reduce升级为Apache YARN(Yet Another Resource Negotiator)。

YARN项目主管ArunMurthy指出：Hadoop1.0和2.0的区别在于，前者所有的事情都是面向批处理的，而后者则允许多个应用同时在内部访问数据。

换句话说，相对于当前Map/Reduce系统能处理的事情，把这些功能分开使得Hadoop集群资源的管理更加强大。其主要管理方式类似于操作系统对任务的处理，不再有一次一项操作的限制了。

有了YARN，开发者就能够直接在Hadoop内部来开发应用，而不是像许多第三方工具所做的那样，在外面把数据筛选出来。

从Hadoop 1.0到2.0对于用户来说并没有本质不同，只是从技术的角度，简化技术开发的难度，是一种量的积累，而不是质的改变。对于最终用户来说，Map/Reduce也好，YARN也好，不过是一种对资源的调度和使用方式。

大数据 hadoop yarn 数据处理

安科网

Hadoop都2了大数据应用会迈上一个新台阶吗

学习我们是认真的

学习我们是认真的

相关推荐

为什么Java仍将是未来的主流语言？

docker容器与宿主机的数据交互方式总结

分布式文档存储数据库之MongoDB备份与恢复的实践详解

分布式文档存储数据库之MongoDB分片集群的问题

详解Vue数据驱动原理

vue+echarts+datav大屏数据展示及实现中国地图省市县下钻功能

THINKPHP5分页数据对象处理过程解析

需要知识的后深度学习时代，如何高效自动构建知识图谱

人工智能技术如何落地交通出行？

将云技术带入数据中心-走向数据驱动型业务的旅程

联想持续发力智能物联，构建新基建时代下的行业新引擎

数据科学面试中应了解的十种机器学习概念

Forrester发布全栈公有云开发平台报告，腾讯云再次入选领导者象限

雾计算在物联网中的应用

AI格局正在从“数据”转变为“知识”

SAP AMDP介绍 - ABAP托管的HANA数据库过程

数据骗子无处不在，教你拆穿所谓“万金油”

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中处理缺失值的9种方法

人工智能和机器学习如何从物联网数据中提取关键见解

学习我们是认真的

Hadoop都2了 大数据应用会迈上一个新台阶吗

相关推荐

Hadoop都2了大数据应用会迈上一个新台阶吗