分布式计算Hadoop简介

zunguitiancheng

2012-12-14

Hadoop是什么：Hadoop是一个开发和运行处理大规模数据的软件平台，是Appach的一个用java语言实现开源软件框架，实现在大量计算机组成的集群中对海量数据进行分布式计算。

Hadoop是什么：Hadoop是一个开发和运行处理大规模数据的软件平台，是Appach的一个用java语言实现开源软件框架，实现在大量计算机组成的集群中对海量数据进行分布式计算。

Hadoop框架中最核心设计就是：HDFS和MapReduce。HDFS提供了海量数据的存储,MapReduce提供了对数据的计算。

数据在Hadoop中处理的流程可以简单的按照下图来理解：数据通过Haddop的集群处理后得到结果。

HDFS：HadoopDistributedFileSystem,Hadoop的分布式文件系统。

大文件被分成默认64M一块的数据块分布存储在集群机器中。

如下图中的文件data1被分成3块,这3块以冗余镜像的方式分布在不同的机器中。

MapReduce：Hadoop为每一个inputsplit创建一个task调用Map计算，在此task中依次处理此split中的一个个记录(record),map会将结果以key--value的形式输出,hadoop负责按key值将map的输出整理后作为Reduce的输入,ReduceTask的输出为整个job的输出，保存在HDFS上。

Hadoop的集群主要由NameNode,DataNode,SecondaryNameNode,JobTracker,TaskTracker组成。

如下图所示：

NameNode中记录了文件是如何被拆分成block以及这些block都存储到了那些DateNode节点。

NameNode同时保存了文件系统运行的状态信息。

DataNode中存储的是被拆分的blocks。

SecondaryNameNode帮助NameNode收集文件系统运行的状态信息。

JobTracker当有任务提交到Hadoop集群的时候负责Job的运行,负责调度多个TaskTracker。

TaskTracker负责某一个map或者reduce任务。

分布式计算 hadoop hdfs 数据处理

zunguitiancheng

0 关注 0 粉丝 0 动态

相关推荐

云计算

Saas：软件即服务：通过互联网提供按需软件付费应用程序，云计算提供商托管和管理软件应用程序，并允许其用户连接到应用程序并通过全球互联网访问应用程序 ?

Zjzk 2020-08-02

分布式计算框架——MapReduce

DAG计算——多个作业存在依赖关系，后一个的输入是前一个的输出，构成有向无环图DAG；Map、Reduce阶段的中间环节，负责执行Partition（分区）、Sort（排序）、Spill（溢写）、Merge（合并）、抓取等工作。Partition编号 =

zhangll00 2020-05-07

redis分布式和mysql分布式/集群

目前的项目很少会采用单机架构了，一是因为单机性能有限，二是因为单机服务一旦故障整个系统就无法继续提供服务了。分布式数据库是在集中式数据库的基础上发展起来的，是计算机技术和网络技术结合的产物。分布式数据库是指数据在物理上分布而逻辑上集中管理的数据库系统。

枫叶上的雨露 2020-04-18

MapReduce(分布式计算)_01

2-MapReduce的构思和框架结构。5-MapReduce案例-wordcount-准备工作

zhangll00 2020-03-27

Hive Hbase区别转载整理

Hive是为了简化编写MapReduce程序而生的，使用MapReduce做过数据分析的人都知道，很多分析程序除业务逻辑不同外，程序流程基本一样。在这种情况下，就需要Hive这样的用戶编程接口。Hive本身不存储和计算数据，它完全依赖于HDFS和MapRe

QAnyang 2014-06-17

初识Hadoop

Hadoop能搭建大型数据仓库、PB级数据的存储、处理、分析、统计等业务，如搜索引擎、日志分析、商业智能、数据挖掘

strongyoung 2019-12-16

计算机中间件市场前瞻分析

2018 年全球中间件市场规模可达 320 亿美元，并将持续增长。国产中间件厂商在金融、电信和政府的替代空间高达 57.4 亿元。我们假设中国中间件市场行业结构短期内不发生改变，则 2023 年中国中间件市场中，政府行业为 25 亿元，金融行业为22亿

千寻之寻 2019-11-27

云计算发展的隐藏着哪些问题

云计算是分布式计算的一种，指的是通过网络“云”将巨大的数据计算处理程序分解成无数个小程序，然后通过多部服务器组成的系统进行处理和分析这些小程序得到结果并返回给用户。现阶段的云计算通过不断进步，已经不单单是一种分布式计算，而是分布式计算、效用计算、负载均衡、

loviezhang 2019-11-12

巨杉Tech | SparkSQL+SequoiaDB 性能调优策略

本文介绍 SequoiaDB和 Spark两款产品的对接使用，以及在海量数据场景下如何提高统计分析性能。01 SequoiaDB 与 SparkSQL 介绍SequoiaDB 是一款开源的金融级分布式关系型数据库，支持标准 SQL 和事务功能，支持复杂索引

憧憬 2019-10-31

【计算机】【新兴技术】【区块链技术】区块链技术简介

　　　　P2P 下载： +CDN ： +分布式计算：。　　　　1999年，Shawn Fanning创立了一个叫Napster的mp3音乐分享网站，他也是Facebook最早的顾问、投资人和股东之一。　　　　　　Napster本身并不拥有MP3，它可以找到

开发之路 2019-10-29

[转]20分钟看懂大数据分布式计算

大数据技术虽然包含存储、计算和分析等一系列庞杂的技术，但分布式计算一直是其核心，想要了解大数据技术，不妨从MapReduce分布式计算模型开始。该理论模型并不是什么新理念，早在2004年就被Google发布，经过十多年的发展，俨然已经成为了当前大数据生态的

zhangll00 2019-10-24

Hadoop ，storm，spark 的特点

大数据中的数据量非常巨大，达到了PB级别。这使得大数据的存储，管理和处理很难利用传统的关系型数据库去完成。在大数据之中，有价值的信息往往深藏其中。预测性分析能力常常被应用在金融分析和科学研究领域，用于股票预测或气象预测等。语义引擎是机器学习的成果之一。数据

luokingfly 2017-02-13

分布式计算鼻祖BOINC：你的电脑也能和外星文明接触

可曾想象，有一天，在你屋脚处沉默的那台个人电脑，或许可以找到地外文明存在的证据？这样地外讯息跨时空的“第五类接触”不是科幻，来源于可操作的现实。时间回拨1995年，时任美国UC伯克利大学助理教授David Anderson未曾想，他发起的SETI@home

xayddxjsjxywuhui 2019-09-19

高可用高并发的 9 种技术架构

在网站的分层架构中，常见的为3层，即应用层、服务层、数据层。应用层具体负责业务和视图的展示；服务层为应用层提供服务支持；数据库提供数据存储访问服务，如数据库、缓存、文件、搜索引擎等。所以虽然分层架构模式最初的目的是规划软件清晰的逻辑结构以便于开发维护，但在

xinxuan 2018-10-25

基于分布式数据库的存储和hadoop的分布式计算的分布式sql计算方法

为了解决分布式数据库下，复杂的sql难以实现的问题；在有了一些分布式数据库和hadoop实际应用经验的基础上,对比两者的优点和不足,加上自己的一些提炼和思考,设计了一套综合两者的系统,利用两者的优点,补充两者的不足,具体的说,使用数据库水平分割的思想实现数

MrIronHand 2017-06-13

Hadoop理解

作为分布式系统而言，有两个重要内容：分布式存储和分布式计算。分布式存储的原理：将一个大文件划分成若干部分，存储到不同的节点上。好处：1）由于有副本存储，某个节点的down机不会影响到整个集群的使用，数据还是可以保证完整性的；2）大文件划分小文件存储，这样便

MichaelHsu 2015-12-25

专访QQ大数据团队，谈分布式计算系统开发

NoSQL是笔者最早接触大数据领域的相关知识，因此在大家都在畅谈Hadoop、Spark时，笔者仍然保留着NoSQL博文的阅读习惯。在偶尔阅读一篇Redis博文过程中，笔者发现了 jacksu的个人博客，并在其中发现了大量的分布式系统操作经验，从而通过他的

DataCastle 2014-07-14

hadoop的含义以及常用的一些项目以及核心

分布式计算的目的：节省计算时间，提高计算效率。利用延伸框架进行操作，避免大量的底层代码。namenode负责：接收用户的请求，维护文件系统的目录结构，称为命名空间。TskTracker负责：执行JobTracker分配的任务

hweiyi 2017-08-03

Hadoop ，storm，spark 的特点

xiyf0 2017-02-13

云计算，分布式计算，网格计算，并行计算

现在把早上看到的云计算和分布式计算，网格计算，并行计算的概念对比分析一下。其实是要了解云计算，但是这几个名字叫得容易把问题搞混。并行计算或称平行计算是相对于串行计算来说的；所谓并行计算可分为时间上的并行和空间上的并行。从程序和算法设计人员的角度来看，并行

fuel 2013-03-19

zunguitiancheng

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号