分布式文件系统,机架感知以及掌握数据仓库搭建过程
上篇笔记做了一个简单的了解,这次咱们需要了解下谷歌的三篇论文Google FS、MapReduce、BigTable(一定搜下看看然后过几遍)以后再来进行下边的学习 。
各章概述,继续熏陶
Hadoop部分
Hadoop的起源与背景知识1.大数据的核心问题: (1)数据的存储:分布式文件系统(分布式存储) (2)数据的计算:分布式计算 2.概念:数据仓库(Data warehouse) (1)我们可以把Hadoop和Spark看成是数据仓库的一种实现方式 (2)数据仓库就是一个数据库,一般只做select (3)重要的一点:掌握数据仓库的搭建过程 (4)数据仓库又是一种OLAP的应用系统
数据仓库搭建过程
3.概念:OLTP和OLAP (1)OLTP:online transaction processing联机事务处理 (2)OLAP:online analytic processing联机分析处理---->不会修改(删除)数据 4.(最重要的内容)Google的3篇论文 (1)GFS:Google File System ---> HDFS ---> 解决数据的存储 (2)MapReduce计算模型 ---> Hadoop MapReduce ---> 解决数据的计算 (3)BigTable大表 ---> Hbase是NoSQL数据库
- 实验环境
Apache Hadoop的体系结构(重要):实现Google的思想论文
1.HDFS:Hadoop Distributed File System (1)主从结构 (2)主节点:NameNode名称节点 (3)从节点:DataNode数据节点 (4)SecondaryNameNode:第二名称节点
分布式文件系统与机架感知
2.Yarn:是一个容器,运行MapReduce程序 (1)主从结构 (2)主节点:ResourceManager 资源管理器 (3)从节点:NodeManager 节点管理器 3.HBase:需要单独安装 (1)主从结构 (2)主节点:HMaster (3)从节点:RegionServer
Hadoop2.X的安装与配置
Hadoop有三种安装模式 (1)本地模式 ---> 一台Linux (2)伪分布模式 ---> 一台Linux (3)全分布模式 ---> 三台Linux (4)掌握面密码登录的原理和配置
Hadoop应用案例分析
(1)大数据背景下,企业级系统的架构的变化 (2)HBase进行日志分析 (3)Hadoop在淘宝的应用 了解下
HDFS:Hadoop的分布式文件系统,数据存储
(1)操作HDFS:1.命令行 2.Java API 3.网页:Web Console (2)原理:数据上传的过程和数据下载的过程 (3)HDFS的底层实现:RPC和java动态代理 RPC:remote procedure call (4)高级特性: 1.回收站 2.快照snapshot:是一种备份 3.配额quota:名称配额和空间配额 4.安全模式:safemode 5.权限
MapReduce:是一个计算模型,可以用java来实现
1.Demo:经典的WordCount 2.重点:MapReduce处理数据的过程 3.原理:Yarn执行MapReduce的过程 4.MapReduce的高级特性 (1)序列化 (2)排序 (3)分区 (4)合并 5.MapReduce的核心:Shuffle(洗牌) 6.编程案例: (1)排序:order by (2)去重:distinct (3)多表查询 (4)倒排索引
- Hive:蜂巢,数据分析的引擎:翻译器 SQL ---> MapReduce
- Pig:猪,数据分析的引擎:翻译器 PigLation语言 ---> MapReduce
HBase:NoSQL数据库
1.是基于Hadoop之上的NoSQL 2.体系结构:HMaster、RegionServer 3.搭建:本地模式、伪分布模式、全分布模式 4.操作:命令行、Java API、WebConsole 5.过滤器:实现复杂的查询 6.HBase上的MapReduce
- Sqoop:数据采集引擎,采集关系型数据库中的数据
- Flume:数据采集引擎,采集日志
- HUE:基于Web的管理工具
- ZooKeeper:相当于一个'数据库',实现HA(High Avaiblity高可用性)
Hadoop的集群和HA
1.HDFS的联盟(Federation) 2.Hadoop的HA(High Avaiblity高可用性)
- Redis:基于内存的NoSQL数据库,提高性能
Storm:处理流式数据(实时计算)
集成Storm和Redis
相关推荐
jasonchen 2020-09-07
wujun 2020-08-03
chognzhihongseu 2020-06-28
cyydjt 2020-06-25
meiseeny 2020-06-11
Laxcus大数据技术 2020-05-30
SignalDu 2020-05-28
张小涛涛 2020-05-06
弱思 2020-04-27
tutubuchicao 2020-04-20
weiguoxin 2020-04-10
天涯莺歌 2020-03-08
swazerz 2020-02-03
KANSYOUKYOU 2020-01-29
lichunan 2020-01-09
xiyouiOS 2014-06-12
zjyzz 2014-05-29