大数据期末复习重点

1.Hadoop平台:
1.理论概念:结构组成: 1. HDFS分布式文统.2.MapReduce计算大数据. 3Yarn任务调度与资源管理.  

2. 伪分布式环境搭建: 网络配置:
   配置网卡信息: vi /etc/sysconfig/network 

 配置主机的虚拟域名: vi /etc/hosts   

系统上安装 jdk环境.

  1. 先上传 jdk到服务器上.  

  2. 基于/usr/local/ 目录下解压安装.注: 可检查目录大小: df-h/usr/local/  

  3. 解压压缩包tar -zxvf jdk-7u80-linux.tar.gz 改名: mv jdk-7u80-linux jdk7(解压hadoop同)  

  4. 配置环境变量: vi /etc/profile
    结尾增加:
       export JAVA_ HOME=/usr/local/jdk7
       export PATH=.:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$JAVA_HOME/bin:$PATH
    保存退出并激活配置: source/etc/profile
    测试 jdk环境变量: java -version  

hadoop步骤:  
  
5. 修改配置文件:参考配置文件或直接覆盖 hadoop-2.6/etc/hadoop/中.
覆盖使用时切记:  
   1. 需要动态创建提供日志的存储目hadoop_repo,因为配置文件中使
   用的是该目录.  

 2. 其中配置文件中使用的全部是主机名: hfxt1.  

 3. 指定的jdk的位置需要调整为自己当前主机中的Java_home的位置.  

6. 格式化 hdfs: hdfs namenode -format
7. 方式一:启动: start-all.sh( 提示过时了)  

8.测试 hadoop环境.
方式一:注:最终通过 jps查看 Java进程. 应该能看到5个动的进程(
   NodeManeger  
   ResourseManager  
   DataNode   
   SecondaryNameNode  
   NameNode).
方式二:在宿主机上, 可通过浏览器访问: http://192.168.131.130:50070测试访问 hdfs.
http: //192. 168. 131.130: 8088测试访问hadoop.
9. 关闭: stop-all.sh  

Hdfs的 shell 操作(重点)  
  
提前启动 hdfs: start dfs.sh 测试查看进程: jps
Hadoop-2.6/bin/ hdfs 该命令可直接回车查看用法.   
用法一  格式: hdfs dfs 直接回车可查看 hdfs中的 dfs的命令用法. 后边可追加更多.  
  
例:   hdfs dfs -appendToFile<src...> :           将控制台手动输入的数据追加  
    hdfs-dfs -chgrp/ -chmod/ -chown   
    hdf sdfs -get :                   下载 hdfs上文件到本地
    hdfs-dfs ( /-p/-f)-put  
                              将本地文件上传到hdf s根目录中保留上传文件的属性信息  
                              -p将上传到 hdfs中后, 文件属性信息会更新为最新状态.  
                              -f将本地文件上传到 hdf s根目录中覆盖原

 
    hdf dfs -rm/-rmdir   
    hdfs-dfs -text  
    hdfs-dfs -help   
    hdfs dfs -ls 注: 以上命令不知如何使用, 可hdfs-dfs -help ls查看 ls的帮助用法.   
  
示例: 查看内容: hdfs dfs -ls hdfs: //hfxt1: 9000/  
上传内容到 hdfs中:   
/usr/local/hadoop_ repo/目录下新建测试文档 hello   
  
  上传: hdfs dfs -put hello hdfs:// hfxt1:9000/   
  查看: hdfs dfs -ls hdfs://hfxt1:9000/即可.   
  优化:以上写法可优化为:hdfs dfs -ls/(/ 代替 hdfs://hfxt1:9000/.)

Hdfs存储结构:
NameNode详解:   
 概念:整个文件系统的管理节点.维护着整个文件系统的文件目录树(hdfs dfs-ls/) .  
   文件或目录的元信息和每个文件的 数 据块列表.负责接收用户的请求操作.    
DataNode详解:Block:文件块. 最基本的存储单位.    
   hdfs中默认一个块的大小为 128m( 最大) .  
   块从0位置开始标记.


Hadoop集群:
集群环境的结构:  
         Hfxt0 namenode , datanode ,nodemanager   
        Hfxt2 resourcemanager,datanode,nodemanager  
        Hfxt3 secondarynamenode , datanode , nodemanager  

Ha集群环境:  
FAILOVER(失败转移)原理分析:  
HDFS的HA一个集群中,两个NameNode.一个Active状态(该节点负责客户端的操作) .一个Standby状态( 该节点用来同步Active节点的状态信息. 提供快速恢复故障的能力) .  

HA的实现原理: 为了保证两个节点状态同步. DataNode需要向两个NameNode发送 Block位置信息, 还有一个JournalNodes进程, 用来同步 FSEdits信息.Active节点上, 有关修改时, 都将持久化到一半以上的JN上, 而StandbyNameNode节点负责观察JN的变化.读取发送来的FsEdit信息.一旦Active节点错误,StandbyNameNode节点需要保证从 JN上读取所有的FsEdit信息.并且切换状态为 Active.  

HA自动环境搭建:

  1. 需要依赖 zookeeper组件.先安装zk集群.  
            上传zk安装包.解压.   
           将 zk/conf/ zoo_sample.cfg修改为 zoo.cfg   
           vi zoo.cfg:  
    dataDir=/usr/local/zookeeper 3.4.6/ data
          server.1=hfxt1:2888: 3888      
          server.2=hfxt2:2888:3888       
          server.3=hfxt3:2888:3888  
       
         mkdir zookeeper 3.4.6/ data   
         vi myid 注:输入1  

远程复制到其他服务器上.   
       Scp -rq zookeeper 34.6 hfxt2:/usr/local/  
       Scp -rq zookeeper 34.6 hfxt 3:/usr/local/  
       其他服务器 vi myid 注: 输入2和3  

启动 zk集群:  
       Hfxt1,2,3分别启动:   
      zookeeper 3.4.6/ bin/zkServer.sh start   
      查看启动状态: zookeeper 3.4.6/bin/zkServer.sh status  

测试进入客户端: zookeeper 3.4.6/bin/zkCli.sh   
      ls/ 查看根目录下是否为 zookeeper一个目录

相关推荐