基于Ubuntu Hadoop的群集搭建Hive

lmjy0

2016-12-22

Hive是Hadoop生态中的一个重要组成部分，主要用于数据仓库。前面的文章中我们已经搭建好了Hadoop的群集，下面我们在这个群集上再搭建Hive的群集。

1.安装MySQL

1.1安装MySQL Server

在Ubuntu下面安装MySQL的Server很简单，只需要运行：

sudo apt-get install mysql-server

系统会把MySQL下载并安装好。这里我们可以把MySQL安装在master机器上。

安装后需要配置用户名密码和远程访问。

1.2配置用户名密码

首先我们以root身份登录到mysql服务器：

sudo mysql -u root

然后修改root的密码，并允许root远程访问：

GRANT ALL PRIVILEGES ON *.* TO root@'%' IDENTIFIED BY "123456";

我们这里还可以为hive建立一个用户，而不是用root用户：

GRANT ALL PRIVILEGES ON *.* TO hive@'%' IDENTIFIED BY "hive";

运行完成后quit命令即可退出mysql的命令行模式。

1.3配置远程访问

默认情况下，MySQL是只允许本机访问的，要允许远程机器访问需要修改配置文件

sudo vi /etc/mysql/mysql.conf.d/mysqld.cnf

找到bind-address的配置部分，然后改为：

bind-address = 0.0.0.0

保存，重启mysql服务

sudo service mysql restart

重启完成后，我们可以在Windows下，用MySQL的客户端连接master上的MySQL数据库，看是否能够远程访问。

2.下载并配置Hive

2.1下载Hive

首先我们到官方网站，找到Hive的下载地址。http://www.apache.org/dyn/closer.cgi/hive/ 会给出一个建议的网速快的下载地址。

然后在master服务器上，wget下载hive的编译好的文件，我现在最新版是Hive 2.1.1 ：

wget http://mirror.bit.edu.cn/apache/hive/hive-2.1.1/apache-hive-2.1.1-bin.tar.gz

下载完成后，解压这个压缩包

tar xf apache-hive-2.1.1-bin.tar.gz

按之前Hadoop的惯例，我们还是把Hive安装到/usr/local目录下吧，所以移动Hive文件：

sudo mv apache-hive-2.1.1-bin /usr/local/hive

2.2配置环境变量

sudo vi /etc/profile

增加如下配置：

export HIVE_HOME=/usr/local/hive
export PATH=$PATH:$HIVE_HOME/bin
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib:/usr/local/hive/lib

2.3配置hive-env.sh

所有Hive的配置是在/usr/local/hive/conf目录下，进入这个目录，我们需要先基于模板新建hive-env.sh文件：

cp hive-env.sh.template hive-env.sh
vi hive-env.sh

指定Hadoop的路径，增加以下行：

HADOOP_HOME=/usr/local/hadoop

2.4配置hive-site.xml

cp hive-default.xml.template hive-site.xml
vi hive-site.xml

首先增加mysql数据库的连接配置：

<property>
  <name>javax.jdo.option.ConnectionURL</name>
  <value>jdbc:mysql://master:3306/hive?createDatabaseIfNotExist=true</value>
  <description>JDBC connect string for a JDBC metastore</description>
</property>
<property>
  <name>javax.jdo.option.ConnectionDriverName</name>
  <value>com.mysql.jdbc.Driver</value>
  <description>Driver class name for a JDBC metastore</description>
</property>
<property>
  <name>javax.jdo.option.ConnectionUserName</name>
  <value>hive</value>
  <description>username to use against metastore database</description>
</property>
<property>
  <name>javax.jdo.option.ConnectionPassword</name>
  <value>hive</value>
  <description>password to use against metastore database</description>
</property>

然后需要修改临时文件夹的路径，找到以下2个配置，并改为正确的路径：

<property> 
 <name>hive.exec.local.scratchdir</name>
 <value>/home/hduser/iotmp</value>
 <description>Local scratch space for Hive jobs</description>
 </property>
 <property>
 <name>hive.downloaded.resources.dir</name>
 <value>/home/hduser/iotmp</value>
 <description>Temporary local directory for added resources in the remote file system.</description>
 </property>

这里因为我当前用户是hduser，所以我在hduser的目录下创建一个iotmp文件夹，并授权：

mkdir -p /home/hduser/iotmp 
chmod -R 775 /home/hduser/iotmp

2.5修改hive-config.sh

进入目录/usr/local/hive/bin

vi hive-config.sh

在该文件的最前面加入以下配置：

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 
export HADOOP_HOME=/usr/local/hadoop 
export HIVE_HOME=/usr/local/hive

2.6下载MySQL JDBC驱动

去MySQL的官网，https://dev.mysql.com/downloads/connector/j/ 下载JDBC驱动到master服务器上。

wget https://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.40.tar.gz

下载完后解压

tar xf mysql-connector-java-5.1.40.tar.gz

然后进入解压后的目录，把jar包复制到Hive/lib目录下面

cp mysql-connector-java-5.1.40-bin.jar /usr/local/hive/lib/

2.7在HDFS中创建目录和设置权限

启动Hadoop，在Hadoop中创建Hive需要用到的目录并设置好权限：

hadoop fs -mkdir /tmp
hadoop fs -mkdir -p /user/hive/warehouse
hadoop fs -chmod g+w /tmp
hadoop fs -chmod g+w /user/hive/warehouse

2.8初始化meta数据库

进入/usr/local/hive/lib目录，初始化Hive元数据对应的MySQL数据库：

schematool -initSchema -dbType mysql

3.使用Hive

在命令行下，输入hive命令即可进入Hive的命令行模式。我们可以查看当前有哪些数据库，哪些表：

show databases;
show tables;

关于hive命令下有哪些命令，具体介绍，可以参考官方文档：https://cwiki.apache.org/confluence/display/Hive/Home

3.1创建表

和普通的SQL创建表没有太大什么区别，主要是为了方便，我们设定用\t来分割每一行的数据。比如我们要创建一个用户表：

create table Users (ID int,Name String) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

3.2插入数据

是insert语句可以插入单条数据：

insert into Users values(1,'Devin');

如果要导入数据

我们在Ubuntu下创建一个name.txt文件，然后编辑其中的内容，添加如下内容：

2 Edward
3 Mindy
4 Dave
5 Joseph
6 Leo

列直接我是用Tab隔开的。

如果想把这个txt文件导入hive的Users 表，那么只需要在hive中执行：

LOAD DATA LOCAL INPATH '/home/hduser/names.txt' into table Users ;

3.3查询数据

仍然是sql语句：

select * from Users ;

当然我们也可以跟条件的查询语句：

select * from Users where Name like 'D%';

3.4增加一个字段

比如我们要增加生日这个字段，那么语句为：

alter table Users add columns (BirthDate date);

3.5查询表定义

我们看看表的结构是否已经更改，查看Users表的定义：

desc Users;

3.6其他

Hive 的详细介绍：请点这里
Hive 的下载地址：请点这里

hive hadoop mysql root 远程访问 sudo mysql数据库

lmjy0

0 关注 0 粉丝 0 动态

关注关注

hdfs、hive、hbase的搭建总结

-- 完全分布式文件系统的名称：schema ip port -->. -- 分布式文件系统的其他路径的所依赖的一个基础路径，完全分布式不能使用默认值，因为临路径不安全，linux系统在重启时，可能会删除此目录下的内容-->. --

eternityzzy 2020-07-19

Hadoop

Zookeeper：用于 Hadoop 的分布式协调服务。Hadoop 的许多组件依赖于 Zookeeper，它运行在计算机集群中，用于管理 Hadoop 集群。像 Pig 一样，Hive 作为一个抽象层工具，吸引了很多熟悉 SQL 而不是 Java 编程

genshengxiao 2020-06-26

Hive安装，以及一些问题处理

把apache-hive-1.2.1-bin.tar.gz上传到linux的/opt/software目录下。注意以tab键间隔。hive> create table student ROW FORMAT DELIMITED FIELDS TERMI

victorzhzh 2020-06-16

hadoop hdfs csv导入hive表

row format delimited fields terminated by ‘,‘ stored as textfile;

archive 2020-05-28

hadoop 伪分布式单机部署练习hive

usermod -a -G hadoop haddop 第一个hadoop是组名，-a 防止其他用户组的hadoop离开，保持旧的用户组拥有hadoop用户状态。但事实上在生产系统里，NameNode、DataNode等进程都应单独配置目录，而且配置的应该

taisenki 2020-05-27

3（Hive）

Hive 运行时，元数据存储在关系型数据库里面。用户接口主要有三个：CLI，Client 和 WUI。其中最常用的是CLI，Cli启动的时候，会同时启动一个Hive副本。Client是Hive的客户端，用户连接至Hive Server。Hive中的元数据包

archive 2020-07-30

Hive函数大全-完整版

现在虽然有很多SQL ON Hadoop的解决方案，像Spark SQL、Impala、Presto等等，但就目前来看，在基于Hadoop的大数据分析平台、数据仓库中，Hive仍然是不可替代的角色。尽管它的相应延迟大，尽管它启动MapReduce的时间相当

成长之路 2020-07-28

hive函数之~hive当中的lateral view 与 explode

lateral view用于和split、explode等UDTF一起使用的，能将一行数据拆分成多行数据，在此基础上可以对拆分的数据进行聚合，lateral view首先为原始表的每行调用UDTF，UDTF会把一行拆分成一行或者多行，lateral vie

taisenki 2020-07-05

hive函数之~窗口函数与分析函数

)row format delimited fields terminated by ‘,‘;第一个参数为列名，第二个参数为往上第n行，第三个参数为默认值。当ORDER BY和窗口从句都缺失, 窗口规范默认是 ROW BETWEEN UNBOUNDED P

tugangkai 2020-07-05

hive函数之~reflect函数

reflect函数可以支持在sql中调用java中的自带函数，秒杀一切udf函数。create table test_udf row format delimited fields terminated by ‘,‘;hive > create ta

SignalDu 2020-07-05

hive函数之~条件函数

‘tom‘ when 2=2 then ‘mary‘ else ‘tim‘ end from tableName;

genshengxiao 2020-07-05

hive函数之~日期函数

语法: datediff返回值: int说明: 返回结束日期减去开始日期的天数。

tomson 2020-07-05

hive函数之~字符串函数

int start, int len)返回值: string说明：返回字符串A从start位置开始，长度为len的字符串。注意，在有些情况下要使用转义字符,类似oracle中的regexp_replace函数。index)返回值: string说明：将字符

zlsdmx 2020-07-05

hive函数之~关系运算

select 1 from tableName where 1 <> 2;hive> select 1 from tableName where 1 < = 1;select 1 from tableName where 2 >

tomson 2020-07-05

Hive使用

大量的hive查询任务，如果用交互式shell来进行输入的话，显然效率及其低下，因此，生产中更多的是使用脚本化运行机制：。hive -e "insert into table t_dest select * from t_src;".

tugangkai 2020-07-04

Hive的安装与启动

<description>JDBC connect string for a JDBC metastore</description>. <description>Driver class name for a JDBC

tomson 2020-07-05

Hive llap服务安装说明及测试（二）

因为Apache Slider 已经不维护了，下面介绍不使用 Slider 的 LLAP使用方式。

xieting 2020-06-28

Hive学习之路（二）Hive安装

bin binary-package-licenses conf examples hcatalog jdbc lib LICENSE NOTICE RELEASE_NOTES.txt scripts. -- 如果 mysql 和 hi

Zhangdragonfly 2020-06-28

（一）hive远程模式搭建

# scp -r /opt/soft/mysql-5.7.18-1.el7.x86_64.rpm-bundle.tar :/usr/ 发安装包。# rpm -qa|grep mariadb 检查：这是离线包安装方式所以要检查并且卸载mariadb. #

成长之路 2020-06-26

Hive学习(二)【数据类型、类型转换】

可以指定字符集。可以使用单引号或者双引号。和c语言中的struct类似，都可以通过“点”符号访问元素内容。MAP是一组键-值对元组集合，使用数组表示法可以访问数据。数组是一组具有相同类型和名称的变量的集合。例如CAST将把字符串‘1‘ 转换成整数1；如果强

tomson 2020-06-26

安科网

基于Ubuntu Hadoop的群集搭建Hive

lmjy0

1.安装MySQL

1.1安装MySQL Server

1.2配置用户名密码

1.3配置远程访问

2.下载并配置Hive

2.1下载Hive

3.1创建表

lmjy0

相关推荐

hdfs、hive、hbase的搭建总结

Hadoop

Hive安装，以及一些问题处理

hadoop hdfs csv导入hive表

hadoop 伪分布式单机部署练习hive

3（Hive）

Hive函数大全-完整版

hive函数之~hive当中的lateral view 与 explode

hive函数之~窗口函数与分析函数

hive函数之~reflect函数

hive函数之~条件函数

hive函数之~日期函数

hive函数之~字符串函数

hive函数之~关系运算

Hive使用

Hive的安装与启动

Hive llap服务安装说明及测试（二）

Hive学习之路（二）Hive安装

（一）hive远程模式搭建

Hive学习(二)【数据类型、类型转换】

lmjy0