hive数据导入

QAnyang

2013-01-06

关注关注

转自:http://blog.csdn.net/yfkiss/article/details/7776406

可以通过多种方式将数据导入hive表

1.通过外部表导入

用户在hive上建external表，建表的同时指定hdfs路径，在数据拷贝到指定hdfs路径的同时，也同时完成数据插入external表。

例如：

编辑文件test.txt

$cattest.txt

1hello

2world

3test

4case

字段之间以'\t'分割

启动hive：

$hive

建external表：

hive>CREATEEXTERNALTABLEMYTEST(numINT,nameSTRING)

>COMMENT'thisisatest'

>ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'

>STOREDASTEXTFILE

>LOCATION'/data/test';

Timetaken:0.714seconds

hive>showtables;

mytest

partition_test

partition_test_input

test

Timetaken:0.07seconds

hive>descmytest;

numint

namestring

Timetaken:0.121seconds|

数据拷贝到hdfs：

$hadoopfs-puttest.txt/data/test

查看hive表数据：

hive>select*frommytest;

1hello

2world

3test

4case

Timetaken:0.375seconds

hive>selectnumfrommytest;

TotalMapReducejobs=1

LaunchingJob1outof1

......

TotalMapReduceCPUTimeSpent:510msec

Timetaken:27.157seconds

这种方式常常用于当hdfs上有一些历史数据，而我们需要在这些数据上做一些hive的操作时使用。这种方式避免了数据拷贝开销

2.从本地导入

数据不在hdfs上，直接从本地导入hive表

文件/home/work/test.txt内容同上

建表：

hive>CREATETABLEMYTEST2(numINT,nameSTRING)

>COMMENT'thisisatest2'

>ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'

>STOREDASTEXTFILE;

Timetaken:0.077seconds

导数据入表：

hive>LOADDATALOCALINPATH'/home/work/test.txt'INTOTABLEMYTEST2;

Copyingdatafromfile:/home/work/test.txt

Copyingfile:file:/home/work/test.txt

Loadingdatatotabledefault.mytest2

Timetaken:0.24seconds

查看数据：

hive>select*fromMYTEST2;

1hello

2world

3test

4case

Timetaken:0.11seconds

这种方式导入的本地数据可以是一个文件，一个文件夹或者通配符，需要注意的是，如果是文件夹，文件夹内不能包含子目录，同样，通配符只能通配文件。

3.从hdfs导入

上述test.txt文件已经导入/data/test

则可以使用下述命令直接将数据导入hive表：

hive>CREATETABLEMYTEST3(numINT,nameSTRING)

>COMMENT"thisisatest3"

>ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'

>STOREDASTEXTFILE;

Timetaken:4.735seconds

hive>LOADDATAINPATH'/data/test/test.txt'INTOTABLEMYTEST3;

Loadingdatatotabledefault.mytest3

Timetaken:0.337seconds

hive>select*fromMYTEST3;

1hello

2world

3test

4case

Timetaken:0.227seconds

4.从其它表导入数据：

hive>CREATEEXTERNALTABLEMYTEST4(numINT);

Timetaken:0.091seconds

hive>FROMMYTEST3test3

>INSERTOVERWRITETABLEMYTEST4

>selecttest3.numwherename='world';

TotalMapReducejobs=2

LaunchingJob1outof2

Numberofreducetasksissetto0sincethere'snoreduceoperator

StartingJob=job_201207230024_0002,TrackingURL=http://localhost:50030/jobdetails.jsp?jobid=job_201207230024_0002

KillCommand=/home/work/hadoop/hadoop-1.0.3/libexec/../bin/hadoopjob-Dmapred.job.tracker=localhost:9001-killjob_201207230024_0002

HadoopjobinformationforStage-1:numberofmappers:1;numberofreducers:0

2012-07-2318:59:02,365Stage-1map=0%,reduce=0%

2012-07-2318:59:08,417Stage-1map=100%,reduce=0%,CumulativeCPU0.62sec

2012-07-2318:59:09,435Stage-1map=100%,reduce=0%,CumulativeCPU0.62sec

2012-07-2318:59:10,445Stage-1map=100%,reduce=0%,CumulativeCPU0.62sec

2012-07-2318:59:11,455Stage-1map=100%,reduce=0%,CumulativeCPU0.62sec

2012-07-2318:59:12,470Stage-1map=100%,reduce=0%,CumulativeCPU0.62sec

2012-07-2318:59:13,489Stage-1map=100%,reduce=0%,CumulativeCPU0.62sec

2012-07-2318:59:14,508Stage-1map=100%,reduce=100%,CumulativeCPU0.62sec

MapReduceTotalcumulativeCPUtime:620msec

EndedJob=job_201207230024_0002

EndedJob=-174856900,jobisfilteredout(removedatruntime).

Movingdatato:hdfs://localhost:9000/tmp/hive-work/hive_2012-07-23_18-58-44_166_189728317691010041/-ext-10000

Loadingdatatotabledefault.mytest4

Deletedhdfs://localhost:9000/user/hive/warehouse/mytest4

Tabledefault.mytest4stats:[num_partitions:0,num_files:1,num_rows:0,total_size:2,raw_data_size:0]

1Rowsloadedtomytest4

MapReduceJobsLaunched:

Job0:Map:1AccumulativeCPU:0.62secHDFSRead:242HDFSWrite:2SUCESS

TotalMapReduceCPUTimeSpent:620msec

Timetaken:30.663seconds

hive>select*frommytest4;

Timetaken:0.103seconds

hive hdfs

QAnyang

0 关注 0 粉丝 0 动态

关注关注

hdfs、hive、hbase的搭建总结

-- 完全分布式文件系统的名称：schema ip port -->. -- 分布式文件系统的其他路径的所依赖的一个基础路径，完全分布式不能使用默认值，因为临路径不安全，linux系统在重启时，可能会删除此目录下的内容-->. --

eternityzzy 2020-07-19

hadoop hdfs csv导入hive表

row format delimited fields terminated by ‘,‘ stored as textfile;

archive 2020-05-28

Hive架构

前面我们讲解了hive是什么，下面我们接着来看一下hive的架构。在讲解hive的架构前，我们先看一下hadoop的生态系统图，看一下hive到底在hadoop生态系统中占据着什么位置。将物理的计划提交给yarn进行执行。我们来解释下什么是元数据。这些就组

zzjmay 2020-05-17

spark利用sparkSQL将数据写入hive两种通用方式实现及比较

第二种方式是利用sparkSQL将获取的数据Rdd转换成dataFrame，再将dataFrame写成缓存表，最后利用sparkSQL直接插入hive表中。这两种方式各有各自的优点。但大多数开发者更倾向于后者一次编码一步到位的方式。而对于利用sparkSQ

tugangkai 2020-05-09

3（Hive）

Hive 运行时，元数据存储在关系型数据库里面。用户接口主要有三个：CLI，Client 和 WUI。其中最常用的是CLI，Cli启动的时候，会同时启动一个Hive副本。Client是Hive的客户端，用户连接至Hive Server。Hive中的元数据包

archive 2020-07-30

Hive函数大全-完整版

现在虽然有很多SQL ON Hadoop的解决方案，像Spark SQL、Impala、Presto等等，但就目前来看，在基于Hadoop的大数据分析平台、数据仓库中，Hive仍然是不可替代的角色。尽管它的相应延迟大，尽管它启动MapReduce的时间相当

成长之路 2020-07-28

hive函数之~hive当中的lateral view 与 explode

lateral view用于和split、explode等UDTF一起使用的，能将一行数据拆分成多行数据，在此基础上可以对拆分的数据进行聚合，lateral view首先为原始表的每行调用UDTF，UDTF会把一行拆分成一行或者多行，lateral vie

taisenki 2020-07-05

hive函数之~窗口函数与分析函数

)row format delimited fields terminated by ‘,‘;第一个参数为列名，第二个参数为往上第n行，第三个参数为默认值。当ORDER BY和窗口从句都缺失, 窗口规范默认是 ROW BETWEEN UNBOUNDED P

tugangkai 2020-07-05

hive函数之~reflect函数

reflect函数可以支持在sql中调用java中的自带函数，秒杀一切udf函数。create table test_udf row format delimited fields terminated by ‘,‘;hive > create ta

SignalDu 2020-07-05

hive函数之~条件函数

‘tom‘ when 2=2 then ‘mary‘ else ‘tim‘ end from tableName;

genshengxiao 2020-07-05

hive函数之~日期函数

语法: datediff返回值: int说明: 返回结束日期减去开始日期的天数。

tomson 2020-07-05

hive函数之~字符串函数

int start, int len)返回值: string说明：返回字符串A从start位置开始，长度为len的字符串。注意，在有些情况下要使用转义字符,类似oracle中的regexp_replace函数。index)返回值: string说明：将字符

zlsdmx 2020-07-05

hive函数之~关系运算

select 1 from tableName where 1 <> 2;hive> select 1 from tableName where 1 < = 1;select 1 from tableName where 2 >

tomson 2020-07-05

Hive使用

大量的hive查询任务，如果用交互式shell来进行输入的话，显然效率及其低下，因此，生产中更多的是使用脚本化运行机制：。hive -e "insert into table t_dest select * from t_src;".

tugangkai 2020-07-04

Hive的安装与启动

<description>JDBC connect string for a JDBC metastore</description>. <description>Driver class name for a JDBC

tomson 2020-07-05

Hive llap服务安装说明及测试（二）

因为Apache Slider 已经不维护了，下面介绍不使用 Slider 的 LLAP使用方式。

xieting 2020-06-28

Hive学习之路（二）Hive安装

bin binary-package-licenses conf examples hcatalog jdbc lib LICENSE NOTICE RELEASE_NOTES.txt scripts. -- 如果 mysql 和 hi

Zhangdragonfly 2020-06-28

Hadoop

Zookeeper：用于 Hadoop 的分布式协调服务。Hadoop 的许多组件依赖于 Zookeeper，它运行在计算机集群中，用于管理 Hadoop 集群。像 Pig 一样，Hive 作为一个抽象层工具，吸引了很多熟悉 SQL 而不是 Java 编程

genshengxiao 2020-06-26

（一）hive远程模式搭建

# scp -r /opt/soft/mysql-5.7.18-1.el7.x86_64.rpm-bundle.tar :/usr/ 发安装包。# rpm -qa|grep mariadb 检查：这是离线包安装方式所以要检查并且卸载mariadb. #

成长之路 2020-06-26

Hive学习(二)【数据类型、类型转换】

可以指定字符集。可以使用单引号或者双引号。和c语言中的struct类似，都可以通过“点”符号访问元素内容。MAP是一组键-值对元组集合，使用数组表示法可以访问数据。数组是一组具有相同类型和名称的变量的集合。例如CAST将把字符串‘1‘ 转换成整数1；如果强

tomson 2020-06-26

安科网

hive数据导入

QAnyang

QAnyang

相关推荐

hdfs、hive、hbase的搭建总结

hadoop hdfs csv导入hive表

Hive架构

spark利用sparkSQL将数据写入hive两种通用方式实现及比较

3（Hive）

Hive函数大全-完整版

hive函数之~hive当中的lateral view 与 explode

hive函数之~窗口函数与分析函数

hive函数之~reflect函数

hive函数之~条件函数

hive函数之~日期函数

hive函数之~字符串函数

hive函数之~关系运算

Hive使用

Hive的安装与启动

Hive llap服务安装说明及测试（二）

Hive学习之路（二）Hive安装

Hadoop

（一）hive远程模式搭建

Hive学习(二)【数据类型、类型转换】

QAnyang