Pig系列的学习文档

ydbjason

2016-01-14

Pig系列的学习文档，希望对大家有用，感谢关注散仙！
Apache Pig的前世今生
Apache Pig如何自定义UDF函数？
Apache Pig5行代码怎么实现Hadoop的WordCount？
Apache Pig入门学习文档（一）
Apache Pig学习笔记（二）
Apache Pig学习笔记之内置函数（三）

玩转大数据系列之Apache Pig如何与Apache Lucene集成（一）
玩转大数据系列之Apache Pig如何与Apache Solr集成（二）
玩转大数据系列之Apache Pig如何与MySQL集成（三）
玩转大数据系列之如何给Apache Pig自定义存储形式（四）
玩转大数据系列之Apache Pig如何通过自定义UDF查询数据库（五）
如何使用Pig集成分词器来统计新闻词频？

Pig系列的学习文档

在Hadoop的生态系统中，如果我们要离线的分析海量的数据，大多数人都会选择Apache Hive或Apache Pig，在国内总体来说，Hive使用的人群占比比较高，而Pig使用的人相对来说，则少的多，这并不是因为Pig不成熟，不稳定，而是因为Hive提供了类数据库SQL的查询语句，使得大多人上手Hive非常容易，相反而Pig则提供了类Linux shell的脚本语法，这使得大多数人不喜欢使用。

如果在编程界，统计一下会SQL和会shell，那个人数占的比重大，散仙觉得，毫无疑问肯定是SQL语句了。因为有相当一部分编程人员是不使用Linux的，而是微软的的一套从C#,到ASP.NET，SQL Server再到Windows的专用服务器。

Pig系列的学习文档

OK，扯远了，赶紧回来，使用shell的攻城师们，我觉得都会爱上它的，因为在linux系统中，没有比shell更简洁易用了，如果再配上awk和sed更是如虎添翼了。

我们都知道shell是支持函数调用的，这一点和JavaScript是非常类似的，通过定义函数我们可以重复使用某个功能，而不用再次大量编码，其中，把变的东西，分离成参数，不变的东西定义成语句，这样以来，就能够降低编码的冗余和复杂性，试想一下，如果Java里，没有方法，那将会是多么不可思议的一件事。

Pig作为类shell的语言，也支持了函数的方式，封装某个功能，以便于我们重用，这一点相比Hive来说，是一个很好的优势。

下面先看下定义Pig函数（也叫宏命令）定义的语法：

DEFINE (macros) ：
支持的参数：
alias pig的标量引用
整形（integer）
浮点型（float）
字符串（String）

下面看几个例子，让我们迅速对它熟悉并掌握，先看下我们的测试数据：

1,张三,男,23,中国  
2,张三,女,32,法国  
3,小花,男,20,英国  
4,小红,男,16,中国  
5,小红,女,25,洛阳  
6,李静,女,25,中国河南安阳  
7,王强,男,11,英国  
8,张飞,男,20,美国

1,张三,男,23,中国
2,张三,女,32,法国
3,小花,男,20,英国
4,小红,男,16,中国
5,小红,女,25,洛阳
6,李静,女,25,中国河南安阳
7,王强,男,11,英国
8,张飞,男,20,美国

再看下pig脚本：

--定义pig函数1 支持分组统计数量  
DEFINE group_and_count (A,group_key,number_reduces) RETURNS B {  
   
 d = group $A by $group_key parallel $number_reduces;  
   
 $B = foreach d generate group, COUNT($1);  
  
};  
  
  
--定义pig函数2 支持排序  
--A 关系引用标量  
--order_field 排序的字段  
--order_type 排序方式 desc ? asc ?  
--storedir 存储的HDFS路径  
--空返回值  
define my_order(A,order_field,order_type,storedir) returns void {  
   
  d = order $A by $order_field $order_type ;  
  store  d into '$storedir' ;    
   
  
};   
  
  
--定义pig函数3，支持filter过滤，以及宏命令里面调用  
  
--定义过滤操作  
define  myfilter (A,field,count) returns B{  
  
   b= filter $A by $field > $count ;  
  
   $B = group_and_count(b,'sex',1);  
  
};  
  
  
a = load  '/tmp/dongliang/318/person' using PigStorage(',') AS (id:int,name:chararray,sex:chararray,age:int,address:chararray) ;  
  
  
--------pig函数1测试-----------------  
  
--定义按名字分组  
--bb = group_and_count(a,name,1);  
--定义按性别分组  
--cc = group_and_count(a,sex,1);  
--dump bb;  
--dump cc;  
  
-------pig函数2测试------------------  
  
--按年龄降序  
--my_order(a,age,'desc','/tmp/dongliang/318/z');  
  
  
  
--dump a;  
  
  
-------pig函数3测试------------------  
  
 --过滤年龄大于20的，并按性别，分组统计数量  
 r =  myfilter(a,'age',20);  
  
  
dump r;

--定义pig函数1 支持分组统计数量
DEFINE group_and_count (A,group_key,number_reduces) RETURNS B {
 
 d = group $A by $group_key parallel $number_reduces;
 
 $B = foreach d generate group, COUNT($1);

};


--定义pig函数2 支持排序
--A 关系引用标量
--order_field 排序的字段
--order_type 排序方式 desc ? asc ?
--storedir 存储的HDFS路径
--空返回值
define my_order(A,order_field,order_type,storedir) returns void {
 
  d = order $A by $order_field $order_type ;
  store  d into '$storedir' ;  
 

}; 


--定义pig函数3，支持filter过滤，以及宏命令里面调用

--定义过滤操作
define  myfilter (A,field,count) returns B{

   b= filter $A by $field > $count ;

   $B = group_and_count(b,'sex',1);

};


a = load  '/tmp/dongliang/318/person' using PigStorage(',') AS (id:int,name:chararray,sex:chararray,age:int,address:chararray) ;


--------pig函数1测试-----------------

--定义按名字分组
--bb = group_and_count(a,name,1);
--定义按性别分组
--cc = group_and_count(a,sex,1);
--dump bb;
--dump cc;

-------pig函数2测试------------------

--按年龄降序
--my_order(a,age,'desc','/tmp/dongliang/318/z');



--dump a;


-------pig函数3测试------------------

 --过滤年龄大于20的，并按性别，分组统计数量
 r =  myfilter(a,'age',20);


dump r;

在上面的脚本中，散仙定义了三个函数，
（1）分组统计数量
（2）自定义输出存储
（3）自定义过滤并结合（1）统计数量

通过这3个例子，让大家对pig函数有一个初步的认识，上面的函数和代码都在一个脚本中，这样看起来不太友好，而且重用性，还没有得到最大发挥，实际上函数和主体脚本是可以分离的，再用的时候，我们只需要导入函数脚本，即可拥有所有的函数功能，这样一来，函数脚本被分离到主脚本外面，就大大增加了函数脚本的重用性，我们也可以再其他脚本中引用，而且函数脚本中也可以再次引用其他的函数脚本，但前提是不能够，递归引用，这样Pig语法在执行时，是会报错的，下面看下分离后的脚本文件：

一：函数脚本文件

--定义pig函数1 支持分组统计数量  
--A 关系引用标量  
--group_key 分组字段  
--使用reduce的个数  
--返回最终的引用结果  
DEFINE group_and_count (A,group_key,number_reduces) RETURNS B {  
   
 d = group $A by $group_key parallel $number_reduces;  
   
 $B = foreach d generate group, COUNT($1);  
  
};  
  
  
--定义pig函数2 支持排序  
--A 关系引用标量  
--order_field 排序的字段  
--order_type 排序方式 desc ? asc ?  
--storedir 存储的HDFS路径  
--空返回值  
define my_order(A,order_field,order_type,storedir) returns void {  
   
  d = order $A by $order_field $order_type ;  
  store  d into '$storedir' ;    
   
  
};   
  
  
--定义pig函数3，支持filter过滤，以及宏命令里面调用  
--A 关系引用标量  
--field 过滤的字段  
--count 阈值  
--返回最终的引用结果  
  
define  myfilter (A,field,count) returns B{  
  
   b= filter $A by $field > $count ;  
  
   $B = group_and_count(b,'sex',1);  
  
};  
  
  
  
[search@dnode1 pigmacros]$

--定义pig函数1 支持分组统计数量
--A 关系引用标量
--group_key 分组字段
--使用reduce的个数
--返回最终的引用结果
DEFINE group_and_count (A,group_key,number_reduces) RETURNS B {
 
 d = group $A by $group_key parallel $number_reduces;
 
 $B = foreach d generate group, COUNT($1);

};


--定义pig函数2 支持排序
--A 关系引用标量
--order_field 排序的字段
--order_type 排序方式 desc ? asc ?
--storedir 存储的HDFS路径
--空返回值
define my_order(A,order_field,order_type,storedir) returns void {
 
  d = order $A by $order_field $order_type ;
  store  d into '$storedir' ;  
 

}; 


--定义pig函数3，支持filter过滤，以及宏命令里面调用
--A 关系引用标量
--field 过滤的字段
--count 阈值
--返回最终的引用结果

define  myfilter (A,field,count) returns B{

   b= filter $A by $field > $count ;

   $B = group_and_count(b,'sex',1);

};



[search@dnode1 pigmacros]$

二，主体脚本文件

--导入pig公用的函数库  
  
import 'function.pig' ;  
  
a = load  '/tmp/dongliang/318/person' using PigStorage(',') AS (id:int,name:chararray,sex:chararray,age:int,address:chararray) ;  
  
  
--------pig函数1测试-----------------  
  
--定义按名字分组  
--bb = group_and_count(a,name,1);  
--定义按性别分组  
--cc = group_and_count(a,sex,1);  
--dump bb;  
--dump cc;  
  
  
-------pig函数2测试------------------  
  
--按年龄降序  
--my_order(a,age,'desc','/tmp/dongliang/318/z');  
--dump a;  
  
  
-------pig函数3测试------------------  
  
 --过滤年龄大于20的，并按性别，分组统计数量  
 r =  myfilter(a,'age',20);  
 dump r;

--导入pig公用的函数库

import 'function.pig' ;

a = load  '/tmp/dongliang/318/person' using PigStorage(',') AS (id:int,name:chararray,sex:chararray,age:int,address:chararray) ;


--------pig函数1测试-----------------

--定义按名字分组
--bb = group_and_count(a,name,1);
--定义按性别分组
--cc = group_and_count(a,sex,1);
--dump bb;
--dump cc;


-------pig函数2测试------------------

--按年龄降序
--my_order(a,age,'desc','/tmp/dongliang/318/z');
--dump a;


-------pig函数3测试------------------

 --过滤年龄大于20的，并按性别，分组统计数量
 r =  myfilter(a,'age',20);
 dump r;

需要注意的是，导入的函数文件，需要用单引号引起来，这样我们就完成了pig函数的重用，是不是非常类似shell的语法呢？

apache shell hive

安科网

Pig系列的学习文档

ydbjason

ydbjason

相关推荐

.NET Core下使用Kafka的方法步骤

解决PHPstudy Apache无法启动的问题【亲测有效】

Web安全：文件解析漏洞

终于有人把Nginx说清楚了，图文详解！

为什么Java仍将是未来的主流语言？

如何使用Apache Web服务器来安装和配置网站？

CentOS 8 Apache 安装后 SSL 重定向提示证书错误

如何使用 Apache Directory Studio 连接 JumpCloud

初学者和专业技术人员使用的十大机器学习软件

每个Java开发人员都应该知道的10大Github仓库

漫话：应用程序被拖慢？罪魁祸首竟然是Log4j！

JSP动态网页开发原理详解

centos8使用Apache httpd2.4.37安装web服务器的步骤详解

Tomcat启动springboot项目war包报错：启动子级时出错的问题

如何通过Apache在本地配置多个虚拟主机

Apache Shiro 反序列化(CVE-2016-4437)复现

Apache Shiro 反序列化(CVE-2016-4437)复现

Apache DolphinScheduler 诞生记

【Shiro】05 自定义Realm认证实现

Web容器Web服务器及常见的Web容器有哪些？

ydbjason