Pig到底是干什么的

Nicolelovesmath

2016-01-10

Pig到底是干什么的。

Pig最早是雅虎公司的一个基于Hadoop的并行处理架构，后来Yahoo将Pig捐献给Apache（一个开源软件的基金组织）的一个项目，由Apache来负责维护，Pig是一个基于 Hadoop的大规模数据分析平台，它提供的SQL-like语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口，这一点和FaceBook开源的Hive（一个以SQL方式，操作hadoop的一个开源框架）一样简洁，清晰，易上手！

那么雅虎公司主要使用Pig来干什么呢？

1）吸收和分析用户的行为日志数据（点击流分析、搜索内容分析等），改进匹配和排名算法，以提高检索和广告业务的质量。
2）构建和更新search index。对于web-crawler抓取了的内容是一个流数据的形式，这包括去冗余、链接分析、内容分类、基于点击次数的受欢迎程度计算(PageRank)、最后建立倒排表。
3）处理半结构化数据订阅（data seeds）服务。包括：deduplcaitin（去冗余），geographic location resolution，以及 named entity recognition.

使用Pig来操作hadoop处理海量数据，是非常简单的，如果没有Pig，我们就得手写MapReduce代码，这可是一件非常繁琐的事，因为MapReduce的任务职责非常明确，清洗数据得一个job，处理得一个job，过滤得一个job，统计得一个job，排序得一个job，编写DAG(带先后顺序依赖的)作业很不方便，这还可以接受，但是每次只要改动很小的一个地方，就得重新编译整个job，然后打成jar提交到Hadoop集群上运行，是非常繁琐的，调试还很困难，所以，在现在的大互联网公司或者是电商公司里，很少有纯写MapReduce来处理各种任务的，基本上都会使用一些工具或开源框架来操作。

随着，数据海啸的来临，传统的DB(Oracle、DB2)已经不能满足海量数据处理的需求，MapReduce逐渐成为了数据处理的事实标准，被应用到各行各业中。所以，我们不再期望所有的客户都能快速开发应用相关代码，只能把客户的工作变得简单，就像使用SQL语言，经过简单培训就可以“云”上操作。

Pig就是为了屏蔽MapReduce开发的繁琐细节，为用户提供Pig Latin这样近SQL语言处理能力，让用户可以更方便地处理海量数据。Pig将SQL语句翻译成MR的作业的集合，并通过数据流的方式将其组合起来。

Pig的一个简单处理流程，如下所示：

Pig到底是干什么的
执行引擎如下所示：

在Pig里面，每一步操作，都是一个数据流，非常容易理解，你想要什么，它就能得到什么，即使不能得到，我们也可以通过轻松扩展UDF来实现，比SQL更容易理解，每一步要做什么，非常容易上手和学习，在大数据时代，了解和使用Pig来分析海量数据是非常容易的。

最后告诉大家一个好消息，在最新的Pig(0.14)发行版里，有两个重要的特性：
（1）支持Pig运行在Tez上
（2）支持Orc格式的存储

大数据

安科网

Pig到底是干什么的

Nicolelovesmath

Nicolelovesmath

相关推荐

docker容器与宿主机的数据交互方式总结

分布式文档存储数据库之MongoDB备份与恢复的实践详解

分布式文档存储数据库之MongoDB分片集群的问题

详解Vue数据驱动原理

vue+echarts+datav大屏数据展示及实现中国地图省市县下钻功能

THINKPHP5分页数据对象处理过程解析

需要知识的后深度学习时代，如何高效自动构建知识图谱

人工智能技术如何落地交通出行？

将云技术带入数据中心-走向数据驱动型业务的旅程

联想持续发力智能物联，构建新基建时代下的行业新引擎

数据科学面试中应了解的十种机器学习概念

Forrester发布全栈公有云开发平台报告，腾讯云再次入选领导者象限

雾计算在物联网中的应用

AI格局正在从“数据”转变为“知识”

SAP AMDP介绍 - ABAP托管的HANA数据库过程

数据骗子无处不在，教你拆穿所谓“万金油”

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中处理缺失值的9种方法

人工智能和机器学习如何从物联网数据中提取关键见解

IT打工人，AI来“抢”你饭碗了！这次从数据中心下手

Nicolelovesmath