ruby和pig处理流式文件实例

LzMobileInternet

2019-04-01

大数据操作中涉及到数据清洗步奏还是用脚本处理比较方便，下边介绍一下pig加载hdfs文件后调用ruby脚本处理数据，再返回数据流至pig中处理的一个简单案例。

注意：ruby的流式处理用到wukong这个gem包，相关下载：
https://github.com/mrflip/wukong

pig中加载分布式文件调用ruby流式处理：

代码如下：

log = load '$INFILE' using PigStorage('\t');

define tracking_parser `/usr/ruby parse_click.rb --map` SHIP('parse_click.rb', 'click_tracking.rb');


strmo = stream log through tra_parser;


store strmo into '$OUTFILE' using PigStorage('\t');

代码如下：

require 'wukong'

require 'json'

require './click_tra.rb'

module ParseClick

  class Mapper < Wukong::Streamer::RecordStreamer

    def before_stream

      @bad_count = 0

    end


    def after_stream

      raise RuntimeError, "Exceeded bad records : #{@bad_count}" if @bad_count > 10

    end


    def process *records

      yield ClickTra.new(JSON.parse(records[2])).to_a

    rescue => e

      @bad_count += 1

      warn "Bad record #{e}: #{records[2]}"

    end

  end

end


Wukong.run ParseClick::Mapper, nil

代码如下：

require 'date'

require './models.rb'

class ClickTra

  

  output :ip

  output :c_date

  #output your other atrributes


  def c_date

    click_date.strftime("%Y%m%d").to_i

  end 


  def ip

    browser_ip.to_i

  end


end

其中

strmo = stream log through tra_parser;调用定义的外部程序tra_parser处理log对象。
Wukong.run ParseClick::Mapper, nil执行完后，将ruby执行结果回调pig接收。
store strmo into '$OUTFILE' using PigStorage('\t');做结果存储持久化。

LzMobileInternet

0 关注 0 粉丝 0 动态

相关推荐

2020 10大薪资最高的IT编程语言排名

三百六十行，行行转IT。IT行业自2016年首次超过金融行业以后，一直到现在每年都是稳居高薪第1名的宝座。调查结果显示，在美国，掌握Java语言的开发人员平均工资相较于2019年的118,000美元增长了6%。Java在最流行编程语言中排名第5，根据Sta

PMJ0 2020-10-13

Ruby 3 将于圣诞节发布，松本行弘分享编程语言的困境

Ruby 编程语言的创建者和首席设计师Yukihiro Matsumoto近期在某演讲中分享了 Ruby 3 的一些情况。原本 Ruby 3 计划在东京奥运会前夜发布，但奥运会被推迟到 2021 年，所以一些核心开发者想知道 Ruby 3 是否也会顺理成章

longzhiwen 2020-09-06

5种可能在10年后消失的开发语言

随着时间推移，新的开发语言如雨后春笋一般的涌现出来，程序员们通过这些开发语言找到了更新、更简单的工作方法，其中不乏少数开发语言逐渐成为了技术社区的主流。这一进步带来的其中一个不幸的副作用是一些旧的开发语言因为被取代而进入了历史的垃圾堆。如果一门语言不能随着

yangxingstar 2020-08-31

Ruby 面向对象知识总结

Ruby 是纯面向对象的语言，Ruby 中的一切都是以对象的形式出现。Ruby 中的每个值都是一个对象，即使是最原始的东西：字符串、数字，甚至连 true 和 false 都是对象。类本身也是一个对象，是 Class 类的一个实例。本章将向您讲解所有与 R

LUCIEN0 2020-08-17

深入分析Ruby 变量

变量是持有可被任何程序使用的任何数据的存储位置。Ruby 支持五种类型的变量。一般小写字母、下划线开头：变量。未初始化的全局变量的值为 nil，在使用 -w 选项后，会产生警告。给全局变量赋值会改变全局状态，所以不建议使用全局变量。下面的实例显示了全局变量

huangzihao00 2020-08-17

Ruby 迭代器知识汇总

存储一组数据成员的对象称为集合。在 Ruby 中，数组和哈希可以称之为集合。在这里我们将讨论两种迭代器，each 和 collect。each 迭代器返回数组或哈希的所有元素。each 迭代器总是与一个块关联。值被存储在变量 i 中，然后显示在屏幕上。当您

Jan 2020-08-17

gem install报错 ruby升级

报错原因：安装redis的话，ruby版本最低是2.2.2，而当前版本是2.0.0，所以无法安装。至此，game install redis 报错已解决

AndesStay 2020-06-12

Ruby 多线程

每个进程包含一到多个线程。线程是程序中一个单一的顺序控制流程，在单个程序中同时运行多个线程完成不同的工作,称为多线程。Ruby 中我们可以通过 Thread 类来创建多线程，Ruby的线程是一个轻量级的，可以以高效的方式来实现并行的代码。使用Thread#

afengxg 2020-06-09

Ruby RubyGems

RubyGems 是 Ruby 的一个包管理器，它提供一个分发 Ruby 程序和库的标准格式，还提供一个管理程序包安装的工具。这类似于 Ubuntu 下的apt-get, Centos 的 yum，Python 的 pip。RubyGems大约创建于200

zamesking 2020-06-09

Ruby CGI 编程

Ruby 是一门通用的语言，不仅仅是一门应用于WEB开发的语言，但 Ruby 在WEB应用及WEB工具中的开发是最常见的。使用Ruby您不仅可以编写自己的SMTP服务器，FTP程序，或Ruby Web服务器，而且还可以使用Ruby进行CGI编程。接下来，让

afengxg 2020-06-09

Ruby JSON

本章节我们将为大家介绍如何使用 Ruby 语言来编码和解码 JSON 对象。在使用 Ruby 编码或解码 JSON 数据前，我们需要先安装 Ruby JSON 模块。但是，如果你使用的是最新版本的 Ruby，可能已经安装了 gem，解析来我们就可以使用以下

何志文 2020-06-09

CSS之Sass入门

大家都知道，js 中可以自定义发量，css 仅仅是一个标记语言，不是编程语言，因此不可以自定义发量、不可以引用等等。一种帮助你简化 CSS 工作流程的方式，帮助你更容易维护和开发 CSS 内容。Sass 是这个世界上最成熟、稳定和强大的专业级 CSS 扩展

teresalxm 2020-06-05

How to Fix Slow Code in Ruby

At Shopify, we believe in highly aligned, loosely coupled teams to help us move fast. Since we have many teams working independe

何志文 2020-05-16

ubuntu 16.04 i386 安装 ruby + bundler + rails ; 搭建简单的网站bitbar

sudo apt-get install git-core zlib1g-dev build-essential libssl-dev libreadline-dev libyaml-dev libsqlite3-dev sqlite3 libxml2-d

何志文 2020-05-11

redis集群部署

815 cluster-enabled yes //开启集群。823 cluster-config-file nodes-6056.conf //当前集群主机信息。warning: r

fsl 2020-05-04

Redmine4.x安装及使用心得分享

Redmine是基于ruby语言的开源版的 jira +?Confluence，主要适用于中小团队。目前因内部需要做问题跟踪，新装了一套，这里记录下安装步骤。关于是否使用官方推荐的第三方一键部署：个人不建议使用，一键部署无法自定义目录规划，且一键安装的程序

JOO 2020-04-26

RedisCluster 集群之 Ruby 安装

rvm 1.29.0 by Wayne E. Seguin <>, Michal Papis <> [https://rvm.io/]. Searching for binary rubies, this might take s

倩 2020-04-22

redis集群安装及配置

redis启动redis-server redis-confredis关闭redis-cli shutdown. 如果遇到以下报错，则执行报错中的gpg2 --recv-keys的命令。升级Ruby#安装rubyrvm install 2.4.0#使用新

afanti 2020-04-19

Metasploit profiling工具的利用

大学霸IT达人用户通过使用该工具，可以分析内存和CPU的使用情况。如果要使用profiling工具，则需要安装ruby-prof和ruby-memory-profiler工具。

始终不够 2020-04-10

ruby+watir安装指南

它提供一个分发 Ruby 程序和库的标准格式，还提供一个管理程序包安装的工具。The ‘ffi‘ nativegem requires installed build tools.注意：请按照32为版本，安装64位版本后运行程序会有些ruby组件调用不到；

YukiRain 2020-03-07

LzMobileInternet

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号