Hadoop skip mode 代码要点

NA

2013-08-11

如果Hadoop数据集中有不合规格的数据，或者某些数据会引起程序崩溃，可以设置跳过模式，程序代码可以不处理这些异常，把异常抛出去让程序崩溃，hadoop框架会重新执行程序，并跳过会记录，参看http://hadoop.apache.org/common/docs/current/mapred_tutorial.html#Skipping+Bad+Records 。但是这里没有给出代码例子，我尝试过几次都不能正常工作。经过一番排查，终于确定了可以正常工作的代码模式。

下面是可以工作的代码片断：

public class PwdSorter extends Configured implements Tool {

......

public int run(String[] args) throws Exception {

SkipBadRecords.setMapperMaxSkipRecords(getConf(), 5);

JobConf jobConf = new JobConf(getConf(), getClass());

......

}

public static void main(String[] args)throws Exception {

int res = ToolRunner.run(new PwdSorter(), args);

System.exit(res);

}

}

要点是 SkipBadRecords.setMapperMaxSkipRecords 要在 new JobConf 之前。如果这两个语句的顺序颠倒的话，skip mode不能正常工作。，缺省错误数据记录在 output/_logs/skip 目录，存储的格式是sequence file。

另外，如果用新的API，即 org.hadoop.mapreduce 包，这个包中没有 SkipBadRecords 类，用 mapred.SkipBadRecords 也能跳过怀记录。（修正：后来又试了一下，新的API Skip mode没成功，可能还是不能正常工作的，以前是记录错误的。）

NA

0 关注 0 粉丝 0 动态

相关推荐

如何评估机器学习模型的性能

您可以整天训练有监督的机器学习模型，但是除非您评估其性能，否则您永远无法知道模型是否有用。这个详细的讨论回顾了您必须考虑的各种性能指标，并对它们的含义和工作方式提供了直观的解释。罗宾和山姆都开始为工科大学准备入学考试。他们俩全年学习了几乎相同的时间，并参加

xceman 2020-09-22

Python初学者请注意！别这样直接运行python命令

Python已经成为全球最受欢迎的编程语言之一。原因当然是Python简明易用的脚本语法，只需把一段程序放入.py文件中，就能快速运行。而且Python语言很容易上手模块。这样设计的好处是，初学者能够非常方便地执行命令。但是对攻击者来说，这等于是为恶意程序

bcbeer 2020-08-27

知识点记录

express的中间件中执行异步函数，执行顺序不会按照洋葱模型，异步的执行结果有可能被放到最后，response之前。这是由于，其中间件执行机制，递归回调中没有等待中间件中的异步函数执行完毕，就是没有await中间件异步函数。express内置了很多中间件

风萧萧梦潇 2020-08-17

WPF Bezier Curve 贝塞尔曲线工具（有源码可分享）

第一：有需要的同学可以留下邮箱，我看到后会发给源码。

成长共勉 2020-07-29

OpenGL 六 - 3D数学基础 - 向量、矩阵及OpenGL中的变换

关于矩阵和向量的相关知识，大家可能和我一样毕业后几乎就慢慢遗忘干净了。但是，既然学过，回忆起来其实并不太难。而且，即使没有学过，也并不影响我们对相关API的使用。当然基础知识的理解会帮助我们弄明白和更好的进行OpenGL的开发工作。GLTools库中的Ma

夕加加 2020-07-20

问题：xcrun: error: invalid active developer path

解决：安装xcode-select. # xcode-select --install

LuckyDeng 2020-07-08

git常用操作

There is no tracking information for the current branch.Please specify which branch you want to merge with.See git-pull for deta

huangchunxia 2020-07-08

vuex及其属性应用

Vuex 是一个专为 Vue.js 应用程序开发的状态管理构架。它采用统一式存储管理和维护所有组件的可变化的状态。也可以理解为是一种开发模式或框架，通过状态集中管理驱动组件的变化，应用级的状态集中放在store中，改变状态的方式是提交mutations，异

lbPro0 2020-07-05

为什么是link-visited-hover-active原理这样的特殊

通常我们在设置链接的一些伪类样式时，要让不同的状态显示正确的样式，我们需要按一定的顺序设置这些伪类的样式。这里我就按css2规范中推荐的顺序进行介绍，即link-visited-hover-active，可记为LoVe-HAte。下面我们分别来看看特殊性、

葉無聞 2020-07-05

python基础

　　 IronPython：Python的C#实现，IronPython将Python代码编译成C#字节码，然后在CLR上运行。　　　　　　　　　　　　　　　　　‘if‘, ‘import‘, ‘in‘, ‘is‘, ‘lambda‘, ‘not‘, ‘o

万里之书 2020-07-04

css基础教程

HTML 标签原本被设计为用于定义文档内容。通过使用 <h1>、<p>、<table> 这样的标签，HTML 的初衷是表达“这是标题”、“这是段落”、“这是表格”之类的信息。同时文档布局由浏览器来完成，而不使用任何的格式

冰蝶 2020-07-04

pytest 用例编写规则、命令行执行用例、用例执行的先后顺序

文件名以 test_*.py 开头和 *_test.py 结尾的文件函数以test_开头类以Test开头，且不能包含 __init__ 方法类里面的方法以test_开头所有的包 pakege 必项要有__init__.py 文件断言必须使用asser

yuzhongdelei0 2020-07-04

FOG COMPUTING研究中的初级概念

”Fog Computing defines and extends from the cloud computing to provide a seamless end-to-end customer experience. Fog Computing

meiseeny 2020-06-28

常用正则表达式大全

提取信息中的图片链接：(s|S)(r|R)(c|C) *= *(‘|")?+?提取信息中的中国固定电话号码：?提取信息中的浮点数（即小数）：(-?匹配Email地址的正则表达式：\w+@\w+.\w+*

RuoShangM 2020-06-28

oracle 临时表空间、数据表空间、创建用户名与密码、赋予用户权限

2.确保路径存在，比如也就是你要保存文件的路径存在/*分为四步*//*第1步：创建临时表空间 */

bianxq 2020-06-28

saltstack

在主机上安装saltstack 首先需要epel源，其次安装：yum install salt-master -y 开机自启动：chkconfig salt-master on. vi /etc/salt/mast 文件里取消这

80327065 2020-06-28

策略模式

在策略模式中，一个类的行为或其算法可以在运行时更改。这种类型的设计模式属于行为型模式。在策略模式中，我们创建表示各种策略的对象和一个行为随着策略对象改变而改变的 context 对象。使用Context来查看当它改变策略Strategy时的行为变化。

Codeeror 2020-06-28

LayUI--页面元素

将栅格放入一个带有 class="layui-container" 的特定的容器中，以便在小屏幕以上的设备中固定宽度，让列可控。为了丰富网页布局，简化 HTML/CSS 代码的耦合，并提升多终端的适配能力，layui 引进了一套具备响应

somyjun 2020-06-25

SQL Server：SQL Like 通配符特殊用法：Escape

最后，看一个更加复杂的匹配，注意“-”这个也是特殊字符也需转义。下面这个就是要匹配包括“纺梦”这两个字，但这两个字只能是与“+-*/”这四个字符相连或是单独存在。如果这里的“纺梦”是任意中文字符就没办法去处理了。

xuanlvhaoshao 2020-06-16

tomcat 乱码

解决办法在C:\tomcat\apache-tomcat-8.5.56\conf 目录下找到logging.properties 文件用编辑器打开，本例子是使用“Notepad++”编辑器打开。

zhangxiaocc 2020-06-16

NA

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号