NUTCH中的not in gzip format异常处理

liubang000

2011-06-10

Nutch爬虫爬取某网页是出现下列异常：

ERROR http.Http (?:invoke0(?)) - java.io.IOException: unzipBestEffort returned null

ERRORhttp.Http(?:invoke0(?))-atorg.apache.nutch.protocol.http.api.HttpBase.processGzipEncoded(HttpBase.java:472)

ERRORhttp.Http(?:invoke0(?))-atorg.apache.nutch.protocol.http.HttpResponse.<init>(HttpResponse.java:151)

ERRORhttp.Http(?:invoke0(?))-atorg.apache.nutch.protocol.http.Http.getResponse(Http.java:63)

ERRORhttp.Http(?:invoke0(?))-atorg.apache.nutch.protocol.http.api.HttpBase.getProtocolOutput(HttpBase.java:208)

ERROR http.Http (?:invoke0(?)) - at org.apache.nutch.fetcher.Fetcher$FetcherThread.run(Fetcher.java:173)

经过调试发现异常来源于：

java.io.IOException: Not in GZIP format

atjava.util.zip.GZIPInputStream.readHeader(GZIPInputStream.java:137)

atjava.util.zip.GZIPInputStream.<init>(GZIPInputStream.java:58)

atjava.util.zip.GZIPInputStream.<init>(GZIPInputStream.java:68)

该异常原因：

此页面采用这个是一个分段传输，而nutch爬虫则默认采用了非分段式处理，导致构造GZIP时出错，从而影响了后面的GZIP解压失败。

是否是分段传输可以在Http headers里面看到，如果是分段传输则有：transfer-encoding：chunked这样一个响应。

处理方法：

1. 修改接口org.apache.nutch.metadata.HttpHeaders，添加：

public final static String TRANSFER_ENCODING = "Transfer-Encoding";

2. 在nutch中的org.apache.nutch.protocol.http.HttpResponse类中已经提供了分段传输类型的处理方法：

private void readChunkedContent(PushbackInputStream in,  
                                  StringBuffer line)

我们只需要在HttpResponse的构造方法总调用该方法即可，添加如下代码：

String transferEncoding = getHeader(Response.TRANSFER_ENCODING);
      
      if(transferEncoding != null && transferEncoding.equalsIgnoreCase("chunked")){
         StringBuffer line = new StringBuffer();
       this.readChunkedContent(in, line);
        }else{
         readPlainContent(in);
        }

修改完成，运行测试。

NUTCH中的not in gzip format异常处理刚才不能爬取的站点终于可以爬取了

nutch gzip 异常处理 apache

liubang000

0 关注 0 粉丝 0 动态

相关推荐

Hadoop

8.在2008年，Doug加入了Yahoo，开源了Hadoop，在Yahoo期间设计实现了Pig、HBase等框架

HJWZYY 2020-06-21

你的大数据之Hadoop是如何去学习的？Hadoop300集了解一下

HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。Nutch的开发人员完成了相应的开源实现HDFS和

tanxinwhu 2019-08-26

二次开发nutch的恩恩怨怨

今天下午，总算用脚本把自己二次开发的nutch跑起来了。从第一次接触nutch到现在，一年半接近两年的时间了。从开始的一无所知、凑合着用到后来的尝试梳理、阅读源码、放弃使用再到今年的坚定信念来攻克以至今日可以随意的修改满足自己的需求，心理历程不可谓不复杂。

crazyhulu 2014-09-29

开源搜索引擎

开源搜索引擎，或者准确的说开源爬虫系统，目前有nutch和heritrix等，nutch基于hadoop架构，分为1.x和2.x分支。nutch目前用得相对比较多一些。

ach 2014-03-16

运行nutch报错：unzipBestEffort returned null

2014-03-12 16:48:38,031 ERROR http.Http - Failed to get protocol output. nutch1.7\src\plugin\protocol-http\src\java\org\apache\n

Junzizhiai 2014-03-12

开源爬虫框架的优缺点？

开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的？这里按照我的经验随便扯淡一下：上面说的爬虫，基本可以分3类：1.分布式爬虫：Nutch. 3)Nutch虽然有一套插件机制，而且作为亮点

wawaboss 2017-03-22

nutch 2.1 分布式hbase部署

现在网上针对nutch2.0以上版本的部署内容很残缺。经过两天奋战，终于把nutch2.1在hbase上部署成功了！在此与网友分享。保险起见还是采用推荐的hbase0.90.x版本吧。我觉得是因为gora的原因，因为gora的版本已经很久没有更新。-- P

zxiaozhuT 2013-02-28

nutch0.9实现抓取动态网页部署笔记

如果有需要可以继续添加相关的站点.这个地方用nutch1.0怎么都跑不过，只能换回0.9的版本了。这段意思是跳过在连接中存在?一般按照默认的是不能抓取到的。

hanwentan 2011-06-13

利用nutch-1.2和Lucene 搭建自己的搜索平台， Apache Mahout 构建社会化推荐引擎

Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch必须能够做到:. 　　Nutch是基于Lucene的。Lucene为Nutch提供了文本索引和搜索的API。在这种情况下，最好的方式

繌子 2011-04-17

Lucene+Nutch搜索引擎开发一：介绍

本系列文章是Lucene+Nutch学习、实现的记录，适用于有java开发经验以及对搜索引擎有初步了解的读者。Lucene实现了文档编目、建立索引、对内容的检索实现。Nutch是一个开源的第二代Web搜索引擎，实现了网页自动爬去，内容编目，存储，查询，提取

喜糖 2011-02-22

Nutch1.0或者Nutch1.1如何导入MyEclipse与Eclipse?

Nutch1.0或者Nutch1.1如何导入MyEclipse与Eclipse?今天浪费了一天的时间花费在这上面,一开始是用Nutch1.1导入在MyEclipse与Eclipse中的,不断的尝试,不断的调试,上网查阅了太多的文章了,发现按他们每一种的方式

shgege 2011-01-21

web爬虫

web爬虫主要功能是从web中发现，下载以及存储内容。广泛应用于各种搜索引擎中。这个模块还要提取网页中的URL和一些对于索引有用的数据。规范化URL模块，把URL转成标准的格式。URL过滤器，爬虫可以过滤掉不需要的URL。爬虫读取没有访问过的URL，来确定

xiajlxiajl 2010-11-20

Nutch 是一个开源Java 实现的搜索引擎

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch的架构，采用了非常灵活的插件模式，大部分的核心功能，都可以通过组装插件的方式的来完成。1，下载nutch编码，进行编译。2，进

superdullwolf 2016-10-31

windows平台下，使用nutch，得需要cygwin工具作为其模拟linux的运行环境

2，安装完cygwin，确定配置好环境变量，可以输入cygcheck -c cygwin查看版本 [img][/img]，正确之后就可以进行下一步了。3，到nutch官网下载nutch1.6的版本，1.6的自带编译好的bin，所以可以省去像nutch2.

kuihan0 2016-10-28

全文搜索引擎

本文转载自xum2008的博客，主要介绍13款现有的开源搜索引擎，你可以将它们用在你的项目中以实现检索功能。Xapian是一个用C++编写的全文检索程序，它的api和检索原理和lucene在很多方面都很相似，算是填补了lucene在C++中的一个空缺.Nu

leshem 2016-02-17

Google式的搜索引擎实现

Nutch是一个基于Lucene，类似Google的完整网络搜索引擎解决方案，基于Hadoop的分布式处理模型保证了系统的性能，类似Eclipse的插件机制保证了系统的可客户化，而且很容易集成到自己的应用之中。Nutch 0.8 完全使用Hadoop重写了

Harper 2014-12-16

搜索引擎 Nutch

Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch必须能够做到:

ShareCode 2013-12-31

Nutch中MapReduce的分析

Nutch是最早用MapReduce的项目，Nutch的plugin机制吸取了eclipse的plugin设计思路。在Nutch中 MapReduce编程方式占据了其核心的结构大部分。从插入url列表，生成抓取列表，抓取内容，分析处理内容，更新Craw

文洲 2013-08-04

linux nutch1.0安装配置

2，上传到服务器。上传位置：/home/www/，解压nutch-1.0.tar.gz. 3，修改配置文件。在/home/www/nutch目录下新建urls. 新建seed.txt文件，写入要抓去的网站地址。把上面两个文件末尾+都改成+^http://*

陈小冬的技术 2013-03-03

nutch 2.0 search accumulo solr

-- This can also have params like compression, bloom filters -->

年轻就要对味 2012-10-03

liubang000

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号