提高nutch爬取效率

aoumeior

2012-06-08

关注关注

提高nutch爬取效率

分类：搜索引擎Nutch2011-03-0911:08638人阅读评论(0)收藏举报

Herearethethingsthatcouldpotentiallyslowdownfetching

下面这些是潜在的影响爬取效率的内容：

1)DNSsetup

2)Thenumberofcrawlersyouhave,toomany,toofew.

3)Bandwidthlimitations

4)Numberofthreadsperhost(politeness)

5)Unevendistributionofurlstofetchandpoliteness.

6)Highcrawl-delaysfromrobots.txt(usuallyalongwithanunevendistributionofurls).

7)Manyslowwebsites(againusuallywithanunevendistribution).

8)Downloadinglotsofcontent(PDFS,verylargehtmlpages,againpossiblyanunevendistribution).

9)Others

1）DNS设置

2）你的爬虫数量，太多或太少

3）带宽限制

4）每一主机的线程数

5）要抓取的urls的分配不均匀

6）robots.txt中的高爬取延时（通常和urls的分配不均匀同时出现）

7）有很多比较慢的网页（通常和分配不均匀同时出现）

8）要下载太多的内容（PDF，大的html页面，通常和分配不均匀同时出现）

9）其它

Nowhowdowefixthem

那现在怎样改善它们？

1)HaveaDNSsetuponeachlocalcrawlingmachine,ifmultiplecrawlingmachinesandasinglecentralizedDNSit

canactlikeaDOSattackontheDNSserverslowingtheentiresystem.Wealwaysdidatwolayersetuphitting

firsttothelocalDNScachethentoalargeDNScachelikeOpenDNSorVerizon.

1）在每一个本地的爬虫机器上设置DNS，如果是多个爬取机器和一个单独的DNS中心这种情况，那么它就会像有DOS攻击在DNS服务

器上那样，使整个系统变慢。我们经常设置两层，首先命中本地DNS缓存，然后就是大的DNS缓存，就像OpenDNS或Verizon。

2)Thiswouldbenumberofmaptasks*fetcher.threads.fetch.So10maptasks*20threads=200fetchersat

once.Toomanyandyouoverloadyoursystem,toofewandotherfactorsandthemachinesitesidle.Youwillneed

toplayaroundwiththissettingforyoursetup.

2)这将是map任务数乘以fetcher.threads.fetch属性值的数量。所以10个map任务*20个线程=一次200个爬取列表。太多的话会超

过你系统的负担，太少的话就会使一些机器闲置。你需要认真考虑在你的环境下如何设置这些属性。

3)Bandwidthlimitations.Usentop,ganglia,andothermonitoringtoolstodeterminehowmuchbandwidthyouare

using.Accountforinandoutbandwidth.Asimpletest,fromaserverinsidethefetchingnetworkbutnotitself

fetching,ifitisveryslowconnectingtoordownloadingcontentwhenfetchingisoccurring,itisagoodbet

youaremaxingoutbandwidth.Ifyousethttptimeoutaswedescribelaterandaremaxingyourbandwidth,you

willstartseeingmanyhttptimeouterrors.

3）带宽限制，用ntop，ganglia和其它监控软件来测定你使用了多少的带宽。计算输入和输出的带宽。可以做一个简单的测试，

用抓取网络中一台不用作爬虫的服务器中，如果它与其中一台爬虫机器连接时或当那台机器抓取时从中下载信息时非常慢，这时

你就可以加大带宽。如果你像我后来说的那样设置http的超时时间并且增加了你的带宽，你会开始看到很多http超时的错误。

4)Politenessalongwithunevendistributionofurlsisprobablythebiggestlimitingfactor.Ifonethreadis

processingasinglesiteandtherearealotofurlsfromthatsitetofetchallotherthreadswillsitidle

whilethatonethreadfinishes.Somesolutions,usefetcher.server.delaytoshortenthetimebetweenpagefetches

andusefetcher.threads.per.hosttoincreasethenumberofthreadsfetchingforasinglesite(thiswouldstill

beinthesamemaptaskthoughandhencethesameJVMChildTaskprocess).Ifincreasingthis>0youcouldalso

setfetcher.server.min.delaytosomevalue>0forpolitenesstominandmaxboundtheprocess.

4）urls分配的不均匀很有可能是限制性能的一个最大的因素。如果一个线程正在处理一个网站并且那个网站还有很多url等待抓

取，那么其它线程就会闲置直到那个线程完成抓取。一些解决方法是，使用fetcher.server.delay来缩短网页抓取之间的时间间

隔，和使用fetcher.threads.per.host来增加同一网站抓取的线程数（这仍然在同一个map任务中，因此也是在同一个JVM中的子

任务中处理）。如果把这些属性都设置为大于0，你也可以设置fetcher.server.min.delay属性大于0来设置处理的最小和最大的

界限。

5)Fetchingalotofpagesfromasinglesiteoralotofpagesfromafewsiteswillslowdownfetching

dramatically.Forfullwebcrawlsyouwantanevendistributionsoallfetchingthreadscanbeactive.Setting

generate.max.per.hosttoavalue>0willlimitthenumberofpagesfromasinglehost/domaintofetch.

5）在一个网站上抓取大量的网页或在少量网站上抓取大量的网页将显著地降低抓取的速度。对于全网爬取，你希望用分布式环境

来使所有抓取线程活动。设置generate.max.per.host大于0将限制在同一网站/域名抓取网页的数量。

6)Crawl-delaycanbeusedandisobeyedbynutchinrobots.txt.Mostsitesdon'tusethissettingbutafew

(somemaliciousdo).Ihaveseencrawl-delaysashighas2daysinseconds.Thefetcher.max.crawl.delayvariable

willignorepageswithcrawldelays>x.Iusuallysetthisto10seconds,defaultis30.Evenat10secondsif

youhavealotofpagesfromasitefromwhichyoucanonlycrawl1pageevery10secondsitisgoingtobeslow.

Ontheflipside,settingthistoalowvaluewillignoreandnotfetchthosepages.

6）爬取延迟。大多数网站不使用这些设置只有少数使用（一些恶意的网站）。我见过爬取延迟每秒最长延迟2天的。

fetcher.max.crawl.delay属性将忽略爬取延迟大于x的页面。我经常把它设置成10秒，默认是30秒。尽管设置为10秒，如果你在

某个网站上有大量的页面要爬取，但你只能每10秒爬取一个页面，这样也是很慢的。另一方面，把它的值设置过小将忽略该页面

并且不抓取这些网页。

7)Sometimes,manytimeswebsitesarejustslow.Settingalowvalueforhttp.timeouthelps.Thedefaultis10

seconds.Ifyoudon'tcareandwantasmanypagesasfastaspossible,setitlower.Somewebsites,diggfor

instance,willbandwidthlimityouontheirsideonlyallowingxconnectionspergiventimeframe.Soevenifyou

onlyhavesay50pagesfromasinglesite(whichIstillthinkistomany).Itmaybewaiting10secondsoneach

page.Theftp.timeoutcanalsobesetiffetchingftpcontent.

7）有时，网页刚好很慢。设置http.timeout一个低点的值就有助于这种情况。它的默认值为10秒。如果你不在意并想所有网页都

尽可能的快，设置得小点。一些网站。例如digg，会在网站中限制你的带宽并且只允许在某个时间段内存在x个到你机器的连接。所以即使你只在一个网站中爬取50个网页（我仍然认为太多了）。这样将在每一页面中等待10秒。ftp.timeout也可以用来设置抓取ftp的内容时的时间间隔。

8)Lotsofcontentmeansslowerfetching.IfdownloadingPDFsandothernon-htmldocumentsthisisespecially

true.Toavoidnon-htmlcontentyoucanusetheurlfilters.Iprefertheprefixandsuffixfilters.The

http.content.limitandftp.content.limitcanbeusedtolimittheamountofcontentdownloadedforasingle

document.

8）大量的内容意味着要降低抓取的速度。特别是下载PDF或其它非html的文件时。为了避免下载非html的内容，你可以使用url过

滤器。我更喜欢prefix和suffix过滤器。http.content.limit和ftp.content.limit属性可以限制一个文档中下载数据的多少。

9)Otherthingsthatcouldbecausingslowfetching:

Maxthenumberofopensockets/filesonamachine.YouwillstartseeingIOerrorsorcan'topensocketerrors.

Poorrouting.Badroutersorhomeroutersmightnotbeabletohandlethenumberofconnectionsgoingthroughat

once.Anincorrectroutingsetupcouldalsobecausingproblemsbutthoseareusuallymuchmorecomplexto

diagnose.Usenetworktraceandmappingtoolsifyouthinkthisishappening.Upstreamroutingcanalsobea

problemfromyournetworkprovider.

Badnetworkcards.Ihaveseennetworkcardsfliponcetheyreachacertainbandwidthpoint.Thiswasmore

prevalenton,atthetime,newergigabitcards.Notusuallymyfirstthoughtbutalwaysapossibility.Use

tcpdumpandnetworkmonitoringtoolsonthesingleinterface.

9）其它可能导致抓取变慢的因素：

一台机器最大可打开的socket或文件的多少。你可能会开始看到IO错误或不能打开socket的错误。低效的路由。坏的或家里的路

由不能控制同一时间大量连接的建立。一个错误的路由设置也可能导致问题但这些问题通常很难发现。如果你认为是这个问题，

可以用网络跟踪和映射工具来查找。反向的路由则可能是你网络供应商的问题。坏的网卡。我曾经见过一些网卡突然达到了某个

带宽值。这个问题在使用新的网卡时更加普遍。这通常不是我首先想到的但是通常是可能会出现的。可以使用tcpdump和网络监控

工具来检查那个网络接口。

Thatisaboutitfrommyperspective.Feelfreetoaddanythingifanybodyelsethinksofotherthings.

这些是我的观点。如果大家还想到其它的因素，欢迎补充。

dns nutch

aoumeior

0 关注 0 粉丝 0 动态

关注关注

12道腾讯前端面试真题及答案整理

年底了，又到了跳槽季啦，该刷题走起了。这里总结了一些被问到可能会懵逼的面试真题，有需要的可以看下～。DNS 是什么-- Domain Name System，域名系统，作为域名和IP地址相互映射的一个分布式数据库。但a标签的默认启动在HTTPS不起作用。这

localhost0 2020-11-12

什么是 DNS，它是如何工作的？

域名系统是互联网的基础之一，然而大多数不懂网络的人可能并不知道他们每天都在使用它来工作、查看电子邮件或在智能手机上浪费时间。就其本质而言，DNS 是一个与数字匹配的名称目录。这些数字，在这里指的是 IP 地址，计算机用 IP 地址来相互通信。大多数对 DN

jlccwss 2020-09-11

HA（高可用）就像套娃，像胖子，剥掉一层还有一层

目前HTTP协议，乃至WebSocket协议，乃至采用了MQTT协议的WebSocket协议，都不可避免的使用了Nginx。所谓病从口入，祸从口出。作为入口，Nginx承担的责任非常的重要。假如某个时刻不能用了，那可真是灾难。我们通常希望在高可用的时候，同

lwplvx 2020-09-07

Kubernetns LB方案：无需云厂商的动态DNS和负载均衡

本文转载自微信公众号「新钛云服」，作者祝祥翻译。我们经常谈论托管Kubernetes或在云中运行的Kubernetes，但我们也在非云的环境上运行Kubernetes。您可能还会听到很多有关云供应商集成的经典案例：您可以获取无密码凭据来访问托管服务，无

YzhilongY 2020-08-31

在Linux上挖掘DNS应答中的秘密

dig 是一个强大而灵活的工具，用于查询域名系统服务器。在这篇文章中，我们将深入了解它的工作原理以及它能告诉你什么。它执行 DNS 查询，并显示参与该过程的名称服务器返回的应答以及与搜索相关的细节。系统管理员和DNS管理员经常使用dig来帮助排除 DNS

KevinXC 2020-08-12

Coredns+Nodelocaldns cache解决Coredns域名解析延迟

目前18.6版本和之前的coredns都会出现超时5s的情况，那么为什么会出现coredns超时的情况发生？在Kubernetes中，Pod访问DNS服务器的最常见方法是通过服务抽象。因此，在尝试解释问题之前，了解服务的工作原理以及因此在Linux内核中如

oLeiShen 2020-08-01

你在浏览器输入一个URL都经历了什么过程

当电脑把一个域名解析完之后,它把这个这个域名和那个主机Ip地址相关联起来了,电脑吧这个关系存到DNS缓存表中,下次电脑再输入www.baidu.com的时候,电脑通过查找DNS缓存,就可以知道这个域名对应的IP地址了,不再进行域名解析了,提高了效率。Ip地

dahege 2020-08-01

linux wget无法解析主机地址

resolv.conf是DNS域名解析的配置文件，它的格式很简单，每行以一个关键字开头，后接配置参数。resolv.conf的关键字主要有四个，分别是：

windzoone 2020-07-29

一文入门DNS？从访问GitHub开始

大家都是做开发的，都有GitHub的账号，在日常使用中肯定会遇到这种情况，在不修改任何配置的情况下，有时可以正常访问GitHub，有时又直接未响应，来一起捋捋到底是为啥。虽然很戳心，但好歹能展示一部分。本地域名解析服务系统：本地域名系统LDNS一般都是本地

travelinrain 2020-07-27

DNS域名解析过程

当在浏览器中输入URL时，DNS解析是怎样的的过程呢？浏览器缓存有大小和时间限制，域名被缓存的时间限制可以通过TTL属性来设置。

leodengzx 2020-07-18

一文搞明白DNS的来龙去脉

到 20 世纪 70 年代末，ARPAnet 是一个拥有几百台主机的很小很友好的网络。仅需要一个名为 HOSTS.TXT 的文件就能容纳所有需要了解的主机信息：它包含了所有连接到 ARPAnet 的主机名字到地址的映射。HOSTS.TXT 文件是由 SR

hxf0 2020-07-10

使用coredns 的template plugin实现一个xip 服务

xip dns 服务在我们的实际开发中，还是挺有用的，我们可以基于dns模式方便的进行软件开发，同时。结合nginx 的虚拟主机，可以实现灵活的软件部署，以下是基于coredns 的template plugin 实现一个。我们基于正则以及templat

oLeiShen 2020-06-25

nginx 代理 coredns dns 服务

今天有写过一个简单的基于nginx 的stream 代理dns server的服务，以下是集成coredns 的一个demo. 同时也包含了consul 以及使用coredns 的rewrite 以及loadbalance 插件。对于dalongrong.

oLeiShen 2020-06-25

基于nginx proxy dns server

原理实际行就是stream模式，因为nginx 支持基于stream 模式的lb同时支持以下是一个简单的配置。有点不太好的，默认的不支持health check，当然我们可以基于openresty 的stream 模块进行扩展，这样就可以更好的利用dns

dahege 2020-06-25

【扫盲】ip、域名、DNS、url之间的关系

我们知道，在Internet上有千百万台主机，为了区分这些主机，人们给每台主机都分配了一个专门的地址，称为IP地址。IP地址由4部分数字组成，每部分都不大于256，各部分之间用小数点分开。我们的每个虚拟主机用户，都分配一个永久的IP地址。虽然可以通过IP地

dahege 2020-06-22

Kubernetes（k8s）安装dns附件组件以及使用

一旦一个service被创建，该service的service ip和service port等信息都可以被注入到pod中供它们使用。kubernetes主要支持两种service发现机制，第一种是环境变量，第二种是DNS。没有dns服务的时候，kuber

MissFuTT 2020-06-21

一文搞懂什么是vlan、三层交换机、网关、DNS、子网掩码、MAC地址

VLAN中文是“虚拟局域网”。LAN可以是由少数几台家用计算机构成的网络，也可以是数以百计的计算机构成的企业网络。VLAN所指的LAN特指使用路由器分割的网络——也就是广播域。听上面的概念，肯定有不少朋友是一头雾水的，什么是虚拟局域网?造成了网络带宽和CP

ationwork 2020-06-16

HTTPS的由来详述，数字证书实现HTTPS

最近看过几篇文章，内容是关于“全民HTTPS”的。为什么HTTPS，突然会受到如此多业内人士的青睐呢？它与HTTP又有怎样的区别呢？带着这个问题，我查看了很多网上的资料，但是太多的专业词汇，让我感到头疼，很难理解。所以，我又耐着性子，参照翟志军的《也许，这

kenson 2020-06-12

Windows Server 2012R2 实现AD双域控制器互为冗余

两台域空互为冗余，通过dns服务实现。dns都装在每台的域控上，A断网，B接管域空；但不知为啥pc端nslookup出来的dns仍旧是A的，或许没有实现切换。

chwzmx 2020-06-09

域名解析-DNS转化

域名，是由一串用点分隔的名字组成的互联网上某台计算机或某组计算机的标识，它的目的是为了方便人们更简单便捷地访问互联网上的服务。在实际的系统实现中，域名通过DNS系统转化为服务器的IP地址，以方便机器通过IP进行寻址和通信。上述行为，我们称之为域名解析。作为

tianchaoshangguo 2020-06-08

安科网

提高nutch爬取效率

aoumeior

aoumeior

相关推荐

12道腾讯前端面试真题及答案整理

什么是 DNS，它是如何工作的？

HA（高可用）就像套娃，像胖子，剥掉一层还有一层

Kubernetns LB方案：无需云厂商的动态DNS和负载均衡

在Linux上挖掘DNS应答中的秘密

Coredns+Nodelocaldns cache解决Coredns域名解析延迟

你在浏览器输入一个URL都经历了什么过程

linux wget无法解析主机地址

一文入门DNS？从访问GitHub开始

DNS域名解析过程

一文搞明白DNS的来龙去脉

使用coredns 的template plugin实现一个xip 服务

nginx 代理 coredns dns 服务

基于nginx proxy dns server

【扫盲】ip、域名、DNS、url之间的关系

Kubernetes（k8s）安装dns附件组件以及使用

一文搞懂什么是vlan、三层交换机、网关、DNS、子网掩码、MAC地址

HTTPS的由来详述，数字证书实现HTTPS

Windows Server 2012R2 实现AD双域控制器互为冗余

域名解析-DNS转化

aoumeior