Heritrix源码分析(十五) 各种问题总结

woyanyouxin

2010-11-21

http://guoyunsky.iteye.com/blog/802721

开博客以及建立Heritrix 群有一段时间了(这里谢谢大家的关注),这篇博客将整理这段时间所遇到的问题.同时由于自己从今年5月份开始就不怎么接触Heritrix,很多东西开始遗忘(不过里面思想没忘),同时目前的工作也没有必要接触Heritrix,所以不可能向之前写博客那样从源码的角度去考虑了.这里就起个抛砖引玉的作用吧,希望能有点用.这篇博客会不断更新,如有其他问题,请留言......

相关问题:

1.Heritrix散列30个DNS后就结束

2.如何用Heritrix实现增量抓取,也就是抓取更新了的网页

1.Heritrix散列30个DNS后就结束:

总体来说,是30个抓取线程去获取网站数据发生交通堵塞,导致无法获取URL内容,最后都卡死在那里.

没读源码真的很难知道这个原因,好好的URL，比如http://www.heritrix.com,为什么变成dns:heritrix.com。而且跑上30个Heririx就停止？这里先说下为什么会http://www.heritrix.com会变成dns:heritrix.com.大家知道一个URL地址过去都需要通过DNS服务器获取该URL所在的地址,Heritrix也做了这个事情。所以dns:heritrix.com是去进行DNS解析,同时Heritrix会将DNS信息缓存(缓存到BDB数据库),以便下次http://www.heritrix.com/a.html这样的URL(同一个host下)无需再去进行类似的解析,提高效率。同时Heritrix还可以配置缓存的DNS信息的有效期,默认为6小时,见order.xml中的<integername="ip-validity-duration-seconds">86400</integer>接下来说下为什么爬上30个dns:heritrix.comHeritrix就停止。我想你应该改了Heritrix的队列分配策略,也就是order.xml中的<stringname="queue-assignmentpolicy">org.archive.crawler.frontier.HostnameQueueAssignmentPolicy</string>

默认的HostnameQueueAssignmentPolicy是以host作为抓取队列分组依据,通一个host(如以上的www.heritrix.com和www.heritrix.com/a.html)下的URL将会分配进同一个抓取队列.Heritrix通过抓取队列来实现对抓取速度的控制，以防止对一个host的过度抓取(后果很严重，可能对方会封你IP)。正常的HostnameQueueAssignmentPolicy,当你从这个host抓取完一个URL后会计算这个URL抓取的速度,同时和你所配置的抓取速度队列,如果过快,则计算该URl所需要抓取的正常时间,让其等待抓取过快的时间差值(比如按照正常配置，你每秒带宽是50K，而计算出来你抓取的是100K，则会让其等待(100-50)*抓取时间秒).则该抓取队列在该段时间内不会再排放URL，如此做到控制抓取速度.而当你采用第三方的队列分配策略,很有可能打破这种机制,比如网上流行的ELHASH,的确可以提高抓取速度.但当你种子比较少的时候,多个线程一窝蜂的去抓取少量种子就很有可能交通堵塞了,最终是大家都获取不了网页内容,如此也就抽取不出新的URL。如此一来,散列30个DNS:url后Heritrix就自动结束了.

2.如何用Heritrix实现增量抓取,也就是抓取更新了的网页

Heritrix从设计角度是一次性整站复制,所以要实现增量抓取需要改动代码。但Heritrix自身保存了判断是否增量抓取的各种参数,所以可以通过这些参数来判断是否需要增量抓取。我判断增量抓取会经过以下4个环节:

1)判断URl是否抓取过,如抓取过跳到2)继续判断

2)从URl的http-header里获取该URl的last-modified,判断是否有更新.如果有更新则表示需要更新之前的网页.但很多URL可能没有这个值,则跳转到3)

3)该URl内容的MD5值是否更新,如果有更新,则很有可能需要抓取.但很多时候更新了也并不能代表该URl已经更新过,比如里面有广告,广告内容变化.所以进行第四步

4)相似度分析,对他们的网页内容进行相似度分析,这个是最准确的但也是最复杂最耗性能的一步.我目前没有实现.

有了以上4步,我们再来看如何在Heritrix里实现.

heritrix 网站源码 dns url host

安科网

Heritrix源码分析(十五) 各种问题总结

woyanyouxin

woyanyouxin

相关推荐

Heritrix源码分析(七) Heritrix总体介绍

Heritrix源码分析(一) 包介绍

Heritrix源码分析(一) 包介绍

利用 Heritrix 构建特定站点爬虫

heritrix文档上的一个例子，放这备用

网络爬虫heritrix

Heritrix源码分析(十四) 如何让Heritrix不间断的抓取

Heritrix源码分析(九) Heritrix的二次抓取以及如何让Heritrix抓取你不想抓取的URL

Heritrix源码分析(八) Heritrix8个处理器(Processor)介绍

Heritrix源码分析(二) 配置文件order.xml介绍

heritrix 下载不通过服务器缓存

Heritrix 学习笔记1.Heritrix defined codes

Heritrix源码分析(二) 配置文件order.xml介绍

Heritrix多线程的问题

woyanyouxin