网络爬虫策略介绍

网络爬虫策略介绍

Web爬虫(Crawler,Robot,Bot,Spider)与爬取(Crawling),被认为所谓的SEO学习的第一步。由于现在各大搜索引擎提倡通过sitemap主动提交内容,避免一些重要内容没有被及时抓取取到或者由于被搜索引擎大量抓取而影响服务器性能,所以网络爬虫原理对SEO显得已经并不是那么重要了,特别是实时搜索的出现。不过这里还是要说下爬虫爬取策略,进一步了解搜索引擎,有助于良好的设计网站。无论百度爬虫还是Google爬虫策略应该类似的,只是技术实现不同。

爬虫抓取策略介绍

      Google去年在其官方博客声称已经发现了一万亿的独立URL,面对如此庞大的Web,,分布式的增量爬虫系统是相当的复杂。Google爬虫为了节省带宽,采用了Crawl Caching Proxy(缓存代理),避免Google多种爬虫(GoogleBot,GoogleBlogsearch Bot,GoogleNews Bot等等)重复爬取同一页面。现在网上复制内容或者同一内容不同表现形式导致大量重复内容,爬虫面临的问题就是减少大量重复内容的抓取

      由于爬虫系统相当复杂,这里主要介绍爬虫的一些爬取策略。对于搜索引擎而言,爬虫最重要的效率,一个重要的评价标准就是爬虫开销,Dasgupta等人将爬虫开销定义为:

爬虫开销=重复抓取的老页面数/发掘新页面数

看得出来,以最快的速度抓取最重要的、最新的页面,才是最好的爬虫策略。网上各种爬虫介绍文章可能都提到过爬取策略,如广度优先、最佳优先,或者还有线性以及最新的OPIC(On-Line Page Importance Computation)策略等等,其实现在基本上采用混合策略,对每个页面有一个优先级,Google爬虫对页面的爬取优先级考虑以下几点因素:

     1.查询驱动的爬取,对于一个查询,页面与查询的相关性高低决定了页面被爬取的优先级,但是由于在页面未被爬取前无法判定相关性,只能通过已爬取的其他页面来判断未爬取的页面的相关性,如指向该页面的链接、锚文本等来决定。这个爬取策略可能特别适合现在新闻之类的实时搜索,当突发性的用户热门查询发生时,爬虫可能赋予一些包含相关内容页面一个很高的优先级,快速爬取和更新热门内容页面,可以快速满足用户的需求。

     2. 反向链接数,一个面被很多页面或者被重要页面指向,这个页面被爬取的优先级越高,这个也适合新闻之类的实时内容,一些热门内容被快速复制,产生大量的反向链接或者被大型门户网站指向,这些页面可能被赋予很高的爬取权重。

     3.PR值,一个页面的PR,与上面的纯粹的反向链接计数不同,这个全局考虑页面的重要性,当然这个因素的更新的时间比较长。

     4.前向链接数,也就是出链数量,这个页面出链数量很大,指向大量页面,有可能获得很多新页面的链接,所以也被赋予很高的优先级。

   5.URL:路径深度是一个考虑的因素,一般重要页面的路径深度都比较浅,爬取的优先级要高。 

 以上只是其中的一些因素,跟搜索引擎排名一样,一个有效爬虫系统必须考虑多个因素才能合理抓取,提高爬取效率。新的策略也将继续出现,如RPR(Reverse Pagerank),也叫反向PR(逆PR),就是将整个互联网的链接方向倒过来,出链变成入链,计算出来的PR值,RPR越高爬取优先级越高。

from:http://www.cnblogs.com/shuchao/archive/2009/12/26/seo-intro-crawler-spider-strategy.html

相关推荐