搜索引擎蜘蛛爬虫原理

greatking

2010-07-22

关注关注

copy:http://www.cublog.cn/u/15138/showart_408982.html

1聚焦爬虫工作原理及关键技术概述

网络爬虫是一个自动提取网页的程序，它为搜索引擎从Internet网上下载网页，是搜索引擎的重要组成。

传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，

不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。

聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，

保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，

并重复上述过程，直到达到系统的某一条件时停止，另外，所有被爬虫抓取的网页将会被系统存贮，

进行一定的分析、过滤，并建立索引，以便之后的查询和检索；

对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

相对于通用网络爬虫，聚焦爬虫还需要解决三个主要问题：

(1)对抓取目标的描述或定义；

(2)对网页或数据的分析与过滤；

(3)对URL的搜索策略。

抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制订的基础。

而网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。

这两个部分的算法又是紧密相关的。

抓取目标描述

现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念3种。

基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。根据种子样本获取方式可分为：

（1）预先给定的初始抓取种子样本；

（2）预先给定的网页分类目录和与分类目录对应的种子样本，如Yahoo!分类结构等；

（3）通过用户行为确定的抓取目标样例，分为：

a)用户浏览过程中显示标注的抓取样本；

b)通过用户日志挖掘得到访问模式及相关样本。

其中，网页特征可以是网页的内容特征，也可以是网页的链接结构特征，等等。

现有的聚焦爬虫对抓取目标的描述或定义可以分为基于目标网页特征，基于目标数据模式和基于领域概念三种。

基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。

具体的方法根据种子样本的获取方式可以分为：

（1）预先给定的初始抓取种子样本；

（2）预先给定的网页分类目录和与分类目录对应的种子样本，如Yahoo!分类结构等；

（3）通过用户行为确定的抓取目标样例。其中，网页特征可以是网页的内容特征，也可以是网页的链接结构特征，等等。

基于目标数据模式的爬虫针对的是网页上的数据，所抓取的数据一般要符合一定的模式，或者可以转化或映射为目标数据模式。

另一种描述方式是建立目标领域的本体或词典，用于从语义角度分析不同特征在某一主题中的重要程度。

3网页搜索策略

网页的抓取策略可以分为深度优先、广度优先和最佳优先三种。

深度优先在很多情况下会导致爬虫的陷入(trapped)问题，目前常见的是广度优先和最佳优先方法。

3.1广度优先搜索策略

广度优先搜索策略是指在抓取过程中，在完成当前层次的搜索后，才进行下一层次的搜索。

该算法的设计和实现相对简单。在目前为覆盖尽可能多的网页，一般使用广度优先搜索方法。也有很多研究将广度优先搜索策略应用于聚焦爬虫中。

其基本思想是认为与初始URL在一定链接距离内的网页具有主题相关性的概率很大。

另外一种方法是将广度优先搜索与网页过滤技术结合使用，先用广度优先策略抓取网页，再将其中无关的网页过滤掉。

这些方法的缺点在于，随着抓取网页的增多，大量的无关网页将被下载并过滤，算法的效率将变低。

3.2最佳优先搜索策略

最佳优先搜索策略按照一定的网页分析算法，预测候选URL与目标网页的相似度，或与主题的相关性，并选取评价最好的一个或几个URL进行抓取。

它只访问经过网页分析算法预测为“有用”的网页。存在的一个问题是，在爬虫抓取路径上的很多相关网页可能被忽略，

因为最佳优先策略是一种局部最优搜索算法。因此需要将最佳优先结合具体的应用进行改进，以跳出局部最优点。

将在第4节中结合网页分析算法作具体的讨论。研究表明，这样的闭环调整可以将无关网页数量降低30%~90%。

4网页分析算法

网页分析算法可以归纳为基于网络拓扑、基于网页内容和基于用户访问行为三种类型。

4.1基于网络拓扑的分析算法

基于网页之间的链接，通过已知的网页或数据，来对与其有直接或间接链接关系的对象（可以是网页或网站等）作出评价的算法。

又分为网页粒度、网站粒度和网页块粒度这三种。

4.1.1网页(Webpage)粒度的分析算法

PageRank和HITS算法是最常见的链接分析算法，两者都是通过对网页间链接度的递归和规范化计算，得到每个网页的重要度评价。

PageRank算法虽然考虑了用户访问行为的随机性和Sink网页的存在，但忽略了绝大多数用户访问时带有目的性，即网页和链接与查询主题的相关性。

针对这个问题，HITS算法提出了两个关键的概念：权威型网页（authority）和中心型网页（hub）。

基于链接的抓取的问题是相关页面主题团之间的隧道现象，即很多在抓取路径上偏离主题的网页也指向目标网页，

局部评价策略中断了在当前路径上的抓取行为。文献[21]提出了一种基于反向链接（BackLink）的分层式上下文模型（ContextModel），

用于描述指向目标网页一定物理跳数半径内的网页拓扑图的中心Layer0为目标网页，将网页依据指向目标网页的物理跳数进行层次划分，

从外层网页指向内层网页的链接称为反向链接。

4.1.2网站粒度的分析算法

网站粒度的资源发现和管理策略也比网页粒度的更简单有效。网站粒度的爬虫抓取的关键之处在于站点的划分和站点等级(SiteRank)的计算。

SiteRank的计算方法与PageRank类似，但是需要对网站之间的链接作一定程度抽象，并在一定的模型下计算链接的权重。

网站划分情况分为按域名划分和按IP地址划分两种。文献[18]讨论了在分布式情况下，通过对同一个域名下不同主机、服务器的IP地址进行站点划分，

构造站点图，利用类似PageRank的方法评价SiteRank。同时，根据不同文件在各个站点上的分布情况，构造文档图，

结合SiteRank分布式计算得到DocRank。文献[18]证明，利用分布式的SiteRank计算，不仅大大降低了单机站点的算法代价，

而且克服了单独站点对整个网络覆盖率有限的缺点。附带的一个优点是，常见PageRank造假难以对SiteRank进行欺骗。

4.1.3网页块粒度的分析算法

在一个页面中，往往含有多个指向其他页面的链接，这些链接中只有一部分是指向主题相关网页的，或根据网页的链接锚文本表明其具有较高重要性。

但是，在PageRank和HITS算法中，没有对这些链接作区分，因此常常给网页分析带来广告等噪声链接的干扰。

在网页块级别(Blocklevel)进行链接分析的算法的基本思想是通过VIPS网页分割算法将网页分为不同的网页块(pageblock)，

然后对这些网页块建立pagetoblock和blocktopage的链接矩阵，分别记为Z和X。于是，

在pagetopage图上的网页块级别的PageRank为Wp=X×Z；

在blocktoblock图上的BlockRank为Wb=Z×X。

已经有人实现了块级别的PageRank和HITS算法，并通过实验证明，效率和准确率都比传统的对应算法要好。

4.2基于网页内容的网页分析算法

基于网页内容的分析算法指的是利用网页内容（文本、数据等资源）特征进行的网页评价。网页的内容从原来的以超文本为主，

发展到后来动态页面（或称为HiddenWeb）数据为主，后者的数据量约为直接可见页面数据（PIW，PubliclyIndexableWeb）的400~500倍。

另一方面，多媒体数据、WebService等各种网络资源形式也日益丰富。因此，基于网页内容的分析算法也从原来的较为单纯的文本检索方法，

发展为涵盖网页数据抽取、机器学习、数据挖掘、语义理解等多种方法的综合应用。本节根据网页数据形式的不同，

将基于网页内容的分析算法，归纳以下三类：第一种针对以文本和超链接为主的无结构或结构很简单的网页；

第二种针对从结构化的数据源（如RDBMS）动态生成的页面，其数据不能直接批量访问；

第三种针对的数据界于第一和第二类数据之间，具有较好的结构，显示遵循一定模式或风格，且可以直接访问。

搜索引擎基本工作原理搜索引擎技术网页抓取搜索引擎原理 url

greatking

0 关注 0 粉丝 0 动态

关注关注

搜索引擎技术之网络爬虫

网络爬虫技术是搜索引擎架构中更为根本的数据技术，通过网络爬虫技术，我们可以将互联网中数以百亿计的网页信息保存到本地，形成一个镜像文件，为整个搜索引擎提供数据支撑。网络爬虫获取网页信息的方式和我们平时使用浏览器访问网页的工作原理是完全一样的，都是根据HTTP

mzdanvy 2018-08-07

浅析新版百度搜索引擎工作原理

近日，新版百度搜索引擎正式上线了，貌似除了少敲一个回车键和导航改到搜索框下方，其他没什么改变，其实未必是这样的，在新版的搜索引擎出来之前，搜索引擎在算法中就不断在完善，搜索引擎已经开始通过网站综合水平来判断排名，而不是单一的做内容、外链、点击率来提高排名，

enjoyhot 2014-08-25

科普：搜索引擎的基本工作原理

今天江西SEO曾庆平写篇科普文，讲讲搜索引擎的技术机理和市场竞争的一些特点。当然，作为从事或有兴趣从事流量运营的朋友，是可以用另一个角度去理解本文。搜索引擎的核心技术架构，大体包括以下三块，第一，是蜘蛛/爬虫技术；第二，是索引技术；第三是查询展现的技术；

ibatsiSpring 2016-12-21

Lucene构建个人搜索引擎解析

Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。Lucene是一套用于全文检索和搜寻的开源程式库，由Apache软件基金会支持和提供。Lucene提供了一个简单却

athrenzala 2019-06-29

搜索引擎优化seo基础 SEM搜索引擎营销秘籍

1）了解搜索引擎如何抓取网页和如何索引网页。你需要知道一些搜索引擎的基本工作原理，各个搜索引擎之间的区别，搜索机器人如何进行工作，搜索引擎如何对搜索结果进行排序等等。2）Meta标签优化。主要包括主题，网站描述，和关键词。3）如何选取关键词并在网页中放置

leshem 2011-01-02

WEB前端面试题汇总整理02

b当浮动元素与非浮动元素相邻时，这个3像素的Bug就会出现，它会偏移3像素。c.当子元素浮动未知高度时，使父容器适应子元素的高度bugoverflow:auto;——-让父容器自适应子元素的高度。在IE6会自动扩展父层元素的高度，而IE8和FF等浏览器加上

看上去很美 2019-06-26

初学者应该如何学习SEO?学习SEO必备的7个技能

seo在前些年是最重要的推广手段之一，试想一下只要把网站排名做上去，每天等着用户主动找上门就可以了，还是一件非常爽的事情。但是这几年新媒体的出现，让seo竞争变的少了很多，相反的，现在去做seo会比前几年轻松许多。在seo优化过程中，html代码是直接给蜘

xruidlw 2017-01-17

关于关键词，真正的含义你又了解多少

所以在抓的过程中就有了处理这个过程，处理的过程一般我们称为它是一个算法，英文叫做Algorithm。在5个动作中，搜索引擎端会根据用户端在浏览器中的输入进行排名的展现。随后，关键词分类的核心是与网站主题是密切相关的。在不同的页面上，比如说左上角的上海地铁首

mzdanvy 2013-09-04

网站优化经验之谈：网站SEO具体优化流程详细解析

想要做好SEO首先要明白搜索引擎基本的工作原理。下面是一些具体的优化流程。网站结构优化网站建设的时候文件目录要呈树状结构，同时目录不能超过三级，文件命名也要有规律。SEO的基础知识还有很多，这是主要的几个方面。SEO的方法并不是一成不变的，需要你不断的去寻

daojun 2013-07-28

每一个Java工程师都应该掌握的全文搜索引擎

但是该 Solr 搜索云项目不稳定，经常查询不出来数据，需要手动全量同步，而且是其他团队在维护，依赖性太强，导致 Solr 服务一出问题，我们的项目也基本瘫痪，因为所有的依赖查询都无结果数据了。所以考虑开发一个适配层，如果 Solr 搜索出问题，自动切换到

陈佳惠 2019-06-15

全文搜索引擎选 ElasticSearch 还是 Solr？

什么是全文搜索为什么要用全文搜索搜索引擎Lucene，Solr，ElasticSearch ？Elasticsearch vs Solr 的选择总结最近项目组安排了一个任务，项目中用到了基于 Solr 的全文搜索，但是该 Solr 搜索云项目不稳定，经常查

雨林星空 2019-05-04

golang-构建搜索引擎微服务riot

内容型网站，比如论坛、知识库或者文档查询等，均需要根据用户输入的内容，搜索匹配的文档。这时我们可以搭建一些高性能的搜索服务，来给主站提供“搜索”功能支持。使用golang写的开源搜索引擎 riot 吸引了我们的目光，高性能、可扩展、支持中文搜索。首先需要安

xruidlw 2019-03-09

全文搜索引擎选 ElasticSearch 还是 Solr？

ach 2019-04-03

Apache Solr:提升检索体验为什么是Solr

主要因为，它建立在Lucene之上；基于全文索引；提供RESTful API；使用门槛并不高；已经在市场上有广泛的应用。我希望能结合我项目的实际使用，把这次经历记录下来，同时尽可能丰富中文关于中文方面的资料。更多Solr相关教程见以下内容：

cheado 2016-12-19

SEO新手浅谈搜索引擎工作原理

也许很多人会问，现在互联网发展到今时今日，已成为了区别于现实世界的另一个世界，也就是虚拟的世界，那么他的网页数量到目前究竟有多少呢？这些网页，组成不同的网站，存储在世界各地不同的服务器上，并且分布在世界各地数据中心和机房里。也许还有大部分人认为，当我们在搜

live00 2011-06-28

全文搜索引擎选ElasticSearch还是Solr？

最近项目组安排了一个任务，项目中用到了基于 Solr 的全文搜索，但是该 Solr 搜索云项目不稳定，经常查询不出来数据，需要手动全量同步。而且它还是其他团队在维护，依赖性太强，导致 Solr 服务一出问题，我们的项目也基本瘫痪，因为所有的依赖查询都无结果

一个人寂寞 2018-12-28

安科网

搜索引擎蜘蛛爬虫原理

greatking

greatking

相关推荐

搜索引擎技术之网络爬虫

浅析新版百度搜索引擎工作原理

科普：搜索引擎的基本工作原理

Lucene构建个人搜索引擎解析

搜索引擎优化seo基础 SEM搜索引擎营销秘籍

WEB前端面试题汇总整理02

初学者应该如何学习SEO?学习SEO必备的7个技能

关于关键词，真正的含义你又了解多少

网站优化经验之谈：网站SEO具体优化流程详细解析

每一个Java工程师都应该掌握的全文搜索引擎

全文搜索引擎选 ElasticSearch 还是 Solr？

golang-构建搜索引擎微服务riot

全文搜索引擎选 ElasticSearch 还是 Solr？

Apache Solr:提升检索体验为什么是Solr

SEO新手浅谈搜索引擎工作原理

全文搜索引擎选ElasticSearch还是Solr？

greatking