解读搜索引擎(预处理)

上回说到采集其实采集过程也很复杂想了解更多的细节可参见相关的资源。

我们通过搜索结果页可以看到展现的内容包括查询内容和超链接;

因此采集过程主要处理两部分Url和文本;

搜索引擎通过爬虫程序(robot/spider)来遍历互联网各个节点,在遍历的过程中会处理已经遍历和尚未遍历的url,以及攫取网站的文本内容。并存储在搜索数据库中。

所谓的预处理过程,恰恰就是完成这些操作。

用户在搜索框查询一个关键词的过程非常短暂,如果在查询时再去遍历整个网络寻找匹配的网页信息,搜索引擎无疑是杯水车薪。因此他有一套完整的预处理过程来保证快速、准确地反馈出用户查询的结果。

这就是我们能够看到百度快照和谷歌快照的原因。

查询请求反馈机制是索引机制,比如图书馆的数目索引。

搜索引擎在数据前端做索引查询,用户的查询是在索引数据库完成的。

结果页是经过计算得出,整个计算过程是极其复杂的。涉及到排序因子的原则和权重调控。搜索引擎的核心算法就是通过这里来发挥做用的。

做搜索引擎优化不可能了解到这些核心算法和排序因子的权重,但我们可以通过实践总结和摸索出那些因素的权重影响较大,正如你所知道的title就是其中之一。

以上是预处理的解读。

上一节:SEO前传-解读搜索引擎(采集)

下一节:搜索引擎优化入门:前端性能优化

相关推荐