解读搜索引擎(预处理)

ach

2011-11-09

关注关注

上回说到采集其实采集过程也很复杂想了解更多的细节可参见相关的资源。

我们通过搜索结果页可以看到展现的内容包括查询内容和超链接；

因此采集过程主要处理两部分Url和文本；

搜索引擎通过爬虫程序（robot/spider）来遍历互联网各个节点，在遍历的过程中会处理已经遍历和尚未遍历的url，以及攫取网站的文本内容。并存储在搜索数据库中。

所谓的预处理过程，恰恰就是完成这些操作。

用户在搜索框查询一个关键词的过程非常短暂，如果在查询时再去遍历整个网络寻找匹配的网页信息，搜索引擎无疑是杯水车薪。因此他有一套完整的预处理过程来保证快速、准确地反馈出用户查询的结果。

这就是我们能够看到百度快照和谷歌快照的原因。

查询请求反馈机制是索引机制，比如图书馆的数目索引。

搜索引擎在数据前端做索引查询，用户的查询是在索引数据库完成的。

结果页是经过计算得出，整个计算过程是极其复杂的。涉及到排序因子的原则和权重调控。搜索引擎的核心算法就是通过这里来发挥做用的。

做搜索引擎优化不可能了解到这些核心算法和排序因子的权重，但我们可以通过实践总结和摸索出那些因素的权重影响较大，正如你所知道的title就是其中之一。

以上是预处理的解读。

上一节：SEO前传-解读搜索引擎(采集)

下一节：搜索引擎优化入门：前端性能优化

搜索引擎索引遍历

ach

0 关注 0 粉丝 0 动态

关注关注

苹果正秘密开发自家搜索功能谷歌地位会被取代吗？

章鱼之家 2020-10-29

如何在Linux下安装部署分布式全文搜索引擎

Elasticsearch是一个开源的分布式全文本搜索和分析引擎。它支持RESTful操作，并允许您实时存储，搜索和分析大量数据。Elasticsearch是最流行的搜索引擎之一，可为具有复杂搜索要求的应用程序提供动力，例如大型电子商务商店和分析应用程序。

liangwenrong 2020-07-31

由于Elasticsearch是在 Lucene 基础上构建

本文已经收录至我的GitHub,欢迎大家踊跃star 和 issues。为什么写Elasticsearch系列文章？后面会说到，Elasticsearch是搜索引擎，但不简单只能使用在搜索领域，他可以作用的场景非常多。Elastic 于 2018 年 6

IceStreamLab 2020-06-26

全文搜索引擎 Elasticsearch

全文搜索属于最常见的需求，开源的Elasticsearch是目前全文搜索引擎的首选。它可以快速地储存、搜索和分析海量数据。维基百科、Stack Overflow、Github 都采用它。但是，你没法直接用 Lucene，必须自己写代码去调用它的接口。Ela

yanweiqi 2020-06-25

数据专家CNZZ简介

CNZZ统计提供多角度的数据统计、对比、以及生成报表功能。便于您更及时全面的掌握贵站情况。CNZZ统计中提供网站实时访问流量数据，在统计后台左侧菜单中提供每项数据报表的入口按钮，方便您查看相关数据。主要数据报表功能项为：流量分析、来源分析、受访分析、访客分

章鱼之家 2020-06-14

倒排索引

见其名知其意，有倒排索引，对应肯定，有正向索引。正向索引，反向索引更熟悉的名字是倒排索引。在搜索引擎中每个文件都对应一个文件ID，文件内容被表示为一系列关键词的集合。例如“文档1”经过分词，提取了20个关键词，每个关键词都会记录它在文档中的出现次数和出现位

章鱼之家 2020-06-08

网站优化：分析网站的快照没有更新的原因是什么?

作为一个网站优化者，每个人都应该知道百度快照。百度快照将随着网站内容的更新而更新。快照的更新速度与网站的更新速度成正比。如果你10天不更新，这意味着网站有问题。下面就让壹起航的小编将介绍为什么网站快照没有更新的原因。如果网站的外部链接质量不好，不仅会影响到

yanweiqi 2020-06-01

Elasticsearch到底哪点好？

本文已经收录至我的GitHub,欢迎大家踊跃star 和 issues。为什么写Elasticsearch系列文章？之前在文章中也陆陆续续的提到过，龙叔是做搜索引擎的。人们通常将 Elastic Stack 称为 ELK Stack，目前 Elastic

IceStreamLab 2020-05-31

1、网络爬虫

　　网络爬虫，是一种按照一定的规则，自动的抓取万维网信息的程序或脚本。它是一种按照一定的规则，自动地抓取万维网信息的程序或者脚木，可以自动采集所有其能够访问到的页而内容，以获取相关数据。

athrenzala 2020-05-30

站长福利，分享一下今日头条搜索引擎提交及网站认证方法。

站长福利，分享一下今日头条搜索引擎提交及网站认证方法。现在头条搜索刚开始，比如容易收录网站，大家可以试试。而且还可以官网认证，都是免费的。

athrenzala 2020-05-28

【汉文】SEO白帽和SEO黑帽的技术区别

SEO白帽这个名词我相信很多从业SEO优化的人最经常听到的就是这个名词，其实任何做SEO优化的人都可以称自己为SEO白帽子，在SEO大牛个人认为：SEO并没有真正意义上的黑帽白帽之分，可以说这两者所使用的技术都是交错、相互、有关联的。任何SEO优化人员在操

chenluhan 2020-05-28

信息搜集之搜索引擎

------->各级指纹识别，GitHub /源代码泄漏，敏感文件和地址。百度，谷歌，360……// 帮助我们快速缩小目标搜索范围。// 不能保证我们下载的文件的安全性

yanweiqi 2020-05-09

以图搜图【最佳实践】阿里云 Elasticsearch 向量检索4步搭建“以图搜图”搜索引擎，

阿里云 Elasticsearch 向量检索4步搭建“以图搜图”搜索引擎，和通数据库Elasticsearch客户真实实践分享文中涉及到的图片特征提取，使用了yongyuan.name的VGGNet库，再此表示感谢！“图片搜索”是作为导购类网站比较常见的一

etedyh 2020-05-10

Go语言中文分词技术使用技巧（一）

分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术。现在分词方法大致有三种：基于字符串配置的分词方法、基于理解的分词方法和基于统计的分词方法。今天为大家分享一个国内使用人数最多的中文分词工具Go

athrenzala 2020-04-17

怎么防止优化好的关键词忽然排名下降

当我们优化我们的网站时，有时我们发现我们优化好的关键词的排名突然变得不稳定。我们能设法避免吗?除非他或她必须更改标题，否则不要随意更改标题。这将导致整体关键词排名下降，并严重导致网站降级的迹象。页面的关键字密度与页面的关键字排名密切相关。有些网站管理员过于

huhu 2020-03-01

搜索引擎之倒排索引浅析

上一篇文章 ElasticSearch 术语中提到了倒排索引，那么这篇文章就来讲解下什么是倒排索引，倒排索引的数据结构以及 ElasticSearch 中的倒排索引。倒排索引也常被称为反向索引，是搜索引擎中非常重要的数据结构，为什么说它重要呢，我们首先

qiburen 2020-03-20

世界需要Cliqz，世界需要更多的搜索引擎

世界上只有很少的真正独立的搜索引擎。谷歌，必应，Yandex和百度是最著名的公司。大多数其他参与者只是对这四家搜索引擎结果的再加工，并且依赖于它们的功能和商业模式。又或者独立搜索引擎是非常本地化并且规模很小，不能成为大搜索引擎的替代。它是完全独立的，不使用

WEB程序员 2020-03-18

搜索引擎之倒排索引浅析

倒排索引也常被称为反向索引，是搜索引擎中非常重要的数据结构，为什么说它重要呢，我们首先拿一本书《重构改善既有代码的设计》举个例子：。想象一下你要搜索 case语句这个关键词在这本书的页码，你应该怎么办呢？有些技术类的书籍会在最后提供索引页，这本书的索

yanweiqi 2020-03-03

网站排名下降了怎么办？

定期检查网站的各种链接，看一下是否存在大量的无效链接，这些都会影响到访客和百度蜘蛛的浏览体验，时间久了，搜索引擎蜘蛛就会停止爬行网站，自然而然影响收录，严重的话网站还会被降权，另外建议一定要做404页面，这也是搜索引擎的建议。

柳永法的个人 2020-03-03

做好网站优化，必须注意这些问题

企业网站建设肯定是非常重要的。这一点被企业所深刻的认识到，但是网站建设不可以盲目进行，而是要有技巧性的完成，这里指的是后期优化工作，因为建站相关事宜，由建站公司来完成，只要是经验丰富的公司，都不会有什么问题，可以保证网站的效果，但是指望着网站上线后自己发挥

etedyh 2020-03-03

安科网

解读搜索引擎(预处理)

ach

ach

相关推荐

苹果正秘密开发自家搜索功能谷歌地位会被取代吗？

如何在Linux下安装部署分布式全文搜索引擎

由于Elasticsearch是在 Lucene 基础上构建

全文搜索引擎 Elasticsearch

数据专家CNZZ简介

倒排索引

网站优化：分析网站的快照没有更新的原因是什么?

Elasticsearch到底哪点好？

1、网络爬虫

站长福利，分享一下今日头条搜索引擎提交及网站认证方法。

【汉文】SEO白帽和SEO黑帽的技术区别

信息搜集之搜索引擎

以图搜图【最佳实践】阿里云 Elasticsearch 向量检索4步搭建“以图搜图”搜索引擎，

Go语言中文分词技术使用技巧（一）

怎么防止优化好的关键词忽然排名下降

搜索引擎之倒排索引浅析

世界需要Cliqz，世界需要更多的搜索引擎

搜索引擎之倒排索引浅析

网站排名下降了怎么办？

做好网站优化，必须注意这些问题

ach