搜索引擎中的robots.txt的作用

haifeng

2011-10-27

关注关注

今天看一本关于爬虫的书，直到了关于robots.txt的约定。

Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。

目前所有的搜索引擎都遵循robots.txt的规则。

一.robots.txt的语法

User-agent: * 这里的*代表的所有的搜索引擎种类，*是一个通配符

Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录　　

Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录　　

Disallow: /ABC/ 这里定义是禁止爬寻ABC整个目录　　　

Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。　　

Disallow: /*?* 禁止访问网站中所有的动态页面　　

Disallow: /jpg$ 禁止抓取网页所有的.jpg格式的图片　　

Disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html文件。　　

User-agent: * 这里的*代表的所有的搜索引擎种类，*是一个通配符　　

Allow: /cgi-bin/　这里定义是允许爬寻cgi-bin目录下面的目录　　

Allow: /tmp 这里定义是允许爬寻tmp的整个目录　　

Allow: .htm$ 仅允许访问以".htm"为后缀的URL。　　

Allow: .gif$ 允许抓取网页和gif格式图片robots.txt文件用法举例　　

例1. 禁止所有搜索引擎访问网站的任何部分　　User-agent: * 　　Disallow: /

例2. 禁止某个搜索引擎的访问 User-agent: BadBot 　　Disallow: /

二.用robots.txt的好处

1. 用robots屏蔽网站重复页

很多网站一个内容提供多种浏览版本，虽然很方便用户却对蜘蛛造成了困难，因为它分不清那个是主，那个是次，一旦让它认为你在恶意重复，兄弟你就惨了

User-agent：*

Disallow：/sitemap/《禁止蜘蛛抓取文本网页》

2.用robots保护网站安全

很多人纳闷了，robots怎么还和网站安全有关系了？其实关系还很大，不少低级黑客就是通过搜索默认后台登陆，以达到入侵网站的目标

User-agent：*

Disallow：/admin/《禁止蜘蛛抓取admin目录下所有文件》

3.防止盗链

一般盗链也就几个人，可是一旦被搜索引擎“盗链”那家伙你100M宽带也吃不消，如果你做的不是图片网站，又不想被搜索引擎“盗链”你的网站图片

User-agent：*

Disallow：.jpg$

4.提交网站地图

现在做优化的都知道做网站地图了，可是却没几个会提交的，绝大多数人是干脆在网页上加个链接，其实robots是支持这个功能的

Sitemap：http://www.010wangzhanyouhua.com/sitemaps/sitemaps_1.xml

5.禁止某二级域名的抓取

一些网站会对VIP会员提供一些特殊服务，却又不想这个服务被搜索引擎检索到

User-agent：*

Disallow：/

搜索引擎目录搜索引擎

haifeng

0 关注 0 粉丝 0 动态

关注关注

苹果正秘密开发自家搜索功能谷歌地位会被取代吗？

章鱼之家 2020-10-29

如何在Linux下安装部署分布式全文搜索引擎

Elasticsearch是一个开源的分布式全文本搜索和分析引擎。它支持RESTful操作，并允许您实时存储，搜索和分析大量数据。Elasticsearch是最流行的搜索引擎之一，可为具有复杂搜索要求的应用程序提供动力，例如大型电子商务商店和分析应用程序。

liangwenrong 2020-07-31

由于Elasticsearch是在 Lucene 基础上构建

本文已经收录至我的GitHub,欢迎大家踊跃star 和 issues。为什么写Elasticsearch系列文章？后面会说到，Elasticsearch是搜索引擎，但不简单只能使用在搜索领域，他可以作用的场景非常多。Elastic 于 2018 年 6

IceStreamLab 2020-06-26

全文搜索引擎 Elasticsearch

全文搜索属于最常见的需求，开源的Elasticsearch是目前全文搜索引擎的首选。它可以快速地储存、搜索和分析海量数据。维基百科、Stack Overflow、Github 都采用它。但是，你没法直接用 Lucene，必须自己写代码去调用它的接口。Ela

yanweiqi 2020-06-25

数据专家CNZZ简介

CNZZ统计提供多角度的数据统计、对比、以及生成报表功能。便于您更及时全面的掌握贵站情况。CNZZ统计中提供网站实时访问流量数据，在统计后台左侧菜单中提供每项数据报表的入口按钮，方便您查看相关数据。主要数据报表功能项为：流量分析、来源分析、受访分析、访客分

章鱼之家 2020-06-14

倒排索引

见其名知其意，有倒排索引，对应肯定，有正向索引。正向索引，反向索引更熟悉的名字是倒排索引。在搜索引擎中每个文件都对应一个文件ID，文件内容被表示为一系列关键词的集合。例如“文档1”经过分词，提取了20个关键词，每个关键词都会记录它在文档中的出现次数和出现位

章鱼之家 2020-06-08

网站优化：分析网站的快照没有更新的原因是什么?

作为一个网站优化者，每个人都应该知道百度快照。百度快照将随着网站内容的更新而更新。快照的更新速度与网站的更新速度成正比。如果你10天不更新，这意味着网站有问题。下面就让壹起航的小编将介绍为什么网站快照没有更新的原因。如果网站的外部链接质量不好，不仅会影响到

yanweiqi 2020-06-01

Elasticsearch到底哪点好？

本文已经收录至我的GitHub,欢迎大家踊跃star 和 issues。为什么写Elasticsearch系列文章？之前在文章中也陆陆续续的提到过，龙叔是做搜索引擎的。人们通常将 Elastic Stack 称为 ELK Stack，目前 Elastic

IceStreamLab 2020-05-31

1、网络爬虫

　　网络爬虫，是一种按照一定的规则，自动的抓取万维网信息的程序或脚本。它是一种按照一定的规则，自动地抓取万维网信息的程序或者脚木，可以自动采集所有其能够访问到的页而内容，以获取相关数据。

athrenzala 2020-05-30

站长福利，分享一下今日头条搜索引擎提交及网站认证方法。

站长福利，分享一下今日头条搜索引擎提交及网站认证方法。现在头条搜索刚开始，比如容易收录网站，大家可以试试。而且还可以官网认证，都是免费的。

athrenzala 2020-05-28

【汉文】SEO白帽和SEO黑帽的技术区别

SEO白帽这个名词我相信很多从业SEO优化的人最经常听到的就是这个名词，其实任何做SEO优化的人都可以称自己为SEO白帽子，在SEO大牛个人认为：SEO并没有真正意义上的黑帽白帽之分，可以说这两者所使用的技术都是交错、相互、有关联的。任何SEO优化人员在操

chenluhan 2020-05-28

信息搜集之搜索引擎

------->各级指纹识别，GitHub /源代码泄漏，敏感文件和地址。百度，谷歌，360……// 帮助我们快速缩小目标搜索范围。// 不能保证我们下载的文件的安全性

yanweiqi 2020-05-09

以图搜图【最佳实践】阿里云 Elasticsearch 向量检索4步搭建“以图搜图”搜索引擎，

阿里云 Elasticsearch 向量检索4步搭建“以图搜图”搜索引擎，和通数据库Elasticsearch客户真实实践分享文中涉及到的图片特征提取，使用了yongyuan.name的VGGNet库，再此表示感谢！“图片搜索”是作为导购类网站比较常见的一

etedyh 2020-05-10

Go语言中文分词技术使用技巧（一）

分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术。现在分词方法大致有三种：基于字符串配置的分词方法、基于理解的分词方法和基于统计的分词方法。今天为大家分享一个国内使用人数最多的中文分词工具Go

athrenzala 2020-04-17

怎么防止优化好的关键词忽然排名下降

当我们优化我们的网站时，有时我们发现我们优化好的关键词的排名突然变得不稳定。我们能设法避免吗?除非他或她必须更改标题，否则不要随意更改标题。这将导致整体关键词排名下降，并严重导致网站降级的迹象。页面的关键字密度与页面的关键字排名密切相关。有些网站管理员过于

huhu 2020-03-01

搜索引擎之倒排索引浅析

上一篇文章 ElasticSearch 术语中提到了倒排索引，那么这篇文章就来讲解下什么是倒排索引，倒排索引的数据结构以及 ElasticSearch 中的倒排索引。倒排索引也常被称为反向索引，是搜索引擎中非常重要的数据结构，为什么说它重要呢，我们首先

qiburen 2020-03-20

世界需要Cliqz，世界需要更多的搜索引擎

世界上只有很少的真正独立的搜索引擎。谷歌，必应，Yandex和百度是最著名的公司。大多数其他参与者只是对这四家搜索引擎结果的再加工，并且依赖于它们的功能和商业模式。又或者独立搜索引擎是非常本地化并且规模很小，不能成为大搜索引擎的替代。它是完全独立的，不使用

WEB程序员 2020-03-18

搜索引擎之倒排索引浅析

倒排索引也常被称为反向索引，是搜索引擎中非常重要的数据结构，为什么说它重要呢，我们首先拿一本书《重构改善既有代码的设计》举个例子：。想象一下你要搜索 case语句这个关键词在这本书的页码，你应该怎么办呢？有些技术类的书籍会在最后提供索引页，这本书的索

yanweiqi 2020-03-03

网站排名下降了怎么办？

定期检查网站的各种链接，看一下是否存在大量的无效链接，这些都会影响到访客和百度蜘蛛的浏览体验，时间久了，搜索引擎蜘蛛就会停止爬行网站，自然而然影响收录，严重的话网站还会被降权，另外建议一定要做404页面，这也是搜索引擎的建议。

柳永法的个人 2020-03-03

做好网站优化，必须注意这些问题

企业网站建设肯定是非常重要的。这一点被企业所深刻的认识到，但是网站建设不可以盲目进行，而是要有技巧性的完成，这里指的是后期优化工作，因为建站相关事宜，由建站公司来完成，只要是经验丰富的公司，都不会有什么问题，可以保证网站的效果，但是指望着网站上线后自己发挥

etedyh 2020-03-03

安科网

搜索引擎中的robots.txt的作用

haifeng

haifeng

相关推荐

苹果正秘密开发自家搜索功能谷歌地位会被取代吗？

如何在Linux下安装部署分布式全文搜索引擎

由于Elasticsearch是在 Lucene 基础上构建

全文搜索引擎 Elasticsearch

数据专家CNZZ简介

倒排索引

网站优化：分析网站的快照没有更新的原因是什么?

Elasticsearch到底哪点好？

1、网络爬虫

站长福利，分享一下今日头条搜索引擎提交及网站认证方法。

【汉文】SEO白帽和SEO黑帽的技术区别

信息搜集之搜索引擎

以图搜图【最佳实践】阿里云 Elasticsearch 向量检索4步搭建“以图搜图”搜索引擎，

Go语言中文分词技术使用技巧（一）

怎么防止优化好的关键词忽然排名下降

搜索引擎之倒排索引浅析

世界需要Cliqz，世界需要更多的搜索引擎

搜索引擎之倒排索引浅析

网站排名下降了怎么办？

做好网站优化，必须注意这些问题

haifeng