【转】如何设置robots.txt文件

yingking00

2014-07-03

robots.txt是搜索引擎用来爬取网页内容的工具我们称之为搜索引擎机器人。
搜索引擎机器人每次来到要抓取的网站，都会先访问这个网站根目录下的一个文件（robots.txt），如果不存在该文件，则搜索引擎机器人默认这个网站允许其全部抓取。

robots.txt是一个简单的纯文本文件（记事本文件），搜索引擎机器人通过robots.txt里的“说明”，理解该网站是否可以全部抓取或部分抓取。

如果你希望搜索引擎收录你网站的全部网页，则你可以不设置robots.txt或上传一个命名为robots.txt的空记事本到根本目录。
上传你的robots.txt后，通过你的域名/robots.txt 可以正常访问。注意，robots.txt的命名，都应该是小写
robots.txt文件的内容主要就是一个代码：Disallow:
注意，robots.txt文件中一定要包含一个Disallow:
如果都允许收录，你可以写一行Disallow:/search.html 这个文件(search.html)本来就不存在也没事。

格式如：
Disallow: /search.html
|Disallow: /index.php?
Disallow: /tempweb/

说明：
User-agent: * 星号说明，允许所有的搜索引擎来收录，包括百度、google、yahoo等。
Disallow: /search.html 说明不允许收录 /search.html 这个文件。
Disallow: /index.php? 说明不允许收录以index.php?为前缀的链接如：index.php?122.html、index.php?=12、index.php?/baidu等等
Disallow: /tempweb/ 说明不允许收录/tempweb/里的所有文件。但可以收录如：/tempwebtaim.html 的链接。

这里介绍的是常用的几个代码。
如果需要了解更多关于Disallow:的用法，请了解百度官方的介绍：http://www.baidu.com/search/robots.html

1、当你的网页已被收录，但想用robots.txt删除掉，一般需要1-2个月。
2、结合Google网站管理员工具，你可以马上删除被Google收录的网页。

参考文章：http://www.seoweb-sh.com/208.html

搜索引擎 padding margin

安科网

【转】如何设置robots.txt文件

yingking00

yingking00

相关推荐

苹果正秘密开发自家搜索功能谷歌地位会被取代吗？

如何在Linux下安装部署分布式全文搜索引擎

由于Elasticsearch是在 Lucene 基础上构建

全文搜索引擎 Elasticsearch

数据专家CNZZ简介

倒排索引

网站优化：分析网站的快照没有更新的原因是什么?

Elasticsearch到底哪点好？

1、网络爬虫

站长福利，分享一下今日头条搜索引擎提交及网站认证方法。

【汉文】SEO白帽和SEO黑帽的技术区别

信息搜集之搜索引擎

以图搜图【最佳实践】阿里云 Elasticsearch 向量检索4步搭建“以图搜图”搜索引擎，

Go语言中文分词技术使用技巧（一）

怎么防止优化好的关键词忽然排名下降

搜索引擎之倒排索引浅析

世界需要Cliqz，世界需要更多的搜索引擎

搜索引擎之倒排索引浅析

网站排名下降了怎么办？

做好网站优化，必须注意这些问题

yingking00