小白学 Python 爬虫（15）：urllib 基础使用（五）

User-agent:  Baiduspider
Allow:  /article
Allow:  /oshtml
Allow:  /ershou
Allow: /$
Disallow:  /product/
Disallow:  /

User-Agent:  Googlebot
Allow:  /article
Allow:  /oshtml
Allow:  /product
Allow:  /spu
Allow:  /dianpu
Allow:  /oversea
Allow:  /list
Allow:  /ershou
Allow: /$
Disallow:  /

......

可以看到，一个 robots.txt 总共分为三个部分：

User-Agent：描述了搜索爬虫的名称，如果设置为 * 则代表对所有爬虫生效。
Allow：指定了云讯爬取的目录。
Disallow：指定了不允许爬取的目录，一般和 Allow 配合使用。

比如上面的这个 Robots 协议，其中的内容定义了百度爬虫和谷歌爬虫的爬取规则，其中对百度爬虫定义了的可爬取路径有 /article 、 /oshtml 、 /ershou 、 /$ ，不可爬取的路径有 /product/ 和 / 目录。

各位同学可能会有疑问，爬虫的名字是哪来的呢？

emmmmmmmmm，这个小编也不清楚，就当做一些固定用法吧，下表列出一些常见的爬虫名称：

爬虫名称	来源	来源网站
BaiduSpider	百度搜索	www.baidu.com
Googlebot	谷歌搜索	www.google.com
360Spider	360 搜索	www.so.com
Bingbot	必应搜索	cn.bing.com
Yisouspider	神马搜索	m.sm.cn
Sogouspider	搜狗搜索	www.sogou.com
Yahoo! Slurp	雅虎搜索	www.yahoo.com
Sosospider	搜搜	www.soso.com

robotparser

官方文档：https://docs.python.org/zh-cn/3.7/library/urllib.robotparser.html

在了解了什么是 Robots 协议之后，我们可以使用 robotparser 来解析 Robots 协议。

该模块提供了一个类 RobotFileParser 它可以根据某网站的 robots.txt 文件来判断一个爬取爬虫是否有权限来爬取这个网站的某个路径。

首先我们看一下这个类的声明：

urllib.robotparser.RobotFileParser(url='')

看起来很简单，只需要在构造方法中传入 robots.txt 的路径即可。

接下来我们来看下这个类所具有的方法：

set_url(url)：如果在声明 RobotFileParser 的时候没有传入 robots.txt 的路径，可以调用这个方法传入 robots.txt 的路径。
read()：读取 robots.txt 文件并进行分析。注意，这个方法执行一个读取和分析操作，如果不调用这个方法，接下来的判断都会为 False ，所以一定记得调用这个方法。这个方法不会返回任何内容，但是执行了读取操作。
parse(lines)：用来解析 robots.txt 文件，传入的参数是 robots.txt 某些行的内容，它会按照 robots.txt 的语法规则来分析这些内容。
can_fetch(useragent, url)：该方法传入两个参数，第一个是 User-agent ，第二个是要抓取的 URL 。返回的内容是该搜索引擎是否可以抓取这个 URL ，返回结果是 True 或 False 。
mtime()：返回的是上次抓取和分析 robots.txt 的时间，这对于长时间分析和抓取的搜索爬虫是很有必要的，你可能需要定期检查来抓取最新的 robots.txt 。
modified()：它同样对长时间分析和抓取的搜索爬虫很有帮助，将当前时间设置为上次抓取和分析 robots.txt 的时间。
crawl_delay(useragent)：从 robots.txt 返回有关用户代理的抓取延迟参数的值。如果没有这样的参数，或者该参数不适用于指定的用户代理，或者该参数的 robots.txt 条目的语法无效，则返回 None 。
request_rate(useragent)：以指定的元组 RequestRate（requests，seconds）的形式从 robots.txt 返回 Request-rate 参数的内容。如果没有这样的参数，或者该参数不适用于指定的用户代理，或者该参数的 robots.txt 条目的语法无效，则返回 None 。

举一个简单的例子：

import urllib.robotparser

rp = urllib.robotparser.RobotFileParser()
rp.set_url("https://www.taobao.com/robots.txt")
rp.read()

print(rp.can_fetch('Googlebot', 'https://www.taobao.com/article'))
print(rp.can_fetch('Googlebot', "https://s.taobao.com/search?initiative_id=tbindexz_20170306&ie=utf8&spm=a21bo.2017.201856-taobao-item.2&sourceId=tb.index&search_type=item&ssid=s5-e&commend=all&imgfile=&q=iphone&suggest=history_1&_input_charset=utf-8&wq=&suggest_query=&source=suggest"))

执行结果如下：

True
False

小编这里就用某宝做栗子了，首先创建 RobotFileParser 对象，然后通过 set_url() 方法设置了 robots.txt 的链接。

当然，不用这个方法的话，可以在声明时直接用如下方法设置：

rp = urllib.robotparser.RobotFileParser('https://www.taobao.com/robots.txt')

接着利用 can_fetch() 方法判断了网页是否可以被抓取。

小结

本篇内容到这里就结束了，内容比较简单，希望各位同学以后在写爬虫时候可以遵循 Robot 协议，为了自己的安全着想。

希望各位同学可以自己动手实际操作试试看。

示例代码

本系列的所有代码小编都会放在代码管理仓库 Github 和 Gitee 上，方便大家取用。

示例代码-Github

示例代码-Gitee

参考

https://www.cnblogs.com/zhangxinqi/p/9170312.html

python python爬虫 target urllib

fangjack

0 关注 0 粉丝 0 动态

关注关注

Python爬虫破解登陆哔哩哔哩的方法

作为一名找不到工作的爬虫菜鸡人士来说，登陆这一块肯定是个比较大的难题。从今天开始准备一点点对大型网站进行逐个登陆破解。加深自己爬虫水平。if response_json['code'] == 0 and response_json['data']['sta

夜斗不是神 2020-11-17

python 爬虫如何实现百度翻译

本文将会通过爬虫的方式实现简单的百度翻译。本文中的代码只供学习，不允许作为于商务作用。若有侵犯，立即删文！在网站文件中找到隐藏的免费api。传入api所需要的参数并对其发出请求。在返回的json结果里找到相应的翻译结果。进入百度翻译，随便输入一段需要翻译的

染血白衣 2020-11-16

python 发送get请求接口详解

　　如果想用python做接口测试，我们首先有不得不了解和学习的模块。虽然Python内置的urllib模块，用于访问网络资源。但是，它用起来比较麻烦，而且，缺少很多实用的高级功能。更好的方案是使用。它是一个Python第三方库，处理URL资源特别方便。R

YENCSDN 2020-11-17

python 使用tkinter+you-get实现视频下载器

#获取屏幕尺寸以计算布局参数，使窗口居屏幕中央,其中width和height为界面宽和高。#阻止窗口调整大小

lsjweiyi 2020-11-17

python中requests模拟登录的三种方式(携带cookie/session进行请求网站)

session是在cookie的基础上，服务端设置session时会向浏览器发送设置一个设置cookie的请求，这个cookie包括session的id当访问服务端时带上这个session_id就可以获取到用户保存在服务端对应的session. 到此这篇关

houmenghu 2020-11-17

python开发一个解析protobuf文件的简单编译器

最近刚刚用python写完了一个解析protobuf文件的简单编译器，深感ply实现词法分析和语法分析的简洁方便。乘着余热未过，头脑清醒，记下一点总结和心得，方便各位pythoner参考使用。如果你不是从事编译器或者解析器的开发工作，你可能从未听说过ply

Erick 2020-11-17

python 下载文件的多种方法汇总

本文档介绍了 Python 下载文件的各种方式，从下载简单的小文件到用断点续传的方式下载大文件。使用 Requests 模块的 get 方法从一个 url 上下载文件，在 python 爬虫中经常使用它下载简单的网页内容。使用 python 内置的 url

HeyShHeyou 2020-11-17

Linux Shell 如何获取参数的方法

是显示最后命令的退出状态，0表示没有错误，其他表示有错误。不同点：$* 和 $@ 都表示传递给函数或脚本的所有参数，不被双引号(" ")包含时，都以"$1" "$2" …"$n"

以梦为马不负韶华 2020-10-20

python跨文件使用全局变量的实现

但是他的一大缺陷就是只能本module 中也就是本文件中使用，跳出这个module就不行。使用一个更宏观的思路，全局变量就用全局加载的模块解决，很遗憾也是不行，这样可以，但是如果再有一个module 想用呢？这样就会报错，因为import 加载就会执行一遍

lhtzbj 2020-11-17

python调用百度API实现人脸识别

# """ 你的 APPID AK SK """. # img = Image.fromarray #将每一帧转为Image. # output_buffer = BytesIO() #创

pythonjw 2020-11-17

Python调用ffmpeg开源视频处理库，批量处理视频

strcmd = r'ffprobe -print_format json -show_streams -i "{}"'.format. strcmd = 'ffmpeg -i "{}" -vcodec copy -

dingwun 2020-11-16

详解python os.path.exists判断文件或文件夹是否存在

os即operating system，Python 的 os 模块封装了常见的文件和目录操作。os.path模块主要用于文件的属性获取,exists是“存在”的意思，所以顾名思义，os.path.exists()就是判断括号里的文件是否存在的意思，括号内

lhxxhl 2020-11-16

python实现在列表中查找某个元素的下标示例

列表中字符和数字都有。使用python的内建函数enumerate

sunskyday 2020-11-16

python如何获得list或numpy数组中最大元素对应的索引

#表示最大值在第二行第二列

sizhixht 2020-11-16

Python实现列表索引批量删除的5种方法

开头，如果不仔细看好像没什么问题。但是结果却是错误的。将 listObj.remove() 改为listObj.pop结果也是相同的。Java用同样的编程思想，得到的结果也有相似性。这种错误，主要是初学者对于数据存储原理没有理解清楚，或者，没有意识到内存存

坚持是一种品质 2020-11-16

致命错误！Python开发者的7个崩溃瞬间

本文转载自公众号“读芯术”。毫无疑问，Python是当今使用最为广泛的编程语言。但无论你经验多丰富，或是已使用过多少种语言，切换到Python时都不能保证非常顺利。具有面向对象编程背景的开发人员容易忽略Python的惯用特性，很可能会滥用编程结构，从而产生

huavhuahua 2020-11-20

针对Python开发人员的10个“疯狂”的项目构想

最棒的是，你可以通过这些有趣但也具有挑战性的项目来增强 Python 编程技能。你知道 Python 是被称为全能编程语言的吗？是的，它确实是，虽然不应该在每个项目中都使用它。你可以使用它来创建桌面应用程序、游戏、移动应用程序、网站和系统软件。它甚至是

meylovezn 2020-11-20

用Python内置模块处理ini配置文件

开发人员每天都在处理一些大型而复杂的项目，而配置文件会帮到我们并节省不少时间。在处理配置文件过程中，无需更改源代码本身，只需要调整配置文件即可访问不同的API接口、更新基础URL信息或其它事情。尽管可以通过多种方式来支持软件中的配置文件，包括JSON，

逍遥友 2020-11-20

VS Code 中 Python 扩展的部分功能重构，支持 R 和 Julia

11 月 12 日，微软将 Jupyter Notebook 支持从 Python 扩展中独立出来，发布新的 Jupyter 扩展，支持智能感知，调试等功能的交互式编程和计算。Jupyter 扩展通过新的“ Native Notebooks Experi

weiiron 2020-11-16

Python五个隐藏的特性，你可能从未听说过

在本文中，我将向您展示Python中很常见的5个特性。有经验的Python开发人员可能认识其中一些。然而，这对其他人仍将是未知的。是的，你没看错，在Python中...是一个有效的构造。...是称为省略号的单例对象。如果你把它输入到Python解释器中，你

Yasin 2020-11-16

安科网

小白学 Python 爬虫（15）：urllib 基础使用（五）

fangjack

引言

Robots 协议

robotparser

小结

示例代码

参考

fangjack

相关推荐

Python爬虫破解登陆哔哩哔哩的方法

python 爬虫如何实现百度翻译

python 发送get请求接口详解

python 使用tkinter+you-get实现视频下载器

python中requests模拟登录的三种方式(携带cookie/session进行请求网站)

python开发一个解析protobuf文件的简单编译器

python 下载文件的多种方法汇总

Linux Shell 如何获取参数的方法

python跨文件使用全局变量的实现

python调用百度API实现人脸识别

Python调用ffmpeg开源视频处理库，批量处理视频

详解python os.path.exists判断文件或文件夹是否存在

python实现在列表中查找某个元素的下标示例

python如何获得list或numpy数组中最大元素对应的索引

Python实现列表索引批量删除的5种方法

致命错误！Python开发者的7个崩溃瞬间

针对Python开发人员的10个“疯狂”的项目构想

用Python内置模块处理ini配置文件

VS Code 中 Python 扩展的部分功能重构，支持 R 和 Julia

Python五个隐藏的特性，你可能从未听说过

fangjack