只要三步，腾讯招聘信息抓取到手

YGLsmile

2019-12-06

关注关注

想成为一名真正的程序猿，你需要一份从事编程的工作！那么我们今天就来抓取腾讯招聘网站上的招聘信息！

要获取腾讯招聘网站上的招聘信息，需要以下三步：

· 准备工作：安装scrapy框架模块、安装lxml模块；

· 利用谷歌浏览器抓包：确定url，发送请求所需参数，确定返回数据所在位置；

· 利用scrapy爬虫框架完成代码。

准备工作

目标：安装scrapy、lxml模块。

· 在命令行终端输入 pip install scrapy 后，等待下载安装完成

scrapy是一个爬虫框架，可以帮助我们用很少的代码完成快速的抓取。

· 在命令行终端输入 pip install lxml 后，等待下载安装完成

lxml可以用来对html页面的数据进行提取。

利用谷歌浏览器抓包

· 确定列表页和详情页的url

只要三步，腾讯招聘信息抓取到手

· 注意最后一页

只要三步，腾讯招聘信息抓取到手

· 确定工作职责和工作要求

只要三步，腾讯招聘信息抓取到手

根据抓包确定代码逻辑

对起始url发送请求获取响应，指定该响应用专门解析列表页的函数来提取处理；

在列表页解析函数中，对列表页的响应内容进行提取。首先提取下一页的url，并构造请求对象，指定使用列表页解析函数来解析响应。其次提取详情页的url，并构造请求对象，指定使用详情页解析函数来解析响应；

在详情页解析函数中，提取相应的数据：标题、工作职责、工作要求。

完成代码

· 创建scrapy项目和爬虫

在终端输入 scrapy startproject Tencent创建项目。

Tencent是项目的名字，创建完成后，可以在相应的路径下看到如下文件夹及文件结构：

只要三步，腾讯招聘信息抓取到手

进入项目路径下，终端输入scrapy genspider tencent tencent.com创建爬虫：

1 cd Tencent
2 scrapy genspider tencent tencent.com

tencent.com是爬虫抓取的url的域名范围，后续可以在代码中进行修改。创建爬虫成功后在spiders文件夹下可以看到名为tencent的py文件：

只要三步，腾讯招聘信息抓取到手

打开tencent.py文件可以看到scrapy框架已经帮我写好了一部分代码：

只要三步，腾讯招聘信息抓取到手

完成tencent.py中的代码：

只要三步，腾讯招聘信息抓取到手

设置settings.py文件

在项目文件夹Tencent下修改settings.py配置文件：

1 USER_AGENT = &#39;Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36&#39;
2
3 ROBOTSTXT_OBEY = False

PS:USER_AGENT是用户代理,ROBOTSTXT_OBEY改为False表示忽略robot协议。

只要三步，腾讯招聘信息抓取到手

· 在项目路径下终端执行scrapy crawl tencent就可以将招聘信息保存到文件中

只要三步，腾讯招聘信息抓取到手

总结

现在我们就可以通过以下步骤完成代码抓取腾讯招聘信息：

1.利用谷歌浏览器进行抓包，确定列表页的url和详情页的url，确定数据所在位置；

2.scrapy的命令：

· 创建scrapy爬虫项目 scrapy startproject 项目名；

· 在项目路径下创建scrapy爬虫scrapy genspider 爬虫名爬虫爬取范围的域名；

· 在项目路径下运行爬虫 scrapy crawl 爬虫名；

3.完成爬虫模块代码的编写；

4.完成配置文件的修改，运行爬虫。

喜欢就关注下吧。

url lxml h1

YGLsmile

0 关注 0 粉丝 0 动态

关注关注

详解golang开发中http请求redirect的问题

后来就看了下源码，了解下请求跳转的机制。可是我只想获取第一跳的的response 的状态码。只要设置checkRedirect返回error，理论上就能实现只请求一次的目的。如果返回，则不发送下一个请求，并且返回最近的响应且其主体未关闭。

86193952 2020-10-27

nginx配置proxy_pass中url末尾带/与不带/的区别详解

proxy_pass配置中url末尾带/时，nginx转发时，会将原uri去除location匹配表达式后的内容拼接在proxy_pass中url之后。到此这篇关于nginx配置proxy_pass中url末尾带/与不带/的区别详解的文章就介绍到这了,更多

小木兮子 2020-11-11

python 下载文件的多种方法汇总

本文档介绍了 Python 下载文件的各种方式，从下载简单的小文件到用断点续传的方式下载大文件。使用 Requests 模块的 get 方法从一个 url 上下载文件，在 python 爬虫中经常使用它下载简单的网页内容。使用 python 内置的 url

HeyShHeyou 2020-11-17

Node 使用express-http-proxy 做api网关的实现

let { systemName, masterName, powers } = req.tokenDecode;

seanzed 2020-10-15

Webhooks与API的区别在哪里？

Webhooks起初看起来像是API，但它们略有不同。它们之间的主要区别在于，webhooks不需要发出请求即可获得响应，而API则需要发送请求才能获得响应。使用Webhooks可以接收，而API需要您检索。正确设置了Webhook之后，无论何时更新Git

huangliuyu00 2020-09-24

Nginx Rewrite使用场景及配置方法解析

redirect 返回302临时重定向，浏览器地址栏会显示跳转后的URL地址，爬虫不会更新自己的URL数据库

nginxs 2020-09-08

python 如何调用远程接口

在python中我们可以使用requests模块来实现调用远程接口。get方法常见的参数有url,params和headers. headers表示get传参的headers参数信息。# 接口返回的状态码。# #将字符串转字典型。# 接口返回的json格式

libaoshan 2020-09-11

python 自动提交到百度，利用百度API自动提交

sitemapUrls = re.findall('<loc>(.*?self.urls = re.findall('<loc>(.*?print("postBaidu:==========================

zhangpan 2020-09-10

ajax实现excel报表导出

项目中遇到一个场景，要导出一个excel报表。由于需要token验证，所以不能用a标签；由于页面复杂，所以不能使用表单提交。初步考虑前端使用ajax，后端返回流，定义指定的header。alert('导出失败，导出的内容为空！excel能正常导出，但下载下

chongxiaocheng 2020-08-16

ctf | php

一道难得可以看的懂的ctf题。id=1）把其中的id=1给取出来等等...下面是他的内部函数：。当我们判断s = /或者s+1 =/的时候就会仍未这是相对的url然后就取，而后认为 url 的部件从 url+2 开始。取不到应该去的值，所以导致过滤没啥用。

xcguoyu 2020-08-15

swagger报错No operations defined in spec!解决

swagger报错No operations defined in spec!一般有2个原因：。其中第2个path错误，path要是全匹配url，url是完整的，包含方法的url，本人因为path只写controller上的url，没写方法上的url，找了

Qizonghui 2020-08-02

mysql URL

characterEncoding=utf8&useUnicode=true. characterEncoding=utf8&useSSL=false&serverTimezone=UTC

ldcwang 2020-07-26

【Nginx】还不会使用Nginx解决跨域问题？肝这一篇就够了！！

作者个人研发的在高并发场景下，提供的简单、稳定、可扩展的延迟消息队列框架，具有精准的定时任务和延迟队列处理功能。自开源半年多以来，已成功为十几家中小型企业提供了精准定时调度方案，经受住了生产环境的考验。而且大部分后端服务并不会只部署一套服务，而是会采用Ng

mqfcu 2020-07-21

接口测试-url参数中出现+、空格、=、%、&、#等字符的解决办法

解决办法：在URL对应位置换成以下字符即可，对应关系如下：+ URL 中+号表示空格%2B空格URL中的空格可以用+号或者编码%20/分隔目录和子目录%2F?分隔实际的URL和参数%3F% 指定特殊字符%25# 表示书签%23& URL 中指定的参

jeason 2020-07-20

用urllib库几行代码实现最简单爬虫

使用urllib.request()请求一个网页内容，并且把内容打印出来。# 存取到内存当中是bytes流，使用read方法把rsp的内容读取出来，赋值给变量html。# 使用decode解码成我们能够看懂的格式。D:\ProgramData\Anacon

sunzhihaofuture 2020-07-19

一个菜鸟前端的自我提升：有关http请求中的get和post请求

在http/1.0中共定义了三种请求方式：get、post、head。在http/1.1中新增了五种请求方式：options、put、delete、trace、connect。在这八种方法中get、post这两种是最常见的请求方法。而post方法数据不会显

knightwatch 2020-07-19

从零开始手写 mybatis （三）jdbc pool 从零实现数据库连接池

第一节从零开始手写 mybatis（一）MVP 版本中我们实现了一个最基本的可以运行的 mybatis。本节我们一起来看一下如何实现一个数据库连接池。为什么需要连接池？数据库连接的创建是非常耗时的一个操作，在高并发的场景，如果每次对于数据库的访问都重新

点滴技术生活 2020-07-19

使用selenium 和图片验证码识别对12306的模拟登录+12306查询车次

记得索引位置，有部分车次的索引位置完全相反！！！我晕，暂时没想到怎么搞。此处headers 和cookies 自己获取，记得加！‘_jc_save_toDate‘: ‘2020-07-06‘,‘_jc_save_wfdc_flag‘: ‘dc‘,‘_jc_

Reiki 2020-07-06

scrapy 管理部署的爬虫项目的python类

还有部分api接口没有添加进来,可以参照官方的文档添加.

hilary0 2020-07-05

Python github

def get_search_github(keyword, language, pageIndex):. "q" : keyword,"type": "Repositories","l

zluxingzhe 2020-07-04

安科网

只要三步，腾讯招聘信息抓取到手

YGLsmile

准备工作

利用谷歌浏览器抓包

完成代码

总结

YGLsmile

相关推荐

详解golang开发中http请求redirect的问题

nginx配置proxy_pass中url末尾带/与不带/的区别详解

python 下载文件的多种方法汇总

Node 使用express-http-proxy 做api网关的实现

Webhooks与API的区别在哪里？

Nginx Rewrite使用场景及配置方法解析

python 如何调用远程接口

python 自动提交到百度，利用百度API自动提交

ajax实现excel报表导出

ctf | php

swagger报错No operations defined in spec!解决

mysql URL

【Nginx】还不会使用Nginx解决跨域问题？肝这一篇就够了！！

接口测试-url参数中出现+、空格、=、%、&、#等字符的解决办法

用urllib库几行代码实现最简单爬虫

一个菜鸟前端的自我提升：有关http请求中的get和post请求

从零开始手写 mybatis （三）jdbc pool 从零实现数据库连接池

使用selenium 和图片验证码识别对12306的模拟登录+12306查询车次

scrapy 管理部署的爬虫项目的python类

Python github

YGLsmile