Python scrapy框架用21行代码写出一个爬虫(内附赠python教程)

目标

爬取线报网站,并把内容保存到items.json里

页面分析

Python scrapy框架用21行代码写出一个爬虫(内附赠python教程)

根据上图我们可以发现内容都在类为post这个div里

下面放出post的代码

Python scrapy框架用21行代码写出一个爬虫(内附赠python教程)

实现方法

1.定义items

Python scrapy框架用21行代码写出一个爬虫(内附赠python教程)

2.新建一个爬虫名为test

Python scrapy框架用21行代码写出一个爬虫(内附赠python教程)

修改settings.py,添加以下代码

FEED_EXPORT_ENCODING = 'utf-8'

运行

打开cmd输入

scrapy crawl test -o items.json

Python scrapy框架用21行代码写出一个爬虫(内附赠python教程)

Python scrapy框架用21行代码写出一个爬虫(内附赠python教程)

可拓展内容

1.定时运行爬虫,当检查到网站更新时获取新数据并发邮件通知

2.检测数据是否重复

最后,想学习Python的小伙伴们!

请关注+私信回复:“学习”就可以拿到一份我为大家准备的Python学习资料!

Python scrapy框架用21行代码写出一个爬虫(内附赠python教程)

pytyhon学习资料

Python scrapy框架用21行代码写出一个爬虫(内附赠python教程)

python学习资料

相关推荐