Python scrapy框架用21行代码写出一个爬虫(内附赠python教程)
目标
爬取线报网站,并把内容保存到items.json里
页面分析
根据上图我们可以发现内容都在类为post这个div里
下面放出post的代码
实现方法
1.定义items
2.新建一个爬虫名为test
修改settings.py,添加以下代码
FEED_EXPORT_ENCODING = 'utf-8'
运行
打开cmd输入
scrapy crawl test -o items.json
可拓展内容
1.定时运行爬虫,当检查到网站更新时获取新数据并发邮件通知
2.检测数据是否重复
最后,想学习Python的小伙伴们!
请关注+私信回复:“学习”就可以拿到一份我为大家准备的Python学习资料!
pytyhon学习资料
python学习资料
相关推荐
夜斗不是神 2020-11-17
染血白衣 2020-11-16
YENCSDN 2020-11-17
lsjweiyi 2020-11-17
houmenghu 2020-11-17
Erick 2020-11-17
HeyShHeyou 2020-11-17
以梦为马不负韶华 2020-10-20
lhtzbj 2020-11-17
pythonjw 2020-11-17
dingwun 2020-11-16
lhxxhl 2020-11-16
坚持是一种品质 2020-11-16
huavhuahua 2020-11-20
meylovezn 2020-11-20
逍遥友 2020-11-20
weiiron 2020-11-16