scrapy爬取Drupal网站,提示404错误
最近在学习Python的爬虫。以前坚持用nodejs做爬虫。前两天闲得无聊,在慕课上看了下scrapy的课程。然后发现这个框架的设计真模块化。所以就开始动手用scrapy爬取一些东西。
然后我的目标网站是个drupal做的。分页抓取的时候,首页是正常的,爬取第二页的时候,大概率是抛错提示:404,要么就是给我返回了一些脏数据。
这个网站还真是老谋深算啊。然后我仔细分析了下网站的请求头。然后加上了如下两条,请求就正常了:
request.headers['accept'] = 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8' request.headers['cache-control'] = 'no-cache'
看来还是得注意请求头的细节。
相关推荐
csstpeixun 2020-06-28
88407013 2020-06-16
Dreamya 2020-06-09
蓝天梦 2020-01-25
lanzhusiyu 2019-12-30
霸王棍 2011-05-12
88407013 2017-09-19
麦当劳 2011-12-15
yanghan 2011-09-15
wawaboss 2012-04-10
yxlnum 2014-01-05
xyc 2012-08-29
lwly 2019-06-27
MusicPeng 2013-07-19
wodetian 2019-06-21
zmosquito 2012-11-07
HAcSeeking 2012-09-14