scrapy入门_2爬取豆瓣军事类图书(2)
前言
上回讲到,爬取了豆瓣军事类图书的第一页内容,本回主要实现爬取剩余页面的内容,实现思路均参照Scrapy文档
代码实现
def parse(self, response): #####省略##### #查看页面源码,找到”后一页“的链接 next_page = response.xpath('//span[@class="next"]/a/@href').extract_first() print("&&&&&&",next_page) if next_page is not None: yield response.follow(next_page,self.parse)
找到页面中”后一页“的链接的内容,只需解析出该内容,然后调用follow函数即可了
编译执行
按照上篇说的,执行命令scrapy crawl dbbook -o junshibook89-1.json
将结果存入json文件
但是!爬虫值爬了start_urls,并未爬取剩余页面内容
只需将开头allowed_domains = ['https://book.douban.com/tag/军事']
注释掉或者删掉即可
重新执行,查看生成的junshibook89-1.json文件
git地址:https://www.trustie.net/projects/3753/repository/dbbook
相关推荐
坚持是一种品质 2020-05-29
文山羊 2020-05-19
sunnyhappy0 2020-04-20
katyusha 2020-03-06
typhoonpython 2020-02-16
andrewwf 2020-01-31
ilovefrog 2019-12-27
hilary0 2019-12-02
不亦快斋 2019-07-18
wyqwilliam 2019-10-25
xiaobote 2019-04-18
yueloveme 2019-03-25
WhatWhyHow 2015-01-14
huiyi00 2011-04-01
故纸堆 2010-12-27
ibatsiSpring 2010-02-04
hengqiaqia 2019-07-01
刘康康 2019-07-01