Scrapy爬虫框架的使用
#_author:来童星#date:2019/12/24# Scrapy爬虫框架的使用#1.安装Twisted模块 https://www.lfd.uci.edu/~gohlke/pythonlibs/#2.单击Twisted索引import scrapyfrom scrapy.crawler import CrawlerProcess# 导入获取项目设置信息from scrapy.utils.project import get_project_settingsclass QuotesSpider(scrapy.Spider): name=‘quotes‘# 定义爬虫名称 def start_requests(self): # 设置爬虫目标的地址 urls=[‘http://quotes.toscrape.com/page/1/‘, ‘http://quotes.toscrape.com/page/2/‘ ] #获取所有地址,有几个地址发送几次请求 for url in urls: #发送网络请求 yield scrapy.Request(url=url,callback=self.parse) def parse(self, response): #获取页数 page=response.url.split(‘/‘)[-2] # 根据页数设置文件名称 filename=‘quotes-%s.html‘%page #写入文件的模式打开文件,如果没有该文件则创建文件 with open(filename,‘wb‘)as f: # 向文件中写入获取的html代码 f.write(response.body) #输出保存文件的名称 self.log(‘saved file %s‘%filename)if __name__==‘__main__‘: #创建CrawlerProcess类对象并传入项目设置信息参数 process=CrawlerProcess(get_project_settings()) # 设置需要启动的爬虫名称 process.crawl(‘quotes‘) process.start()
相关推荐
javaraylu 2020-06-28
andrewwf 2020-11-11
Arvinzx 2020-10-28
CycloneKid 2020-10-27
paleyellow 2020-10-25
baifanwudi 2020-10-25
heyboz 2020-10-21
wumxiaozhu 2020-10-16
ZHANGRENXIANG00 2020-07-27
zhangll00 2020-07-05
ZHANGRENXIANG00 2020-06-28
Catastrophe 2020-06-26
Catastrophe 2020-06-26
fangjack 2020-06-25
andrewwf 2020-06-16
qyf 2020-06-14
荒乱的没日没夜 2020-06-14