scrapy框架的初始

Scrapy框架(爬虫框架)

  • 什么是Scrapy?

    • Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化存储等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。
  • 安装scrapy

  • scrapy的使用方法:

    • 创建项目: scrapy startproject xxx
    • 创建爬虫文件: scrapy genspider first www.xxx.com
    • 执行爬虫文件:scrapy crawl first
    • 执行爬虫文件不打印日志: scrapy crawl budejie --nolog
    • 执行爬虫文件并持久化存储到csv文件中: scrapy crawl budejie -o budejie.csv
  • 管道持久化存储

    • 文件存储: 可以实现任意文件类型的存储
    • mysql存储:
      • 创建连接
      • 创建游标
      • 使用事务
      • 关闭游标和连接
    • redis存储
      • 创建连接
      • 存储的数据需要进行json序列化
      • 关闭连接

相关推荐