Scrapy爬虫Demo 爬取资讯分类

javaraylu

2019-12-11

爬取新浪网导航页所有下所有大类、小类、小类里的子链接，以及子链接页面的新闻内容。
效果演示图：

items.py

import scrapy
import sys
reload(sys)
sys.setdefaultencoding("utf-8")

class SinaItem(scrapy.Item):
    # 大类的标题 和 url
    parentTitle = scrapy.Field()
    parentUrls = scrapy.Field()

    # 小类的标题 和 子url
    subTitle = scrapy.Field()
    subUrls = scrapy.Field()

    # 小类目录存储路径
    subFilename = scrapy.Field()

    # 小类下的子链接
    sonUrls = scrapy.Field()

    # 文章标题和内容
    head = scrapy.Field()
    content = scrapy.Field()

spiders/sina.py

# -*- coding: utf-8 -*-
# -*- coding: utf-8 -*-

from Sina.items import SinaItem
import scrapy
import os

import sys
reload(sys)
sys.setdefaultencoding("utf-8")


class SinaSpider(scrapy.Spider):
    name= "sina"
    allowed_domains= ["sina.com.cn"]
    start_urls= [
       "http://news.sina.com.cn/guide/"
    ]

    def parse(self, response):
        items= []
        # 所有大类的url 和 标题
        parentUrls = response.xpath(‘//div[@id=\"tab01\"]/div/h3/a/@href‘).extract()
        parentTitle = response.xpath("//div[@id=\"tab01\"]/div/h3/a/text()").extract()

        # 所有小类的ur 和 标题
        subUrls  = response.xpath(‘//div[@id=\"tab01\"]/div/ul/li/a/@href‘).extract()
        subTitle = response.xpath(‘//div[@id=\"tab01\"]/div/ul/li/a/text()‘).extract()

        #爬取所有大类
        for i in range(0, len(parentTitle)):
            # 指定大类目录的路径和目录名
            parentFilename = "./Data/" + parentTitle[i]

            #如果目录不存在，则创建目录
            if(not os.path.exists(parentFilename)):
                os.makedirs(parentFilename)

            # 爬取所有小类
            for j in range(0, len(subUrls)):
                item = SinaItem()

                # 保存大类的title和urls
                item[‘parentTitle‘] = parentTitle[i]
                item[‘parentUrls‘] = parentUrls[i]

                # 检查小类的url是否以同类别大类url开头，如果是返回True (sports.sina.com.cn 和 sports.sina.com.cn/nba)
                if_belong = subUrls[j].startswith(item[‘parentUrls‘])

                # 如果属于本大类，将存储目录放在本大类目录下
                if(if_belong):
                    subFilename =parentFilename + ‘/‘+ subTitle[j]
                    # 如果目录不存在，则创建目录
                    if(not os.path.exists(subFilename)):
                        os.makedirs(subFilename)

                    # 存储 小类url、title和filename字段数据
                    item[‘subUrls‘] = subUrls[j]
                    item[‘subTitle‘] =subTitle[j]
                    item[‘subFilename‘] = subFilename

                    items.append(item)

        #发送每个小类url的Request请求，得到Response连同包含meta数据 一同交给回调函数 second_parse 方法处理
        for item in items:
            yield scrapy.Request( url = item[‘subUrls‘], meta={‘meta_1‘: item}, callback=self.second_parse)

    #对于返回的小类的url，再进行递归请求
    def second_parse(self, response):
        # 提取每次Response的meta数据
        meta_1= response.meta[‘meta_1‘]

        # 取出小类里所有子链接
        sonUrls = response.xpath(‘//a/@href‘).extract()

        items= []
        for i in range(0, len(sonUrls)):
            # 检查每个链接是否以大类url开头、以.shtml结尾，如果是返回True
            if_belong = sonUrls[i].endswith(‘.shtml‘) and sonUrls[i].startswith(meta_1[‘parentUrls‘])

            # 如果属于本大类，获取字段值放在同一个item下便于传输
            if(if_belong):
                item = SinaItem()
                item[‘parentTitle‘] =meta_1[‘parentTitle‘]
                item[‘parentUrls‘] =meta_1[‘parentUrls‘]
                item[‘subUrls‘] = meta_1[‘subUrls‘]
                item[‘subTitle‘] = meta_1[‘subTitle‘]
                item[‘subFilename‘] = meta_1[‘subFilename‘]
                item[‘sonUrls‘] = sonUrls[i]
                items.append(item)

        #发送每个小类下子链接url的Request请求，得到Response后连同包含meta数据 一同交给回调函数 detail_parse 方法处理
        for item in items:
                yield scrapy.Request(url=item[‘sonUrls‘], meta={‘meta_2‘:item}, callback = self.detail_parse)

    # 数据解析方法，获取文章标题和内容
    def detail_parse(self, response):
        item = response.meta[‘meta_2‘]
        content = ""
        head = response.xpath(‘//h1[@id=\"main_title\"]/text()‘)
        content_list = response.xpath(‘//div[@id=\"artibody\"]/p/text()‘).extract()

        # 将p标签里的文本内容合并到一起
        for content_one in content_list:
            content += content_one

        item[‘head‘]= head
        item[‘content‘]= content

        yield item

pipelines.py

from scrapy import signals
import sys
reload(sys)
sys.setdefaultencoding("utf-8")

class SinaPipeline(object):
    def process_item(self, item, spider):
        sonUrls = item[‘sonUrls‘]

        # 文件名为子链接url中间部分，并将 / 替换为 _，保存为 .txt格式
        filename = sonUrls[7:-6].replace(‘/‘,‘_‘)
        filename += ".txt"

        fp = open(item[‘subFilename‘]+‘/‘+filename, ‘w‘)
        fp.write(item[‘content‘])
        fp.close()

        return item

settings.py

BOT_NAME = ‘Sina‘

SPIDER_MODULES = [‘Sina.spiders‘]
NEWSPIDER_MODULE = ‘Sina.spiders‘

ITEM_PIPELINES = {
    ‘Sina.pipelines.SinaPipeline‘: 300,
}

LOG_LEVEL = ‘DEBUG‘

在项目根目录下新建main.py文件,用于调试，或者直接命令行输入：scrapy crawl sina

from scrapy import cmdline
cmdline.execute(‘scrapy crawl sina‘.split())

执行程序

py2 main.py

效果：

Scrapy爬虫Demo 爬取资讯分类

scrapy

javaraylu

0 关注 0 粉丝 0 动态

关注关注

如何利用Scrapy爬虫框架抓取网页全部文章信息（上篇）

首先我们理一下爬取思路，大致思想是：当获取到第一个页面的URL之后，尔后将第二页的URL发送给Scrapy，让Scrapy去自动下载该网页的信息，之后通过第二页的URL继续获取第三页的URL，由于每一页的网页结构是一致的，所以通过这种方式如此反复进行迭代，

andrewwf 2020-11-11

一分钟搞定Scrapy分布式爬虫、队列和布隆过滤器

你知道最快的方法是什么吗？一分钟真的能开发好或者修改出一个分布式爬虫吗？话不多说，先让我们看看怎么实践，再详细聊聊细节。如果你没有所需要的运行条件，你可以启动两个 Docker 镜像进行测试 :. 如果你有一个现成的爬虫，可以跳过这个 Step，直接到

Arvinzx 2020-10-28

一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

今天小编给大家详细的讲解一下Scrapy爬虫框架，希望对大家的学习有帮助。Scrapy是一个使用Python编程语言编写的爬虫框架，任何人都可以根据自己的需求进行修改，并且使用起来非常的方便。它可以应用在数据采集、数据挖掘、网络异常用户检测、存储数据等方面

CycloneKid 2020-10-27

在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（下篇）

前几天给大家分享了在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（上篇），没来得及上车的小伙伴可以戳进去看看，今天继续上篇的内容往下进行。至此，关于Xpath表达式的具体应用教程先告一段落。

paleyellow 2020-10-25

在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（上篇）

上一篇文章我们讲述了网页结构和Xpath表达式语法知识，感兴趣的小伙伴可以戳这篇文章：网页结构的简介和Xpath语法的入门教程。我们了解到Xpath表达式最好是通过自己进行网页分析和针对性的选取唯一性的标签进行定位，可以提高提取效率，而且还不容易出错。

baifanwudi 2020-10-25

手把手教你进行Scrapy中item类的实例化操作

首先去parse_detail函数下对其进行实例化，实例化的方法也十分简单，如下图所示。其中，目标字段可以参考items.py中定义的item，这样可以加快填充的速度。

heyboz 2020-10-21

如何改造 Scrapy 从而实现多网站大规模爬取？

Scrapy 框架默认是用来开发定向爬虫的。一般情况下，在 spiders 文件夹下面的一个.py 文件对应了一个网站的爬取。但还有另外一种爬虫，它不会拘泥于提取页面上的特定文字，而是关注如何并行爬取非常多的网站。这种爬虫，一般是从若干个种子网址开始爬。但

wumxiaozhu 2020-10-16

二十六、Scrapy自定义命令

from scrapy.commands import ScrapyCommand??class Command(ScrapyCommand): requires_project = True?

ZHANGRENXIANG00 2020-07-27

scrapy 管理部署的爬虫项目的python类

还有部分api接口没有添加进来,可以参照官方的文档添加.

hilary0 2020-07-05

分布式爬虫部署基于scrapy和scrapy-redis

安装一个scrapy-redis的组件。原生的scrapy是不可以实现分布式爬虫，必须要让scrapy结合着scrapy-redis组件一起实现分布式。scrapy-redis组件的作用可以给原生的scrapy框架提供可以被共享的管道和调度器。结合配置文件

zhangll00 2020-07-05

8_3 scrapy模拟登录人人网

在这个方法中发送post请求，没有重写这个方法基类Spider中的方法 start_request()默认是发送get请求。

javaraylu 2020-06-28

Python爬虫 - scrapy

start_requests:可以将遍历start_urls列表，将每一个列表元素进行get请求的发送。def file_path:指定文件路径。# Don‘t forget to add your pipeline to the ITEM_PIPELIN

ZHANGRENXIANG00 2020-06-28

Scrapy爬虫

二、Scrapy爬虫框架结构

ZHANGRENXIANG00 2020-06-27

用scrapy爬取图片

detail_list = response.xpath(‘//*[@id="main"]/div[3]/ul/li/a/@href‘).extract(). yield scrapy.Request(detail_url, callb

Catastrophe 2020-06-26

scrapy基本知识

Scrapy爬虫框架主要由5个部分组成，分别是：Scrapy Engine，Scheduler（调度器），Downloader（下载器），Spiders（蜘蛛），Item Pipeline。爬取过程是Scrapy引擎发送请求，之后调度器把初始URL交给下载

Catastrophe 2020-06-26

Python爬虫 - scrapy框架的基本操作

scrapy异步的爬虫框架。c. 进入下载目录，执行 pip3 install Twisted?只可以将parse方法的返回值存储到指定后缀的文本文件中。# #xpath在进行数据提取时，返回的不再是字符串而是一个Selector对象，想要

fangjack 2020-06-25

十八、scrapy内置媒体（图片和文件）下载方式

　　MediaPipeline会为当前安排好的要下载的图片保留一个内部队列，并将那些到达的包含相同图片的项目连接到该队列中，避免多次下载几个item共享的同一图片。　　3、当item进入filespipeline,file_urls组内的url将被Scra

andrewwf 2020-06-16

Scrapy爬虫

　　Scrapy是一个常用的爬虫框架，可以提升爬虫的效率，从而更好的实现爬虫。Scrapy是一个为了抓取网页数据、提取结构性数据而编写的应用框架，该框架是封装的，包含request、下载器、解析器和twisted等。定义一个item容器，item容器是存储

qyf 2020-06-14

Python Scrapy图片爬取原理及代码实例

在管道文件对图片进行下载和持久化存储。配置文件要增加IMAGES_STORE = './imgsLib'表明图片存放的路径。#对某一个媒体资源进行请求发送。#item就是接收到的spider提交过来的item. #制定媒体数据存储的名称。#将item传递给

荒乱的没日没夜 2020-06-14

scrapy 详解

　　Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，我们只需要实现少量的代码，就能够快速的抓取。Scrapy 使用了Twisted[‘tw?st?d]异步网络框架。def parse: # 数据提取方法，处理start_url地址中的

MiracleZhao 2020-06-13

安科网

Scrapy爬虫Demo 爬取资讯分类

javaraylu

items.py

spiders/sina.py

pipelines.py

settings.py

在项目根目录下新建main.py文件,用于调试，或者直接命令行输入：scrapy crawl sina

执行程序

javaraylu

相关推荐

如何利用Scrapy爬虫框架抓取网页全部文章信息（上篇）

一分钟搞定Scrapy分布式爬虫、队列和布隆过滤器

一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（下篇）

在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（上篇）

手把手教你进行Scrapy中item类的实例化操作

如何改造 Scrapy 从而实现多网站大规模爬取？

二十六、Scrapy自定义命令

scrapy 管理部署的爬虫项目的python类

分布式爬虫部署基于scrapy和scrapy-redis

8_3 scrapy模拟登录人人网

Python爬虫 - scrapy

Scrapy爬虫

用scrapy爬取图片

scrapy基本知识

Python爬虫 - scrapy框架的基本操作

十八、scrapy内置媒体（图片和文件）下载方式

Scrapy爬虫

Python Scrapy图片爬取原理及代码实例

scrapy 详解

javaraylu