Python爬虫任务数据操作的小技巧

zupzng

2019-11-27

需求

爬取某网站的项目列表页，获取其url，标题等信息，作为后续爬取详情页的任务url。

Python爬虫任务数据操作的小技巧

先上代码

# -*- coding: utf-8 -*- 
# @Time : 2019-11-08 14:04 
# @Author : cxa 
# @File : motor_helper.py 
# @Software: PyCharm 

import asyncio 
import datetime 
from loguru import logger 
from motor.motor_asyncio import AsyncIOMotorClient 
from collections import Iterable 

try: 
 import uvloop 

 asyncio.set_event_loop_policy(uvloop.EventLoopPolicy()) 
except ImportError: 
 pass 

db_configs = { 
 &#39;host&#39;: &#39;127.0.0.1&#39;, 
 &#39;port&#39;: &#39;27017&#39;, 
 &#39;db_name&#39;: &#39;mafengwo&#39;, 
 &#39;user&#39;: &#39;&#39; 
} 

class MotorOperation: 
 def __init__(self): 
 self.__dict__.update(**db_configs) 
 if self.user: 
 self.motor_uri = f&#34;mongodb://{self.user}:{self.passwd}@{self.host}:{self.port}/{self.db_name}?authSource={self.db_name}&#34; 
 else: 
 self.motor_uri = f&#34;mongodb://{self.host}:{self.port}/{self.db_name}&#34; 
 self.client = AsyncIOMotorClient(self.motor_uri) 
 self.mb = self.client[self.db_name] 
 async def save_data_with_status(self, items, col=&#34;seed_data&#34;): 
 for item in items: 
 data = dict() 
 data[&#34;update_time&#34;] = datetime.datetime.now() 
 data[&#34;status&#34;] = 0 # 0初始 
 data.update(item) 
 print(&#34;data&#34;, data) 
 await self.mb[col].update_one({ 
 &#34;url&#34;: item.get(&#34;url&#34;)}, 
 {&#39;$set&#39;: data, &#39;$setOnInsert&#39;: {&#39;create_time&#39;: datetime.datetime.now()}}, 
 upsert=True) 

 async def add_index(self, col=&#34;seed_data&#34;): 
 # 添加索引 
 await self.mb[col].create_index(&#39;url&#39;)

因为我的爬虫是异步网络模块aiohttp写的，所以选择了pymongo的异步版本motor进行操作。

异步代码的基本属性就是async/await成对的出现，如果把上面的await和async去掉，就是类似pymongo的写法了,这里异步不是重点，重点是我们怎么处理每条数据。

这里除了网页的url，标题等信息，我需要附加3个字段。分别是create_time, status,update_time。

这三个字段分别代表，数据插入数据，状态和更新时间。

Python爬虫任务数据操作的小技巧

那么我为什么添加三个字段呢?

首先，我们需要判断每次的任务数据是否存在，我这里的情况是存在就更新不存在就插入，那么我就需要一个查询条件，作为更新的条件，很显然这里可以使用任务的url作为唯一条件(你还可以使用url+标题做个md5然后保存)，好了查询条件确定。

下面说create_time这个比较好理解就是数据插入时间,关键是为什么还要一个update_time，这个的话和status字段有一定的关系。画重点：这个status作为后续爬虫进行爬取的一个标志用。目前这个status有4个值，0-4，我这是这样定义的，

0:初始状态

1:抓取中的任务

2:抓取成功

3:抓取失败

4:抓取成功但是没有匹配到任务。

后面随着任务的爬取，状态也是不断变化的，同时我们需要更新update_time为最新的时间。这个目前的话是体现不出来什么作用，它的使用场景是，重复任务的抓取，比如今天我抓取了任务列表里的url1、url2，第二天的时候我如果再抓到，为了区分是抓取失败还是抓取成功，我们根据create_time和update_time就可以进行推断了，如果两者相同而且是当前的日期说明刚抓的，如果update_time的日期比create_time新可以说明，抓到了重复的任务。关于字段的设计就啰嗦这么些。

Python爬虫任务数据操作的小技巧

下面是实现，我们可以通过update_one方法，对数据作存在或者插入操作，因为url作为查询条件，后面量大的话就最好添加一个索引。也就是上面的 add_index方法。

好了最好说插入更新的具体代码

需要注意的是

{&#39;$set&#39;: data, &#39;$setOnInsert&#39;: {&#39;create_time&#39;: datetime.datetime.now()}}

$setOnInsert里面使用的字段是数据不存在的时候才插入的，存在就不动了，只插入$set里面指定的。

另外$setOnInsert里面使用的字段不能在$set里面再次出现

upsert=True代表的是不存在就插入。

python python爬虫

安科网

Python爬虫任务数据操作的小技巧

zupzng

zupzng

相关推荐

Python爬虫破解登陆哔哩哔哩的方法

python 爬虫如何实现百度翻译

python 发送get请求接口详解

python 使用tkinter+you-get实现视频下载器

python中requests模拟登录的三种方式(携带cookie/session进行请求网站)

python开发一个解析protobuf文件的简单编译器

python 下载文件的多种方法汇总

Linux Shell 如何获取参数的方法

python跨文件使用全局变量的实现

python调用百度API实现人脸识别

Python调用ffmpeg开源视频处理库，批量处理视频

详解python os.path.exists判断文件或文件夹是否存在

python实现在列表中查找某个元素的下标示例

python如何获得list或numpy数组中最大元素对应的索引

Python实现列表索引批量删除的5种方法

致命错误！Python开发者的7个崩溃瞬间

针对Python开发人员的10个“疯狂”的项目构想

用Python内置模块处理ini配置文件

VS Code 中 Python 扩展的部分功能重构，支持 R 和 Julia

Python五个隐藏的特性，你可能从未听说过

zupzng