数据挖掘_利用协程抓取
协程,又称微线程,纤程。英文名Coroutine。
协程的概念很早就提出来了,但直到最近几年才在某些语言(如Lua)中得到广泛应用。
子程序,或者称为函数,在所有语言中都是层级调用,比如A调用B,B在执行过程中又调用了C,C执行完毕返回,B执行完毕返回,最后是A执行完毕。
所以子程序调用是通过栈实现的,一个线程就是执行一个子程序。
子程序调用总是一个入口,一次返回,调用顺序是明确的。而协程的调用和子程序不同。
协程看上去也是子程序,但执行过程中,在子程序内部可中断,然后转而执行别的子程序,在适当的时候再返回来接着执行。
注意,在一个子程序中中断,去执行其他子程序,不是函数调用,有点类似CPU的中断。
摘自网上
协程与多线程的比较,可以参考下图
一般在Python讨论协程时,都会与生成器联系在一起
生成器是一个函数,主要特点是生成器在返回值是,不是使用return,而是使用yield关键字,在定义函数时,如果函数体中包含yield关键字,则该函数就被认为是一个生成器,对于这些基本概念,我们不做过多讨论
接下来我们首先要引入一个模块gevent,使用gevent异步库可以更加方便地实现基于协程的并发设计,在gevent中使用greenlet对象实现并发,greenlet就是协程,可以将其认为是一种轻量线程
首先安装这个模块,非常简单
pip3 install gevent
接下来,我们还是以之前当当图书的那个例子,进行测试
我们在这定义协程的主要函数
# -*- coding: utf-8 -*- """ Created on 2018/5/5 @author: susmote """ import gevent from gevent import monkey monkey.patch_all() import time import mining_func def gevent_test(): start_time = time.time() page_range_list = [ (1, 10), (11, 20), (21, 32), ] jobs = [] for page_range in page_range_list: jobs.append(gevent.spawn(mining_func.get_urls_in_pages, page_range[0], page_range[1])) gevent.joinall(jobs) end_time = time.time() print("抓取时间:", end_time - start_time) return end_time - start_time
关于这段代码,基本和之前定义多线程,多进程的过程相似,我不做过多无用的解释,只是提示一下,monkey.patch_all()这个是必须不能忘记加,如果没有这一句,程序将会变为依次顺序抓取,这样就会失去并发的能力
gevent.spawn这段语句可以生成greenlet,gevent.joinall(jobs),也就是说他会阻塞程序的执行,直至所有的协程执行完毕
运行主函数如下
# -*- coding: utf-8 -*- """ Created on 2018/5/5 @author: susmote """ from main_func import gevent_test if __name__ == "__main__": gevent_test()
下面运行这段代码
最后运行时间
3.439 秒
关于协程我讲的就是这些