Python多线程爬虫简单示例

pythontty

2019-04-22

python是支持多线程的，主要是通过thread和threading这两个模块来实现的。thread模块是比较底层的模块，threading模块是对thread做了一些包装的，可以更加方便的使用。

虽然python的多线程受GIL限制，并不是真正的多线程，但是对于I/O密集型计算还是能明显提高效率，比如说爬虫。

下面用一个实例来验证多线程的效率。代码只涉及页面获取，并没有解析出来。

# -*-coding:utf-8 -*-
import urllib2, time
import threading
 
 
class MyThread(threading.Thread):
  def __init__(self, func, args):
    threading.Thread.__init__(self)
    self.args = args
    self.func = func
 
  def run(self):
    apply(self.func, self.args)
 
 
def open_url(url):
  request = urllib2.Request(url)
  html = urllib2.urlopen(request).read()
  print len(html)
  return html
 
if __name__ == '__main__':
  # 构造url列表
  urlList = []
  for p in range(1, 10):
    urlList.append('http://s.wanfangdata.com.cn/Paper.aspx?q=%E5%8C%BB%E5%AD%A6&p=' + str(p))
   
  # 一般方式
  n_start = time.time()
  for each in urlList:
    open_url(each)
  n_end = time.time()
  print 'the normal way take %s s' % (n_end-n_start)
   
  # 多线程
  t_start = time.time()
  threadList = [MyThread(open_url, (url,)) for url in urlList]
  for t in threadList:
    t.setDaemon(True)
    t.start()
  for i in threadList:
    i.join()
  t_end = time.time()
  print 'the thread way take %s s' % (t_end-t_start)

分别用两种方式获取10个访问速度比较慢的网页，一般方式耗时50s，多线程耗时10s。

多线程代码解读:

# 创建线程类，继承Thread类
class MyThread(threading.Thread):
  def __init__(self, func, args):
    threading.Thread.__init__(self) # 调用父类的构造函数
    self.args = args
    self.func = func
 
  def run(self): # 线程活动方法
    apply(self.func, self.args)

threadList = [MyThread(open_url, (url,)) for url in urlList] # 调用线程类创建新线程，返回线程列表
  for t in threadList:
    t.setDaemon(True) # 设置守护线程，父线程会等待子线程执行完后再退出
    t.start() # 线程开启
  for i in threadList:
    i.join() # 等待线程终止，等子线程执行完后再执行父线程

以上就是本文的全部内容，希望对大家的学习有所帮助。

多线程 python python多线程线程 python爬虫 python继承

pythontty

0 关注 0 粉丝 0 动态

相关推荐

多线程真的比单线程快？

事实上，Python 多线程另一个很重要的话题叫，GIL。在Python中，可以通过多进程、多线程和多协程来实现多任务。难道多线程就一定比单线程快?下面我用一段代码证明我自己得观点。GIL 的工作原理：比如下面这张图，就是一个 GIL 在 Python 程

farewellpoem 2020-11-09

多线程中如何使用gdb精确定位死锁问题

本文转载自微信公众号「程序喵大人」，作者程序喵大人。在多线程开发过程中很多人应该都会遇到死锁问题，死锁问题也是面试过程中经常被问到的问题，这里介绍在c++中如何使用gdb+python脚本调试死锁问题，以及如何在程序运行过程中检测死锁。当两个以上的运算单

lhtzbj 2020-08-13

Python多线程

多任务可以由多进程完成，也可以由一个进程内的多线程完成。进程是由若干线程组成的，一个进程至少有一个线程。# target=线程需执行的方法， name=线程的名字， args=. # 任何进程都会默认启动一个线程，这里启动的就是 MainThread ，

learnpy 2020-07-19

python 多线程 QTimer实现多线程

使用线程可以把占据长时间的程序中的任务放到后台去处理。程序的运行速度可能加快。每个独立的线程有一个程序运行的入口、顺序执行序列和程序的出口。但是线程不能够独立执行，必须依存在应用程序中，由应用程序提供多个线程执行控制。每个线程都有他自己的一组CPU寄存器，

kyelu 2020-07-09

Python-多线程

使用线程可以把占据长时间的程序中的任务放到后台去处理。在一些等待的任务实现上如用户输入、文件读写和网络收发数据等，线程就比较有用了。线程在执行过程中与进程还是有区别的。但是线程不能够独立执行，必须依存在应用程序中，由应用程序提供多个线程执行控制。每个线程都

举 2020-06-14

第54天：Python 多线程 Event

Event 是一个事务处理的机制，用于通知多个异步任务某个事件已经发生了。比如在交通红绿灯中多辆在行驶中的汽车可以表示成程序中的多个异步任务，红绿灯的亮起可以表示成一个通知，红灯通知这个汽车的行驶任务必须停止了，绿灯通知这个汽车的行驶任务可以继续驾驶了。E

haokele 2020-05-31

第53天： Python 线程池

大家都知道当任务过多，任务量过大时如果想提高效率的一个最简单的方法就是用多线程去处理，比如爬取上万个网页中的特定数据，以及将爬取数据和清洗数据的工作交给不同的线程去处理，也就是生产者消费者模式，都是典型的多线程使用场景。那是不是意味着线程数量越多，程序的执

fengling 2020-05-31

第49天：Python 多线程之 threading 模块

在之前的文章中，我们已经介绍了 Python 通过 _thread 和 threading 模块提供了对多线程的支持，threading 模块兼具了 _thread 模块的现有功能，又扩展了一些新的功能，具有十分丰富的线程操作功能，本节我们就来详细学习一下

maimang00 2020-05-30

Python多线程之死锁

死锁是由于两个或以上的线程互相持有对方需要的资源，且都不释放占有的资源，导致这些线程处于等待状态，程序无法执行。　　　1.互斥性：线程对资源的占有是排他性的，一个资源只能被一个线程占有，直到释放。这样线程A和线程B相互持有对方需要的锁，从而发生阻塞，最终变

坚持是一种品质 2020-05-28

Python中的多线程如何正确运用？案例详解

function 是开发者定义的线程函数，args 是传递给线程函数的参数，必须是tuple类型，kwargs 是可选参数，字典类型。调用 threading.Thread 之后，会创建一个新的线程，参数 target 指定线程将要运行的函数，args 和

laityc 2020-05-27

Python 多线程

使用线程可以把占据长时间的程序中的任务放到后台去处理。在一些等待的任务实现上如用户输入、文件读写和网络收发数据等，线程就比较有用了。线程在执行过程中与进程还是有区别的。但是线程不能够独立执行，必须依存在应用程序中，由应用程序提供多个线程执行控制。每个线程都

jling 2020-05-19

Python中的多处理与多线程：新手简介

你为什么想要它?Python是一种线性语言。但是，当您需要更多的处理能力时，线程模块就派上用场了。Python中的线程不能用于并行CPU计算。但是它非常适合于I/O操作，比如web抓取，因为处理器处于空闲状态，等待数据。线程化改变了游戏规则，因为许多与网络

YENCSDN 2020-05-14

多线程默认情况,守护线程及join对子线程运行的影响

Python多线程与多进程中join()方法的效果是相同的。此时join的作用就凸显出来了，join所完成的工作就是线程同步，即主线程任务结束之后，进入阻塞状态，一直等待其他的子线程执行结束之后，主线程在终止，例子见下面三。当设置守护线程时，含义是主线程对

singer 2020-04-30

Python中多线程和多处理的初学者指南

使用Python分析数据，如果使用了正确的数据结构和算法，有时可以大量提高程序的速度。实现此目的的一种方法是使用Muiltithreading(多线程)或Multiprocessing。在这篇文章中，我们不会详细讨论多线程或多处理的内部原理。相反，我们举一

举 2020-04-29

python多线程实现方式，最基础的实现方式模块是什么

python3.x中通过threading模块创建新的线程有两种方法：一种是通过threading.Thread-即传递给Thread对象一个可执行方法（或对象）;第二种是继承threading.Thread定义子类并重写run()方法。第二种方法中，唯一

学习备忘录 2020-04-20

代码详解Python多线程、多进程、协程

很多时候我们写了一个爬虫，实现了需求后会发现了很多值得改进的地方，其中很重要的一点就是爬取速度。本文就通过代码讲解如何使用多进程、多线程、协程来提升爬取速度。下面代码的目的是访问300次百度页面并返回状态码，其中parse_1函数可以设定循环次数，每次循环

CloudXli 2020-04-07

Java+Linux，深入内核源码讲解多线程之进程

之前写了两篇文章，都是针对Linux这个系统的，为什么?我为什么这么喜欢写这个系统的知识，可能就是为了今天的内容多线程系列，现在多线程不是一个面试重点啊，那如果你能深入系统内核回答这个知识点，面试官会怎么想?你会不会占据面试的主动权今天，我就开始一个系

瓜牛呱呱 2020-11-12

深究 Linux 多线程中的信号量 Semaphore

Semaphore，对多线程有过了解的人都听说过，一般我们解释为“信号量”。可是，这个单词对我们来说还是比较陌生，它和另一个单词 Singal(信号)什么关系呢?想要真正理解这个概念，必须得从它的翻译开始。事实上，Semaphore 最好的翻译应该为“

starinshy 2020-11-10

Linux平台服务器多线程开发（一）

根据运行环境和调度者的身份，线程可分为内核线程和用户线程。可见，内核线程相当于用于线程运行的容器。换句话说，一个进程的所有执行线程共享该进程的时间片，它们对外表现出相同的优先级。并且由于它不占用额外的内核资源，所有即使一个进程创建了很多线程，也不会对系统性

cuiweisaidelike 2020-08-02

Linux平台服务器多线程开发（一）

根据运行环境和调度者的身份，线程可分为内核线程和用户线程。可见，内核线程相当于用于线程运行的容器。换句话说，一个进程的所有执行线程共享该进程的时间片，它们对外表现出相同的优先级。并且由于它不占用额外的内核资源，所有即使一个进程创建了很多线程，也不会对系统性

comeonxueRong 2020-08-02

C语言多线程

线程在Unix系统下，通常被称为轻量级的进程，线程虽然不是进程，但却可以看作是Unix进程的表亲，同一进程中的多条线程将共享该进程中的全部系统资源，如虚拟地址空间，文件描述符和信号处理等等。但同一进程中的多个线程有各自的调用栈，自己的寄存器环境，自己的线程

yunfeitian 2020-07-05

C++并发编程实战：如何为多线程性能设计数据结构？

在8.1节中我们看到了在线程间划分工作的一些方法,在8.2节中我们看到了影响代码性能的一些因素。当设计多线程性能的数据结构的时候如何使用这些信息呢?这是在第6章和第7章中处理的很困难的问题,是关于设计可以安全并行读取的数据结构。当为多线程性能设计你的数据结

zhoujiyu 2020-06-28

C# 多线程的阻塞和继续

　　在工作中，会遇到需求多线程处理相应的业务需求，最典型的包括Socket的通信。　　多线程处理里，就会考虑到，哪个线程先运转，哪个线程后运转的情况。　　这里我介绍一下，运用ManualResetEvent类来对线程进行堵塞和持续操作。　　它有三个重要的办

TreasureZ 2020-06-25

pythontty

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号