爬虫基础知识(陆)

一、多线程爬虫

  (一)程序、进程与线程:

    程序:相当于一个应用。

    进程:程序运行资源(内存资源)的最小分配单位,一个程序可以有多个进程。

    线程:cpu最小的调度单位,必须依赖进程而存在。线程没有独立资源,所有线程共享该进程的全部资源。

    线程的划分尺度比进程小。

  (二)为什么多进程和多线程可以提高程序的运行速度?

    1、提高程序的运行速度的第一种方法:提高CPU的利用率。

      解决方式:CPU不用休息。----多线程

      程序中如果只有一个线程,CPU就只处理它。如果在程序中遇到了阻塞,一旦阻塞了,CPU就休息了,休息的时间里,浪费了CPU的资源。

      造成阻塞的方法:

        a、time.sleep()

        b、遇到IO

      而多线程指多个任务。CPU会在这多个任务之间切换,若其中一个线程阻塞了,CPU不会休息,会处理其他线程。

    2、提高程序运行速度的第二种方法:增加CPU,让每个CPU处理一个任务。

      CPU是多核的。---利用CPU的多核进行解决。CPU每一个核处理一个进程。----多进程

  (三)什么是多线程:

      程序中包含多个并行执行流。

二、python中的threading模块

  1、多线程的开启方法:

    (1)使用threading模块的方法

      t=threading.Thread(

        target=线程执行的任务(方法)名字,

        args=执行方法的参数,是一个元组类型

       )#创建线程

      t.start()#启动线程

    (2)使用自定义类的形式来创建线程

      利用面向对象继承的思想。

      自定义线程类:

        a、继承threading.Thread

        b、保证父类的init方法能够被调用。

          如何调用父类的init方法:

            super().__init__()

           threading.Thread.__init__(self)

        用类去创建线程的步骤:

          1、继承Thread

          2、重写run方法

          3、实例化线程类,就相当于创建一个线程,用这个对象调用start方法,就可以启动这个线程。

          4、如果自定义线程类要实现init方法,必须先调用父类的init方法。

  2、线程的名称:可以帮助我们测试时了解哪个线程在做哪件事。

    线程对象.name查看:默认是Thread-1,Thread-2....

    自定义名称:其实就是给self.name赋值

  3、查看线程的数量:

    threading.enumerate()---可以查看当前进程中的线程数量。

  4、线程的执行顺序是混乱、随机的。

    原因:线程的状态决定。

相关推荐