python语法—使用Pool实现多进程并行(附19全套python资料分享)
简介
Pool 模块来自于 multiprocessing 模块。
- multiprocessing 模块是跨平台版本的多进程模块,像线程一样管理进程,与 threading 很相似,对多核CPU的利用率会比 threading 好的多。
- Pool 类可以提供指定数量的进程供用户调用,当有新的请求提交到Pool中时,如果池还没有满,就会创建一个新的进程来执行请求。如果池满,请求就会告知先等待,直到池中有进程结束,才会创建新的进程来执行这些请求。
函数
apply()
函数原型:apply(func[, args=()[, kwds={}]])
该函数用于传递不定参数,同python中的apply函数一致,主进程会被阻塞直到函数执行结束(不建议使用,并且3.x以后不在出现)。
apply_async
函数原型:apply_async(func[, args=()[, kwds={}[, callback=None]]])
与apply用法一致,但它是非阻塞的且支持结果返回后进行回调。
map()
函数原型:map(func, iterable[, chunksize=None])
Pool类中的map方法,与内置的map函数用法行为基本一致,它会使进程阻塞直到结果返回。
map_async()
函数原型:map_async(func, iterable[, chunksize[, callback]])
与map用法一致,但是它是非阻塞的。其有关事项见apply_async。
阻塞与非阻塞的讲解见下面备注。
close()
关闭进程池(pool),使其不在接受新的任务。
terminal()
结束工作进程,不在处理未处理的任务。
join()
主进程阻塞等待子进程的退出, join方法要在close或terminate之后使用。
示例
比如我想同时让服务器执行多条 hive 命令,可编程如下:
from multiprocessing import Pool import subprocess # 定义所有并行语句都回调用的函数 def run_sh(sh): ''' 执行一行shell命令 ''' (statusLoad, outputLoad) = subprocess.getstatusoutput(sh) return (statusLoad, outputLoad) # 将需要执行的多条语句放入到一个list中 sh_list = [] sh_list.append('hive -e "select * from A" > A_result') sh_list.append('hive -e "select * from B" > B_result') sh_list.append('hive -e "select * from C" > C_result') # 开始并行 pool = Pool(len(sh_list)) pool.map(run_sh, sh_list) # 表示将 sh_list 每个元素作为参数递给 run_sh pool.close() # 将进程池关闭,不再接受新的进程 pool.join() # 主进程阻塞,只有池中所有进程都完毕了才会通过 # 开始处理结果文件,此时三个 *_result 文件肯定是存在并且已经写入完毕的
备注
阻塞与非阻塞的区别
map() 会使进程阻塞,即通过 map() 开启的多进程都结束之后,这个函数才会有返回结果,否则主进程会一直等待,不会往下进行 。
map_async() 为非阻塞,即通过 map_async() 开启多进程之后,立刻会返回结果,主进程会继续往下执行。
注意:
如果后面调用了 join() 函数,则不管之前用的是 map 还是 map_async,主进程都会等待,直到进程池中所有进程执行完毕,才会继续往下执行。
`starmap` 函数
Pool 类中,python 3.X 还引入了 starmap 函数,与 map 的区别在于, starmap支持将多个参数放入到队列中,不同参数按照顺序以元组形式存放,举例如下:
from multiprocessing import Pool def func(a, b): print(a + b) if __name__=="__main__": args = [(1,2),(3,4),(5,6)] pool = Pool(3) pool.starmap(func, args)
输出
3 7 11