Pyppeteer

目录

Pyppeteer

引言

Selenium 在被使用的时候有个麻烦事,就是环境的相关配置,得安装好相关浏览器,比如 Chrome、Firefox 等等,然后还要到官方网站去下载对应的驱动

最重要的还需要安装对应的 Python Selenium 库,确实是不是很方便,另外如果要做大规模部署的话,环境配置的一些问题也是个头疼的事情

Pyppeteer简介

注意,讲解的模块叫做 Pyppeteer,不是 Puppeteer。

Puppeteer 是 Google 基于 Node.js 开发的一个工具,有了它我们可以通过 JavaScript 来控制 Chrome 浏览器的一些操作,当然也可以用作网络爬虫上,其 API 极其完善,功能非常强大。

而 Pyppeteer 又是什么呢?它实际上是 Puppeteer 的 Python 版本的实现,但他不是 Google 开发的,是一位来自于日本的工程师依据 Puppeteer 的一些功能开发出来的非官方版本。

在 Pyppetter 中,实际上它背后也是有一个类似 Chrome 浏览器的 Chromium 浏览器在执行一些动作进行网页渲染,首先说下 Chrome 浏览器和 Chromium 浏览器的渊源

Chromium 是谷歌为了研发 Chrome 而启动的项目,是完全开源的。二者基于相同的源代码构建,Chrome 所有的新功能都会先在 Chromium 上实现,待验证稳定后才会移植,因此 Chromium 的版本更新频率更高,也会包含很多新的功能,但作为一款独立的浏览器,Chromium 的用户群体要小众得多。两款浏览器“同根同源”,它们有着同样的 Logo,但配色不同,Chrome 由蓝红绿黄四种颜色组成,而 Chromium 由不同深度的蓝色构成。

Pyppeteer

Pyppeteer 就是依赖于 Chromium 这个浏览器来运行的。

那么有了 Pyppeteer 之后,我们就可以免去那些繁琐的环境配置等问题。

另外 Pyppeteer 是基于 Python 的新特性 async 实现的,所以它的一些执行也支持异步操作,效率相对于 Selenium 来说也提高了。

环境安装

  • 由于 Pyppeteer 采用了 Python 的 async 机制,所以其运行要求的 Python 版本为 3.5 及以上
  • pip install pyppeteer

如果第一次运行的时候,Chromium 浏览器没有安装,那么程序会帮我们自动安装和配置,就免去了繁琐的环境配置等工作。当然也可以使用 pyppeteer-install 命令就会自动下载对应的最新版本 chromium 浏览器到 pyppeteer 的默认位置

chromium 下载完后会在此目录 C:\Users\Administrator\AppData\Local\pyppeteer\pyppeteer\local-chromium\575458

Pyppeteer

Pyppeteer 是一款非常高效的 web 自动化测试工具,由于 Pyppeteer 是基于 asyncio 构建的它的所有 属性 和方法 几乎都是 coroutine (协程) 对象因此在构建异步程序的时候非常方便,天生就支持异步运行。

程序构建的基本思路是新建 一个 browser 浏览器一个 页面 page

看下面这段代码,在 main 函数中,先是建立一个浏览器对象,然后打开新的标签页,访问百度主页,对当前页面截图并保存为“example.png”,最后关闭浏览器。前文也提到过,pyppeteer 是基于 asyncio 构建的,所以在使用的时候需要用到 async/await 结构

示例

爬取 http://quotes.toscrape.com/js/ 全部页面数据

import asyncio
from pyppeteer import launch
from lxml import etree

async def main():
    browser = await launch(headless =False)
    page = await browser.newPage()
    await page.goto('http://quotes.toscrape.com/js/')
    page_text = await page.content()
    tree = etree.HTML(page_text)
    div_list = tree.xpath('//div[@class="quote"]/span/text()')
    # print(len(div_list))
    for _ in div_list:
        print(_)
    await browser.close()

asyncio.get_event_loop().run_until_complete(main())

运行上面这段代码会发现并没有浏览器弹出运行,这是因为 Pyppeteer 默认使用的是无头浏览器,如果想要浏览器显示,需要在launch 函数中设置参数 “headless =False”

解释:launch 方法会新建一个 Browser 对象,然后赋值给 browser,然后调用 newPage 方法相当于浏览器中新建了一个选项卡,同时新建了一个 page 对象。

然后 page 对象调用了 goto 方法就相当于在浏览器中输入了这个 URL,浏览器跳转到了对应的页面进行加载,加载完成之后再调用 content 方法,返回当前浏览器页面的源代码。

然后进一步地,我们用 pyquery 进行同样地解析,就可以得到 JavaScript 渲染的结果了。

在这个过程中,我们没有配置 Chrome 浏览器,没有配置浏览器驱动,免去了一些繁琐的步骤,同样达到了 Selenium 的效果,还实现了异步抓取

详情用法

  • 开启浏览器
    • 调用 launch 方法即可,相关参数介绍:
      • ignoreHTTPSErrors (bool): 是否要忽略 HTTPS 的错误,默认是 False。
      • headless (bool): 是否启用 Headless 模式,即无界面模式,如果 devtools 这个参数是 True 的话,那么该参数就会被设置为 False,否则为 True,即默认是开启无界面模式的。
      • executablePath (str): 可执行文件的路径,如果指定之后就不需要使用默认的 Chromium 了,可以指定为已有的 Chrome 或 Chromium。
      • args (List[str]): 在执行过程中可以传入的额外参数。
      • devtools (bool): 是否为每一个页面自动开启调试工具,默认是 False。如果这个参数设置为 True,那么 headless 参数就会无效,会被强制设置为 False。
  • 关闭提示条:”Chrome 正受到自动测试软件的控制”,这个提示条有点烦,那咋关闭呢?这时候就需要用到 args 参数了,禁用操作如下:

    browser = await launch(headless=False, args=['--disable-infobars'])
  • 处理页面显示问题:访问淘宝首页

    • import asyncio
      from pyppeteer import launch
      
      async def main():
          browser = await launch(headless =False)
          page = await browser.newPage()
          await page.goto('https://www.taobao.com')
          await asyncio.sleep(3)
      
      asyncio.get_event_loop().run_until_complete(main())
    • 发现页面显示出现了问题,需要手动调用setViewport方法设置显示页面的长宽像素。设置如下:

      • import asyncio
        from pyppeteer import launch
        
        async def main():
            browser = await launch(headless =False)
            page = await browser.newPage()
            # 设置页面视图大小
            await page.setViewport({'width':1280, 'height': 800})
            await page.goto('https://www.taobao.com')
            await asyncio.sleep(3)
        
        asyncio.get_event_loop().run_until_complete(main())
    • 执行js程序:拖动滚轮。调用evaluate方法。

      • import asyncio
        from pyppeteer import launch
        
        async def main():
            browser = await launch(headless =False)
            page = await browser.newPage()
            # 设置页面视图大小
            await page.setViewport({'width':1280, 'height': 800})
            await page.setJavaScriptEnabled(enabled=True)
            await page.goto('https://movie.douban.com/typerank?type_name=%E5%8A%A8%E4%BD%9C&type=5&interval_id=100:90&action=')
            await asyncio.sleep(3)
            # evaluate 可以返回 js 程序的返回值
            dimensions = await page.evaluate('window.scrollTo(0,document.body.scrollHeight)')
            await asyncio.sleep(3)
            print(dimensions)
            await browser.close()
        
        asyncio.get_event_loop().run_until_complete(main())
    • 规避webdriver检测:

      • import asyncio
        from pyppeteer import launch
        
        async def main():
            browser = await launch(headless=False, args=['--disable-infobars'])
            page = await browser.newPage()
            await page.setViewport({'width': 1280, 'height': 800})
            await page.goto('https://login.taobao.com/member/login.jhtml?redirectURL=https://www.taobao.com/')
            await asyncio.sleep(3)
            await page.evaluate('''() =>{ Object.defineProperties(navigator,{ webdriver:{ get: () => false } }) }''')
            await asyncio.sleep(3)
            await browser.close()
        
        asyncio.get_event_loop().run_until_complete(main())
    • UA 伪装

      • await self.page.setUserAgent('xxx')
    • 节点交互

      • import asyncio
        from pyppeteer import launch
        
        async def main():
            browser = await launch(headless=False, args=['--disable-infobars'])
            page = await browser.newPage()
            await page.setViewport({'width': 1280, 'height': 800})
            await page.goto('https://www.baidu.com')
            # 节点交互
            await page.type('#kw', '邓紫棋', {'delay': 100}) # delay 延迟
            await asyncio.sleep(3)
            await page.click('#su')
            # 使用选择器选中标签进行点击
            alist = await page.querySelectorAll('.s_tab_inner > a')
            a = alist[3]
            await a.click()
            await asyncio.sleep(3)
            await browser.close()
        
        asyncio.get_event_loop().run_until_complete(main())
# 示例
import asyncio
from pyppeteer import launch
from lxml import etree

async def main():
    browser = await launch(headless=False)

    page = await browser.newPage()
    await page.setViewport(viewport={'width': 1280, 'height': 800})
    await page.goto('https://www.toutiao.com')
    await asyncio.sleep(2)
    page_text = await page.content()

    page2 = await browser.newPage()
    await page2.setViewport(viewport={'width': 1280, 'height': 800})
    await page2.goto('https://news.163.com/domestic/')
    await page2.evaluate('window.scrollTo(0,document.body.scrollHeight)')
    page_text1 = await page2.content()

    await browser.close()

    return {'wangyi': page_text1, 'toutiao': page_text}

def parse(task):
    content_dic = task.result()
    wangyi = content_dic['wangyi']
    toutiao = content_dic['toutiao']
    tree = etree.HTML(toutiao)
    a_list = tree.xpath('//div[@class="title-box"]/a')
    for a in a_list:
        title = a.xpath('./text()')[0]
        print(f'toutiao: {title}')
    tree = etree.HTML(wangyi)
    div_list = tree.xpath('//div[@class="data_row news_article clearfix "]')
    print(len(div_list))
    for div in div_list:
        title = div.xpath('.//div[@class="news_title"]/h3/a/text()')[0]
        print(f'wangyi: {title}')

tasks = []
task1 = asyncio.ensure_future(main())
task1.add_done_callback(parse)
tasks.append(task1)
asyncio.get_event_loop().run_until_complete(asyncio.wait(tasks))