Python 爬虫利器 Selenium

Sophisticated

2019-06-28

前面几节，我们学习了用 requests 构造页面请求来爬取静态网页中的信息以及通过 requests 构造 Ajax 请求直接获取返回的 JSON 信息。

还记得前几节，我们在构造请求时会给请求加上浏览器 headers,目的就是为了让我们的请求模拟浏览器的行为，防止被网站的反爬虫策略限制。今天要介绍的 Selenium 是一款强大的工具，它可以控制我们的浏览器，这样一来程序的行为就和人类完全一样了。

通过使用 Selenium 可以解决几个问题：

页面内容是由 JavaScript 动态生成，通过 requests 请求页面无法获取内容。
爬虫程序被反爬虫策略限制
让程序的行为和人一样

安装
pip install selenium
安装浏览器驱动
驱动下载地址
下载后把驱动文件加入环境变量。或者直接把驱动文件和 Python脚本放到同一文件夹下面
测试
安装完成后，可以编写以下脚本来测试是否安装成功。
```
from selenium import webdriver
driver = webdriver.Chrome()  # 创建一个 Chrome WebDriver 实例
driver.get('https://www.baidu.com/')  # 打开网址
```
运行后会发现程序自动打开了 Chrome 浏览器，并且定向到了百度首页。
与页面交互
WebDriver定义了很多方法，我们可以很方便的操作页面上的元素
比如获取元素，可以通过 driver.find_element_by_id("id")或者driver.find_element_by_name("name")以及 xpath路径的方式来获取元素。可以通过send_keys 向输入框中写入文本。
```
from selenium import webdriver
driver = webdriver.Chrome()
driver.get('https://www.baidu.com/')
search_input = driver.find_element_by_id("kw") # 获取到百度搜索框
search_input.send_keys("刘亦菲")  # 自动输入 刘亦菲
submit = driver.find_element_by_id("su")  # 获取到百度一下按钮
submit.click()  # 点击搜索
```
运行以上脚本，程序会自动打开 Chrome 浏览器，并自动搜索刘亦菲
其他操作
Selenium 可以进行各种各样的操作，使程序完全符合人类的操作习惯。下面看一下还有哪些功能。
具体可以看官方文档，这里贴一下地址
https://selenium-python-zh.readthedocs.io/en/latest/index.html

selenium python爬虫 webdriver python

Sophisticated

0 关注 0 粉丝 0 动态

相关推荐

把手教您认识、搭建和使用Selenium WebDriver

作为一个开源的自动化测试框架，Selenium可以在不同的浏览器和平台上执行应用测试。其主要特征包括：。Selenium支持包括：Java、Python、C#、JavaScript、Ruby、PHP和Perl在内的多种编程语言。Selenium与平台无关，

xiangxiaojun 2020-09-23

Python Selenium实现无可视化界面

有时候我们爬取网页数据，并不希望看其中的过程，只想看到最后的数据结果就可以了，这时候，***面就很有必要了！

letheashura 2020-08-14

解决Selenium重复开启浏览器问题

在实际调试selenium自动化程序时，总是需要重新开启浏览器。以下方法解决不断重启浏览器问题。我们需要手动打开浏览器，进入到所需的页面，执行一些手动任务，如输入表单、输入验证码，登陆成功后，然后再开始运行自动化脚本。这种情况下如何使用selenium来接

王练 2020-07-18

selenium中三大窗口切换

　　这类窗口也就是我们常说的句柄，句柄的切换是有必要的，我们自己手动在网页上从操作的话，产生新的句柄时浏览器会自动的帮我们跳转到最新的句柄处，但是我们在做UI自动化的时候，代码并不会帮我们自动的切换到最新的句柄，需要我们使用代码去进行切换　　　　。除了切换

xiangxiaojun 2020-06-25

【Selenium】find_element()与find_elements()有什么区别？

Question：find_element()与find_elements()有什么区别？find_elements():查找页面上所有满足定位条件的元素，方法返回值为WebElement对象的列表。我们可以从源码webdriver.py中找到这2个方法的

Feastaw 2020-06-18

Selenium自动化测试工具使用方法汇总

from selenium.webdriver import ActionChains # 该类可执行鼠标动作：双击拖拽等。它主要的意思就是：程序每隔xx检查一次，如果条件成立了，则执行下一步，否则继续等待，直到超过设置的最长时间，然后抛出Timeout

云之高水之远 2020-06-14

Selenium使用Chrome模拟手机浏览器方法解析

在使用Chrome浏览网页时，我们可以使用Chrome开发者工具模拟手机浏览器，在使用Selenium操作Chrome时同样也可以模拟手机浏览器。操作方法非常简单，在ChromeOptions()浏览器选项，添加实验选项，mobileEmulation选项

Reiki 2020-06-12

webdriver之Can not connect to the Service chromedriver

加上后，解决了问题

songerxing 2020-06-11

爬虫之selenium和webdriver—基础（三）：操作cookie和显式等待与隐式等待

# 1、获取所有的cookie，get_cookies; 获取一个cookie，get_cookie. 为了解决这个问题，所以selenium提供了两种等待方式：显式等待和隐式等待。# 最大等待时间为10s，如果5s时id为sdfsdf被找到，就直接返回，

songerxing 2020-06-11

爬虫之selenium和webdriver—基础（一）

在爬取一些网页的时候，会发现网页的有些内容是通过JS动态加载的，也就是说是ajax数据，如下图。这种加载方式就是ajax数据。这种数据通过普通的爬虫是获取不了的，因为查看网页源代码，你会发现，通过按钮加载出来的文章并没有出现在网页源代码中。这时候据需要用到

王练 2020-06-11

selenium

selenium和爬虫之间的关联是什么?#如果定位的标签是存在于iframe对应的子页面中的话,在进行标签定位前一定要执行一个switch_to的操作

tiankele0 2020-06-09

selenium自动化常用方法

clear():清除文本用处：用来清除有提示信息的输入框，防止输入数据造成拼接导致错误。submit()：提交表单，用处：可以用来模拟输入关键字后，按回车的操作。通过按键盘上的回车键完成搜索内容的提交。返回百度底部备案信息。返回元素的属性值可以是type

云之高水之远 2020-06-05

无头模式，Windows和Linux

driver =webdriver.Chrome(options = chrome_options)

amei0 2020-05-31

Python selenium如何打包静态网页并下载

需要将自动化操作的一些图片截取下来，以作为后期图片匹配使用。='随文') & (df['完成情况'] !save_folder = r"I:\code\python\data\01 爬取微信公众号历史文章\01 二律背反的一灯如豆&quo

Reiki 2020-08-16

Linux-Centos下selenium部署

请注意chrome和chromedriver的区别，前者是浏览器，后者是其驱动，而二者缺一不可。至此，恭喜你已经部署成功！

tiankele0 2020-07-29

Selenium 获取Select元素的选中值

obj_select = Select #强制类型转换为Select类型

Reiki 2020-07-28

自动化测试（1）selenium+python+chrome 连接测试

使用chrome和对应的webdriver. 将chromedriver放在chrome目录下，并解压运行。测试chromedriver是否配置成功，输入chromedriver. python下载selenium，输入pip install seleni

curiousL 2020-07-18

Selenium打开浏览器加载慢的原因

在自动化元素定位操作中经常使用智能等待来加强定位的强壮性，主要就是因为WebDriver没有提供页面加载场景的方法；在使用JavaScript知识的突然心生灵感，可以使用JavaScript来配合验证页面加载，结果发现我真是井底之蛙。首先定位从Docume

tiankele0 2020-07-18

28 selenium

selenium是浏览器自动化框架，只是对于测试人员来说，是用来做web自动化测试。来看看测试金字塔，底层的单元测试unittest一般是开发自己自测，但是国内基本没有开发自测unittest,所以集成测试就比较看重。接口测试是web自动化测试很重要的。w

amei0 2020-07-08

使用selenium 和图片验证码识别对12306的模拟登录+12306查询车次

记得索引位置，有部分车次的索引位置完全相反！！！我晕，暂时没想到怎么搞。此处headers 和cookies 自己获取，记得加！‘_jc_save_toDate‘: ‘2020-07-06‘,‘_jc_save_wfdc_flag‘: ‘dc‘,‘_jc_

Reiki 2020-07-06

Sophisticated

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号