selenium模块在爬虫中的应用

Reiki

2020-01-16

1. 相关概念

1. selenium模块

是一个基于浏览器自动化的模块

2. 与爬虫之间的关联

便捷的捕获到动态加载到的数据（可见即可得）

实现模拟登陆

3.环境安装

pip3 install selenium

简单演示

from selenium import webdriver
from time import sleep

# 后面是你的浏览器驱动位置，记得前面加r‘‘,‘r‘是防止字符转义的
driver = webdriver.Chrome(r‘chromedriver.exe‘)

# 用get打开百度页面
driver.get("http://www.baidu.com")

# 查找页面的“设置”选项，并进行点击
driver.find_elements_by_link_text(‘设置‘)[0].click()
sleep(2)

# 打开设置后找到“搜索设置”选项，设置为每页显示50条
driver.find_elements_by_link_text(‘搜索设置‘)[0].click()
sleep(2)

# 选中每页显示50条
m = driver.find_element_by_id(‘nr‘)
sleep(2)
m.find_element_by_xpath(‘//*[@id="nr"]/option[3]‘).click()
m.find_element_by_xpath(‘.//option[3]‘).click()
sleep(2)

# 点击保存设置
driver.find_elements_by_class_name("prefpanelgo")[0].click()
sleep(2)

# 处理弹出的警告页面   确定accept() 和 取消dismiss()
driver.switch_to_alert().accept()
sleep(2)

# 找到百度的输入框，并输入 美女
driver.find_element_by_id(‘kw‘).send_keys(‘美女‘)
sleep(2)

# 点击搜索按钮
driver.find_element_by_id(‘su‘).click()
sleep(2)

# 在打开的页面中找到“Selenium - 开源中国社区”，并打开这个页面
driver.find_elements_by_link_text(‘美女_百度图片‘)[0].click()
sleep(3)

# 关闭浏览器
driver.quit()

2.基本使用

　　准备好某一款浏览器的驱动程序：http://chromedriver.storage.googleapis.com/index.html

　　版本的映射关系：https://blog.csdn.net/huilan_same/article/details/51896672

1.实例化某一款浏览器对象

from time import sleep
from selenium import webdriver

bro = webdriver.Chrome(executable_path="chromedriver.exe")

# 录入路由地址
bro.get("https://www:jd.com/")
sleep(2)

# 进行标签定位
search_input = bro.find_element_by_id("key")

# 向搜索框中录入关键词
search_input.send_keys("苹果")

# 定位搜索按钮
btn = bro.find_element_by_xpath(‘//*[@id="search"]/div/div[2]/button‘)

# 点击搜索按钮
btn.click()
sleep(2)

# 退出访问
bro.quit()

selenium webdriver

Reiki

0 关注 0 粉丝 0 动态

相关推荐

把手教您认识、搭建和使用Selenium WebDriver

作为一个开源的自动化测试框架，Selenium可以在不同的浏览器和平台上执行应用测试。其主要特征包括：。Selenium支持包括：Java、Python、C#、JavaScript、Ruby、PHP和Perl在内的多种编程语言。Selenium与平台无关，

xiangxiaojun 2020-09-23

Python Selenium实现无可视化界面

有时候我们爬取网页数据，并不希望看其中的过程，只想看到最后的数据结果就可以了，这时候，***面就很有必要了！

letheashura 2020-08-14

解决Selenium重复开启浏览器问题

在实际调试selenium自动化程序时，总是需要重新开启浏览器。以下方法解决不断重启浏览器问题。我们需要手动打开浏览器，进入到所需的页面，执行一些手动任务，如输入表单、输入验证码，登陆成功后，然后再开始运行自动化脚本。这种情况下如何使用selenium来接

王练 2020-07-18

selenium中三大窗口切换

　　这类窗口也就是我们常说的句柄，句柄的切换是有必要的，我们自己手动在网页上从操作的话，产生新的句柄时浏览器会自动的帮我们跳转到最新的句柄处，但是我们在做UI自动化的时候，代码并不会帮我们自动的切换到最新的句柄，需要我们使用代码去进行切换　　　　。除了切换

xiangxiaojun 2020-06-25

【Selenium】find_element()与find_elements()有什么区别？

Question：find_element()与find_elements()有什么区别？find_elements():查找页面上所有满足定位条件的元素，方法返回值为WebElement对象的列表。我们可以从源码webdriver.py中找到这2个方法的

Feastaw 2020-06-18

Selenium自动化测试工具使用方法汇总

from selenium.webdriver import ActionChains # 该类可执行鼠标动作：双击拖拽等。它主要的意思就是：程序每隔xx检查一次，如果条件成立了，则执行下一步，否则继续等待，直到超过设置的最长时间，然后抛出Timeout

云之高水之远 2020-06-14

Selenium使用Chrome模拟手机浏览器方法解析

在使用Chrome浏览网页时，我们可以使用Chrome开发者工具模拟手机浏览器，在使用Selenium操作Chrome时同样也可以模拟手机浏览器。操作方法非常简单，在ChromeOptions()浏览器选项，添加实验选项，mobileEmulation选项

Reiki 2020-06-12

webdriver之Can not connect to the Service chromedriver

加上后，解决了问题

songerxing 2020-06-11

爬虫之selenium和webdriver—基础（三）：操作cookie和显式等待与隐式等待

# 1、获取所有的cookie，get_cookies; 获取一个cookie，get_cookie. 为了解决这个问题，所以selenium提供了两种等待方式：显式等待和隐式等待。# 最大等待时间为10s，如果5s时id为sdfsdf被找到，就直接返回，

songerxing 2020-06-11

爬虫之selenium和webdriver—基础（一）

在爬取一些网页的时候，会发现网页的有些内容是通过JS动态加载的，也就是说是ajax数据，如下图。这种加载方式就是ajax数据。这种数据通过普通的爬虫是获取不了的，因为查看网页源代码，你会发现，通过按钮加载出来的文章并没有出现在网页源代码中。这时候据需要用到

王练 2020-06-11

selenium

selenium和爬虫之间的关联是什么?#如果定位的标签是存在于iframe对应的子页面中的话,在进行标签定位前一定要执行一个switch_to的操作

tiankele0 2020-06-09

selenium自动化常用方法

clear():清除文本用处：用来清除有提示信息的输入框，防止输入数据造成拼接导致错误。submit()：提交表单，用处：可以用来模拟输入关键字后，按回车的操作。通过按键盘上的回车键完成搜索内容的提交。返回百度底部备案信息。返回元素的属性值可以是type

云之高水之远 2020-06-05

无头模式，Windows和Linux

driver =webdriver.Chrome(options = chrome_options)

amei0 2020-05-31

Python selenium如何打包静态网页并下载

需要将自动化操作的一些图片截取下来，以作为后期图片匹配使用。='随文') & (df['完成情况'] !save_folder = r"I:\code\python\data\01 爬取微信公众号历史文章\01 二律背反的一灯如豆&quo

Reiki 2020-08-16

Linux-Centos下selenium部署

请注意chrome和chromedriver的区别，前者是浏览器，后者是其驱动，而二者缺一不可。至此，恭喜你已经部署成功！

tiankele0 2020-07-29

Selenium 获取Select元素的选中值

obj_select = Select #强制类型转换为Select类型

Reiki 2020-07-28

自动化测试（1）selenium+python+chrome 连接测试

使用chrome和对应的webdriver. 将chromedriver放在chrome目录下，并解压运行。测试chromedriver是否配置成功，输入chromedriver. python下载selenium，输入pip install seleni

curiousL 2020-07-18

Selenium打开浏览器加载慢的原因

在自动化元素定位操作中经常使用智能等待来加强定位的强壮性，主要就是因为WebDriver没有提供页面加载场景的方法；在使用JavaScript知识的突然心生灵感，可以使用JavaScript来配合验证页面加载，结果发现我真是井底之蛙。首先定位从Docume

tiankele0 2020-07-18

28 selenium

selenium是浏览器自动化框架，只是对于测试人员来说，是用来做web自动化测试。来看看测试金字塔，底层的单元测试unittest一般是开发自己自测，但是国内基本没有开发自测unittest,所以集成测试就比较看重。接口测试是web自动化测试很重要的。w

amei0 2020-07-08

使用selenium 和图片验证码识别对12306的模拟登录+12306查询车次

记得索引位置，有部分车次的索引位置完全相反！！！我晕，暂时没想到怎么搞。此处headers 和cookies 自己获取，记得加！‘_jc_save_toDate‘: ‘2020-07-06‘,‘_jc_save_wfdc_flag‘: ‘dc‘,‘_jc_

Reiki 2020-07-06

Reiki

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号