selenium+python设置爬虫代理IP的方法

liazylee

2018-11-29

关注关注

1. 背景

在使用selenium浏览器渲染技术，爬取网站信息时，一般来说，速度是很慢的。而且一般需要用到这种技术爬取的网站，反爬技术都比较厉害，对IP的访问频率应该有相当的限制。所以，如果想提升selenium抓取数据的速度，可以从两个方面出发：

第一，提高抓取频率，出现验证信息时进行破解，一般是验证码或者用户登录。

第二，使用多线程 + 代理IP，这种方式，需要电脑有足够的内存和充足稳定的代理IP 。

2. 为chrome设置代理IP

from selenium import webdriver
chromeOptions = webdriver.ChromeOptions()

# 设置代理
chromeOptions.add_argument("--proxy-server=http://202.20.16.82:10152")
# 一定要注意，=两边不能有空格，不能是这样--proxy-server = http://202.20.16.82:10152
browser = webdriver.Chrome(chrome_options = chromeOptions)

# 查看本机ip，查看代理是否起作用
browser.get("http://httpbin.org/ip")
print(browser.page_source)

# 退出，清除浏览器缓存
browser.quit()

注意事项：

第一，代理IP最好是稳定的固定IP，不要选动态IP。我们常用的爬虫IP是高匿名动态IP，是通过拨号动态产生的，时效性很短，一般在1~3分钟。对于scrapy这种并发度很高，又不需要登录的爬虫来说，非常合适，但是在浏览器渲染类爬虫中并不适用。

第二，代理IP的速度。因为selenium爬虫采用的是浏览器渲染技术，本身速度就很慢。如果选择的代理IP速度较慢，就会大大增加爬取的时间。

第三，电脑内存要够大。因为chrome占内存较大，在并发度很高的情况下，容易造成浏览器崩溃，也就是程序崩溃。

第四，在程序结束时，调用 browser.quit( ) 清除浏览器缓存。

3. 需要用户名密码验证的代理

参考文章：

Selenium chrome配置代理Python版：https://www.jb51.net/article/151634.htm

GitHub：https://github.com/RobinDev/Selenium-Chrome-HTTP-Private-Proxy

电脑代理ip

安科网

selenium+python设置爬虫代理IP的方法

liazylee

liazylee

相关推荐

关于使用PLSQL Developer时出现报错ora-12514的问题

超级详细｜Linux系统下从0到1的玩法大全

新的树莓派400：一台藏身于键盘内微型计算机

如何在树莓派上安装Ubuntu服务器？

用这个创建可引导USB的工具在电脑上尝试Linux

联想个人智能大厦全新升级多赛道并举领跑新常态

5个优秀的计算机视觉应用与相关数据集

人工智能：从经典计算机到量子计算机，弱AI进阶到强AI时代？

英伟达表示世界上很快的AI超级计算机即将登陆意大利

通用人工智能离我们还有多远？

用Windows电脑训练深度学习模型？超详细配置教程来了

win10桌面图标重启变位怎么办? 每次重启桌面图标变乱的解决办法

win10系统鼠标左右键失灵但能移动如何解决

基于python实现简单C/S模式代码实例

8月份Github上热门的JavaScript开源项目排行

挑战树莓派？首个运行Linux系统的RISC-V架构微型计算机 PicoRio 发布

用个小技巧，趁你不备，rm -rf你的电脑

启动VNC Shell扩展

Windows10电脑和虚拟器如何共享蓝牙简单两步快速解决

解决Windows7/10系统连接网线后显示“未识别的网络”的问题

liazylee