寒假学习进度15

fangjack

2020-02-16

接上次的python爬虫进阶，这次学习了针对一些网站的反爬虫处理方式以及用键值对向url传递参数，模拟人工输入的网页搜索。

我们知道，不管是正常的爬虫还是恶意爬虫，不仅会导致网站信息泄露，而且还会导致服务器压力过大。想象一下，一台计算机模拟人工请求访问服务器，并且与以计算机的速度与服务器进行交互，势必会导致服务器压力过大或者瘫痪。所以，很多正规的大型网站不想让网络爬虫爬取数据，设置了反爬虫机制。最常见的就是user-agent，简单来说，就是被爬取的网站会通过访问的url中的user-agent信息，来判断这次的网站访问是浏览器访问，还是计算机程序访问，自动屏蔽计算机程序访问。

我们可以自动设置user-agent信息，模拟浏览器访问网站，就能绕过去一部分反爬虫机制。当然，我试着用这个方法，还是不能绕过百度的搜索限制，看来还得继续学习其他的绕过反爬虫机制的方法。

代码如下（绕过亚马逊反爬虫机制的案例）

# -*- coding: utf-8 -*-
# @Time    : 2020/2/8 10:15
# @Author  : duoduo
# @FileName: pc1.py
# @Software: PyCharm

import requests
import re

#爬出异常处理框架
""""
def GetHttp(url):
    try:
        r=requests.get(url)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return "访问错误"
"""""
#模拟浏览器（针对Amazon反爬虫机制（抱歉，我们只是想确认一下当前访问者并非自动程序））
kv={‘user-agent‘:‘Mozilla/5.0‘}
url=‘https://www.amazon.cn/dp/B007J4IZNO/‘
r=requests.get(url,headers=kv)
r.encoding=r.apparent_encoding
print(r.status_code)
print(r.text)

python爬虫电脑 url

安科网

寒假学习进度15

fangjack

fangjack

相关推荐

用urllib库几行代码实现最简单爬虫

scrapy 管理部署的爬虫项目的python类

深度优先、广度优先python爬虫

python爬虫 url链接编码成gbk2312格式

Python除了做爬虫抓数据还能做什么？其实还能监视和衡量网站性能

Python爬虫破解登陆哔哩哔哩的方法

python 爬虫如何实现百度翻译

可能是最全的反爬虫及应对方案

Python爬虫遇到验证码的几种处理方式，文章末尾有源码

一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

Python爬虫入门教程！手把手教会你爬取网页数据

Python快速上手爬虫的7大技巧

只听说过用Python做爬虫，Java程序员笑了！

快速指南：如何创建基于Python的爬虫

山东创睦网络科技有限公司：如何在一个月内学会爬取数据

python爬虫一般用什么框架?六大Python框架

python爬虫使用lxml解析数据编码乱码问题

如何用一行代码让gevent爬虫提速100%

Python爬虫初学-urllib3

python系统学习4——多个爬虫测试案例

fangjack