31.爬虫一

sunzhihaofuture

2020-04-10

request模块：

- request模块的基本使用
    - python中封装好的一个基于网络亲求的模块
- requests模块的作用
    - 用来模拟浏览器发送请求
- requests的环境安装
    - pip install request
- request模块的编码流程：
    - 1指定url
    - 2发起请求
    - 3获取相应数据
    - 4持久化存储

# 爬取搜狗首页页面的源码数据
import requests
# 1.指定url
url = ‘https://www.sogou.com‘
# 2.发起请求
response = requests.get(url=url)
# 3.获取响应对象
page_text = response.text
# page_text
# with open(‘sogou.html‘, "w", encoding=‘utf-8‘) as f:
#     f.write(page_text)

# 实现一个建议的网页采集器
# 需要让url携带的参数动态化
url = ‘https://www.sogou.com/web/‘
# 实现参数动态化
wd = input("enter a key:")
params = {
    "query": wd,
}
# 在请求中需要将请求参数对应的字典作用到params这个get方法的参数中
page_txt = requests.get(url,params=params).text

page_txt

文件乱码：

- 上面带请求数据出现错误
    - 文件乱码
    - 没有拿到数据
    
# 实现一个建议的网页采集器
# 需要让url携带的参数动态化
url = ‘https://www.sogou.com/web/‘
# 实现参数动态化
wd = input("enter a key:")
params = {
    "query": wd,
}
# 在请求中需要将请求参数对应的字典作用到params这个get方法的参数中
response = requests.get(url,params=params)
response.encoding = ‘utf-8‘
page_txt=response.text
# page_txt

反爬机制：

- UA检测：检测到request发送的请求载体的身份表示不是浏览器
- Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36

# 结局UA检测
# 实现一个建议的网页采集器
# 需要让url携带的参数动态化
import requests
url = ‘https://www.sogou.com/web‘
# 实现参数动态化
wd = input("enter a key:")
params = {
    "query": wd,
}
headers={
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36"
}
# 在请求中需要将请求参数对应的字典作用到params这个get方法的参数中
response = requests.get(url=url,params=params,headers=headers)
response.encoding = ‘utf-8‘
page_txt=response.text
# page_txt

动态加载数据爬取

# 爬取的是豆瓣电影的详情数据
# 当滚轮话单下面的时候动态加载数据
# 动态加载的数据
    # 通过另一单独请求拿到的
# url = "https://movie.douban.com/explore#!type=movie&tag=%E7%88%B1%E6%83%85&sort=recommend&page_limit=20&page_start=0"
import requests
# url = "https://movie.douban.com/j/chart/top_list"
url = "https://movie.douban.com/j/search_subjects"

headers={
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36"
}
start = input("请输入开始页:")
end = input("请输入结束页:")
# dic = {
#     "type": "13",
#     "interval_id": "100:90",
#     "action": "",
#     "start": start,
#     "limit": end,
# }
dic = {
    "type":"movie",
    "tag":"爱情",
    "sort":"recommend",
    "page_limit":start,
    "page_start":end,
}
response = requests.get(url=url,params=dic,headers=headers)
data = response.json() # 返回json格式的数据对象
data
# for item in data["subjects"]:
#     print(item["title"] + item["rate"] + str(len(data["subjects"])))

# 肯德基餐厅查询数据获取
import requests
url = "http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword"
headers={
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36"
}
data = {
    "cname": "",
    "pid": "",
    "keyword": "北京",
    "pageIndex":"1",
    "pageSize": "10",
}
response = requests.post(url=url,headers=headers,data=data)
data = response.json()
# data

- 需求分析
    - 爬取药监总局中相关企业的详情信息
- 如何检测页面中是否存在动态加载的数据？
    - 基于抓包工具
        - 先捕获网站请求后的所有的数据包
        - 在数据包中定位到地址栏所对应请求的数据包，在response选项卡对应的数据中进行局部搜索（页面中的某一组内容）
          - 可以搜索到：爬取道的不是动态加载的
          - 搜索不到：爬取到的数据是动态加载的
    - 如何进行动态加载数据在那个数据包中？
        - 进行全局搜索
# 页面数据接口获取
- 需求
    - 爬取药监局总局中相关企业的http://125.35.6.84:81/zk/
- 需求分析
    - 指定页面中企业相关数据是否为动态加载？
        - 相关企业信息是动态加载出来的
    - 通过抓包工具全局搜索，定位动态数据加载。
        - post:http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsList
        - 请求返回的响应数据是一组json串，通过对json串的简单解析，没有找到企业详情页的url，但是找到每一个加企业的id
    - 每一家企业详情页的url，域名都是一样的，只有请求参数id值不同
        - 可以使用同一个域名结合这不同的id值拼接成一家完整企业详情页url
        - 判断企业详情页中的数据是否为动态加载？
            - 通过抓包工具检测，发现企业详情信息在详情页中为动态加载
            - 通过抓包工具进行全局搜索，找到数据对应的url
                - url:post:http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsById
                    - 请求参数：id: b4437b636b5944eb9eadc1418f312b19
                - 请求到的json串就是我们最终想要的企业详细数据

import requests
headers={
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36"
}
url = "http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsList"
data1 = {
    "on": "true",
    "page": "1",
    "pageSize": "15",
    "productName":"",
    "conditionType": "1",
    "applyname":"",
    "applysn":"",
}

response = requests.post(url=url,headers=headers,data=data1)
data = response.json()
for item in data["list"]:
    
    url2 = "http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsById"
    data2 = {
        "id": item["ID"]
    }
    response2 = requests.post(url=url2, headers=headers,data=data2).json()
#     print(response2["businessPerson"]+ response2["legalPerson"])

回顾：

- requests作用：模拟浏览器发起请求
- urllib被requests替代了
- request模块的编码流程：
    - 指定url
    - 发起请求
        - get（url，params，headers）
        - post（url， headers， data）
    - 获取响应数据
    - 持久化存储
- 参数动态化
    - 有些情况下我们是需要将请求参数进行更改，将get或者post请求对应的请求参数封装到一个字典（键值对）中，然后将字典作用到get方法的params参数中或者作用到post发放的data参数中
- UA检测（反爬机制）
    - 什么是UA：请求载体的身份表示，服务器端会检测请求的UA来鉴定身份
    - 反爬机制：UA伪装，通过抓包工具捕获某一浏览器的UA值，封装到字典中，且将该字典作用到headers参数中
- 动态加载数据
    - 通过另一个单独的请求到的数据
- 如果我们要对一个陌生的网站进行指定数据的爬取？
    - 首先要确定爬取的数据在该网站中是否为动态加载的
        - 是：通过抓包工具实现全局搜索，定位动态家在数据对应的数据包，从数据包中提取请求的url和请求参数
        - 不是：通过抓包工具对请求中的所有url响应进行搜索

正则，xpath，bs4：

### 今日内容
- 数据解析
    - 数据解析的作用
        - 可以帮助我们实现聚焦爬虫
    - 数据解析的实现方式
        - 正则
        - bs4
        - xpath（通用）
        - pyquery
    - 数据解析的通用原理
        - 问题1：聚焦爬虫爬取的数据是存在哪里？
            - 都被存储在标签之中和相关标签的属性中
        - 1.定位标签
        - 2.取文本后者属性

import requests
headers={
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36",
}
# 如何爬取图片
url = "https://pic.qiushibaike.com/system/pictures/12296/122968969/medium/LSG56EWMA84YO922.jpg"
img_data = requests.get(url=url, headers=headers).content
# with open("./img.jpg","wb") as f:
#     f.write(img_data)

# 方式二
# 不可以使用UA伪装
from urllib import request
url = "https://pic.qiushibaike.com/system/pictures/12296/122968969/medium/LSG56EWMA84YO922.jpg"
# request.urlretrieve(url,filename="./qiushi.jpg")

正则解析：

<a class="recmd-left multi" href="/article/122969075" rel="nofollow" target="_blank" onclick="_hmt.push([‘_trackEvent‘,‘web-list-multi‘,‘chick‘])">

<img src="//qiubai-video-web.qiushibaike.com/article/gif/RP2LJ8DOWG2TVP7T.jpg?imageView2/1/w/150/h/112" alt="一直给女友吹嘘我厨艺">

<div class="recmd-tag">1图</div>
</a>
ex = ‘<a class="recmd-left.*?<img src="(.*?)" alt=.*?</a>‘

# 正则（麻烦）
# 糗事百科图片爬取1-3页所有的图片
# 设置一个通用的url模板（不可变）
import re
import os
if not os.path.exists("./imgLibs"):
    os.mkdir(‘imgLibs‘)
url = "https://www.qiushibaike.com/8hr/page/%d/"
ex = ‘<a class="recmd-left.*?<img src="(.*?)\?.*?" alt=.*?</a>‘
for i in range(1,4):
    new_url = format(url%i)
    img_data = requests.get(url=new_url, headers=headers).text
    img_list = re.findall(ex, img_data,re.S)
    for src in img_list:
        src = "https:" + src
        img_name = src.split("/")[-1]
        img_path = "imgLibs/" + img_name
        request.urlretrieve(src, img_path)

b64：

- bs4解析
    - bs4解析的原理
        - 实例化一个Beautifulsoup的对象，需要将即将被解析的页面源码数据加载到该对象中
        - 调用BeautifulSoup对象中的想过方法和属性进行标签定位和数据提取
    - 环境安装
        - pip install bs4
        - pip install lxml
    - BeautifulSoup的实例化
        - BeautifulSoup（fp，‘lxml‘）,将背地存储的一个html文档中的数据加载到实例化好的BeautifulSoup对象中
        - BeautifulSoup（page_text, "lxml"）,将从互联网上获取到的页面源码数据加载到实例化好的BeautifulSoup对象中
        
- 定位标签的操作
    - soup.tagName:定位第一个出现的tagName标签
    - 属性定位：soup.find("tagName", attrName=‘value‘)
    - 属性定位：soup.find_all("tagName", attrName=‘value‘) # 返回列表
    - 选择器定位：soup.select(‘选择器‘) # 返回一个列表
        - 层级选择器：>表示一个层级，空格代表多个层级
- 取文本
    - .sting:只可以获取直系的文本内容
    - .text：
- 去属性
    - [‘属性名称‘]

from bs4 import BeautifulSoup
fp = open("./test.html", "r", encoding="utf-8")
soup = BeautifulSoup(fp, "lxml")
soup.div
soup.find("div", class_="song")
soup.find("a", id="feng" )
soup.find_all("div", class_="song")

soup.select(‘.song‘)
soup.select(‘.tang > ul > li‘)
soup.select(‘.tang li‘)

a_tag = soup.select(‘#feng‘)[0]
a_tag.text

div = soup.div
div.string

div = soup.find(‘div‘,class_=‘song‘)
div.string

a_tag = soup.select(‘#feng‘)[0]
a_tag["href"]

# 爬取三国整片内容 
from bs4 import BeautifulSoup
fp = open("./sanguo.txt",‘w‘,encoding="utf-8")
page_url = "http://www.shicimingju.com/book/sanguoyanyi.html"
page_text = requests.get(url=page_url, headers=headers).text
soup = BeautifulSoup(page_text, "lxml")
a_list = soup.select(‘.book-mulu > ul > li > a‘) # 返回的列表中存储的是一个个li标签
for a in a_list:
    title = a.string
    detail_url = "http://www.shicimingju.com" + a[‘href‘]
    detail_page_text = requests.get(url=detail_url, headers=headers).text
    # 解析详情页中的章节内容
    soup1 = BeautifulSoup(detail_page_text, "lxml")
    content = soup1.find(‘div‘, class_=‘chapter_content‘).text
#     fp.write(title + ":" + content + "\n")
#     print(title, "下载成功")
# # print("over")

xpath:

- xpath解析
    - xpath解析实现的原理
        - 1.实例化一个etree对象，然后将即将被解析的页面源码加载到该对象中
        - 2.使用etree对象中xpath方法结合这不同形式的xpath表达式实现标签定位和数据提取
    - 环境安装
        pip install lxml
    - etree对象实例化
        - etree.parse(‘test.html‘)
        - etree.HTML(page_text)
        
- xpath表达式
    - 最左侧的/表示：xpath表达式一定要从跟标签逐层进行查找和定位
    - 最左侧//表示：xpath表达式可以从任意位置定位标签
    - 非最左侧的/:表示一个层级
    - 非最左侧//表示：表示多个层级
    - 属性定位：//tagName[@attrName="value"]
    - 索引定位：
- 取文本：
    - /text() : 直系文本
    - //text() : 所有的文本内容
- 取属性
    - /@attrName

from lxml import etree
tree = etree.parse(‘./test.html‘)
tree.xpath(‘/html/head/title‘)
tree.xpath(‘//title‘)
tree.xpath(‘//dic[@class="song"]‘)
tree.xpath(‘//li[2]/text()‘)
tree.xpath("//li[2]/a/@href")

# 爬取糗事百科段子内的作者名称
import requests
from lxml import etree
url = "https://www.qiushibaike.com/text/"
page_text = requests.get(url=url, headers=headers).text
# 解析内容
tree = etree.HTML(page_text)
div_list = tree.xpath("//div[@class=‘col1 old-style-col1‘]/div")
for div in div_list:
    author = div.xpath(‘./div[1]/a[2]/h2/text()‘)[0]
    content = div.xpath(‘./a[1]/div/span/text()‘)
    content = "".join(content)
#     print(author,content)

合并条件：

# 合并xpath表达式，提高xpath的通用性
a.xpath("./b/text() | ./img/@src")

错误分析

- HttpConnectionPoll
    - 原因：
        - 短时间内发起了太多请求
        - http连接池中的连接资源被耗尽
    - 解决：
        - 使用代理
        - headers中加入Conection："close"

python爬虫 url response 搜狗动态

sunzhihaofuture

0 关注 0 粉丝 0 动态

关注关注

用urllib库几行代码实现最简单爬虫

使用urllib.request()请求一个网页内容，并且把内容打印出来。# 存取到内存当中是bytes流，使用read方法把rsp的内容读取出来，赋值给变量html。# 使用decode解码成我们能够看懂的格式。D:\ProgramData\Anacon

sunzhihaofuture 2020-07-19

scrapy 管理部署的爬虫项目的python类

还有部分api接口没有添加进来,可以参照官方的文档添加.

hilary0 2020-07-05

深度优先、广度优先python爬虫

搜索引擎课的一次小实验~以指定网址为根节点，遍历访问 50 个页面并爬取这些页面上的所有网址。visited = [] # 已经访问过（爬取过）的url。end_flag = False # 标志是否该结束了。req = requests.get # ve

sunzhihaofuture 2020-06-06

python爬虫 url链接编码成gbk2312格式

3. 那么=%B9%FA%CE%F1%D4%BA%B7%A2%D5%B9%D1%D0%BE%BF%D6%D0%D0%C4是什么东西啊

oXiaoChong 2020-06-05

Python除了做爬虫抓数据还能做什么？其实还能监视和衡量网站性能

借助这份对初学者友好的指南，您可以构建自己的自定义Python脚本来自动测量网站的关键速度和性能指标。在过去的一个月中，Google宣布了许多通过关键速度和性能指标来衡量用户体验的方法。巧合的是，我一直在努力编写一个Python脚本，该脚本使用Google

ARCXIANG 2020-06-05

Python爬虫 - scrapy

start_requests:可以将遍历start_urls列表，将每一个列表元素进行get请求的发送。def file_path:指定文件路径。# Don‘t forget to add your pipeline to the ITEM_PIPELIN

ZHANGRENXIANG00 2020-06-28

Python爬虫学习（二））requests库

很多情况下直接用response.text会出现乱码问题，所以常使用response.content，返回二进制格式的数据，在通过decode()转换成utf-8. 　　　解析json requests.json执行了json.loads()方法，两者执行

kikaylee 2020-05-05

Python爬虫破解登陆哔哩哔哩的方法

作为一名找不到工作的爬虫菜鸡人士来说，登陆这一块肯定是个比较大的难题。从今天开始准备一点点对大型网站进行逐个登陆破解。加深自己爬虫水平。if response_json['code'] == 0 and response_json['data']['sta

夜斗不是神 2020-11-17

python 爬虫如何实现百度翻译

本文将会通过爬虫的方式实现简单的百度翻译。本文中的代码只供学习，不允许作为于商务作用。若有侵犯，立即删文！在网站文件中找到隐藏的免费api。传入api所需要的参数并对其发出请求。在返回的json结果里找到相应的翻译结果。进入百度翻译，随便输入一段需要翻译的

染血白衣 2020-11-16

可能是最全的反爬虫及应对方案

爬虫是 Python 的一个常见应用场景，很多练习项目就是让大家去爬某某网站。爬取网页的时候，你大概率会碰到一些反爬措施。这种情况下，你该如何应对呢？本文梳理了常见的反爬措施和应对方案。很多网站都会建立 user-agent白名单，只有属于正常范围的use

ARCXIANG 2020-11-02

Python爬虫遇到验证码的几种处理方式，文章末尾有源码

不管这些了，无所谓的东西，这边博客，将处理图片验证码的2个比较优秀的方式进行了一次封装, 分别是百度的aip 和一个最近火起来的识别muggle-ocr. 本篇文章介绍了爬虫中验证码的处理方式，并把这些功能封装起来，供我们使用，涉及到百度AIP的

ARCXIANG 2020-10-28

一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

今天小编给大家详细的讲解一下Scrapy爬虫框架，希望对大家的学习有帮助。Scrapy是一个使用Python编程语言编写的爬虫框架，任何人都可以根据自己的需求进行修改，并且使用起来非常的方便。它可以应用在数据采集、数据挖掘、网络异常用户检测、存储数据等方面

CycloneKid 2020-10-27

Python爬虫入门教程！手把手教会你爬取网页数据

这里的“技术手段”就是网络爬虫。今天就给大家分享一篇爬虫基础知识和入门教程：。爬虫就是自动获取网页内容的程序，例如搜索引擎，Google，Baidu 等，每天都运行着庞大的爬虫系统，从全世界的网站中爬虫数据，供用户检索时使用。Requests 库是 Py

荒谬小孩 2020-10-26

Python快速上手爬虫的7大技巧

Python应用最多的场景还是Web快速开发、爬虫、自动化运维。爬虫在开发过程中也有很多复用的过程，这里总结一下，以后也能省些事情。关键在于CookieJar()，它用于管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请

逍遥友 2020-10-26

只听说过用Python做爬虫，Java程序员笑了！

本文转载自微信公众号「Java极客技术」，作者鸭血粉丝。网络爬虫技术，早在万维网诞生的时候，就已经出现了，今天我们就一起来揭开它神秘的面纱!的确，pyhton 在处理网页方面，有着开发简单、便捷、性能高效的优势!但是我们 java 也不赖，在处理复杂的网

snakeson 2020-10-09

快速指南：如何创建基于Python的爬虫

Web抓取的使用正在积极增加，特别是在大型电子商务公司中，Web抓取是一种收集数据以竞争，分析竞争对手和研究新产品的方式。Web抓取是一种从网站提取信息的方法。在本篇文章中，学习如何创建基于Python的刮板。深入研究代码，看看它是如何工作的。在当今的大数

meylovezn 2020-08-28

山东创睦网络科技有限公司：如何在一个月内学会爬取数据

如果你仔细观察，就不难发现，懂爬虫、学习爬虫的人越来越多，一方面，互联网可以获取的数据越来越多，另一方面，像 Python这样的编程语言提供越来越多的优秀工具，让爬虫变得简单、容易上手。爬虫是入门Python最好的方式，没有之一。因为这个过程中，Pytho

囧芝麻 2020-08-17

python爬虫一般用什么框架?六大Python框架

python爬虫可以使用的框架有很多，一般在大型需求的时候才会使用python爬虫框架。　　Scrapy：一个为了爬取网站数据，提取结构性数据而编写的应用框架。应用在数据挖掘、信息处理或者存储历史数据等一系列程序中。是很强大的爬虫框架，可以满足简单的页面爬

数据挖掘工人 2020-08-15

python爬虫使用lxml解析数据编码乱码问题

response = requests.get(url=url, headers=headers).text. name = html.xpath("/html/body/div[2]/ul/li[1]/a/p/text()")[0].

cxcxrs 2020-07-28

如何用一行代码让gevent爬虫提速100%

用python做网络开发的人估计都听说过gevent这个库，gevent是一个第三方的python协程库，其是在微线程库greenlet的基础上构建而成，并且使用了epoll事件监听机制，这让gevent具有很好的性能并且比greenlet更好用。基于li

dashoumeixi 2020-07-20

安科网

31.爬虫一

sunzhihaofuture

request模块：

文件乱码：

反爬机制：

动态加载数据爬取

回顾：

正则，xpath，bs4：

正则解析：

b64：

xpath:

合并条件：

错误分析

sunzhihaofuture

相关推荐

用urllib库几行代码实现最简单爬虫

scrapy 管理部署的爬虫项目的python类

深度优先、广度优先python爬虫

python爬虫 url链接编码成gbk2312格式

Python除了做爬虫抓数据还能做什么？其实还能监视和衡量网站性能

Python爬虫 - scrapy

Python爬虫学习（二））requests库

Python爬虫破解登陆哔哩哔哩的方法

python 爬虫如何实现百度翻译

可能是最全的反爬虫及应对方案

Python爬虫遇到验证码的几种处理方式，文章末尾有源码

一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

Python爬虫入门教程！手把手教会你爬取网页数据

Python快速上手爬虫的7大技巧

只听说过用Python做爬虫，Java程序员笑了！

快速指南：如何创建基于Python的爬虫

山东创睦网络科技有限公司：如何在一个月内学会爬取数据

python爬虫一般用什么框架?六大Python框架

python爬虫使用lxml解析数据编码乱码问题

如何用一行代码让gevent爬虫提速100%

sunzhihaofuture