数据的处理

baijinswpu

2019-12-09

爬虫数据的提取

正则表达式
1. 规则---不同语言不同，比如js中的正则表达式
  - 转移字符.*
2. Re模块
  1. compile
  2. findall---返回列表
  3. search
  4. match
  5. sub---替换---返回结果字符串
3. 正则会在最后的字符串提取时起作用
jsonpath
1. 属于js中的内容，并不完全与Python兼容，其中有些函数不能使用
2. jsonpath接收的是json.loads()后的结果，所以是一个字典或者列表。也就是说jsonpath接收的必须是Python的内置对象。
3. jsonpath返回的是一个列表
Python中运行js代码--两个模块--反爬时会用到
1. js2py，本质上将js代码翻译成Python代码
2. pyexecjs，已经停止更新了
数据的清洗
1. 数据的一致性---单位是否统一
2. 数据的完整性---出版社信息
3. 数据的唯一性---数据去重
4. 数据的准确性---判断数据是否正确
5. 数据的清洗
  1. 时间格式
  2. 数据类型转换---str_to_float
  3. 字符串处理
爬虫数据存储
1. 文件
  1. 首先打开文件
    1. open(文件，打开方式)
  2. json
    1. 使用ensure_ascii=False保持中文的形式
  3. csv
    1. 结构简单：列行数据分别以逗号和换行符来分割
    2. 使用便捷：可直接被pandas、numpy等数据处理模块或直接导入Excel中进行处理
2. 数据库
  1. mysql
    1. 使用线程
    2. 更稳定
    3. 回滚实现更优秀
    4. 权限限制更完善
    5. 对编码比较敏感，连接时需要注意
  2. postgresql
    1. 使用进程
    2. 集群支持好
    3. 事务隔离做的更好，安全性更高
    4. 没有字符串长度限制，对字符支持更好一些
    5. 地址数据的良好支持，提供更多高级的功能
  3. MongoDB
    1. 读数据占据优势，适合存储热数据，可以充分利用机器的内存资源，查询效率高
    2. mysql更适合以插入、更新的任务模型
    3. 稳定性不如mysql，在事务支持方面薄弱
    4. 不用事先创建数据库
3. 数据库的操作
  1. 使用pymysql连接和控制mysql数据库
    - 熟练编写sql语句
    - 注意连接参数---编码格式
  2. 连接和控制postgresql与mysql类似，仅仅是sql语句不同
  3. 使用pymono连接操作MongoDB数据库
4. 使用sqlalchemy创建模型类
5. 使用Django的ORM模型类---推荐使用

baijinswpu

0 关注 0 粉丝 0 动态

相关推荐

jsonpath完成接口关联处理

也称为关联参数。如json {"status":1,"msg":"登录成功"}. 对于格式较复杂，尤其部分数据存在不确定性、会根据实际情况变化的响应结果，简单的判断是否完全相等（断言）通常会失败。

sailxu00 2020-06-21

Python爬虫之JSON和JSONPath是如何正确运用的？案例详解

JSON 是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前台与后台之间的数据交互。这里顺便免费送大家一套2020最新python入门到高级项目实战视频教程，可以去小编的Pyt

somebodyoneday 2020-06-01

jsonpath 信息抽取类库

用来解析多层解析json数据，jsonpath是一种信息类抽取库，是从JSON文档中抽取指定信息的工具，提供多种语言实现版本，包括：Javascript, Python， PHP 和 Java。Json结构清晰，可读性高，复杂度低，非常容易匹配。

adonislu 2020-05-29

实用的jsonpath模块

{"store": {"book": [{ "category": "reference","author": "Nigel Rees"

fengchao000 2020-05-07

性能测试-JMeter断言之JSON断言

前面一节我们学习了JMeter断言之响应断言，今天我们来学习JMeter另一种断言方法：JSON断言。值之间用逗号分隔。字符表示为单个字符串。字符串非常类似于C或Java中的字符串。还可以用e或者E表示为指数形式；数字非常类似于C或Java数字，但只是不使

AngelaDan 2020-01-07

Python3之jsonpath使用和json转换

JSONPath表达式始终以与XPath表达式与XML文档结合使用的相同方式引用JSON结构。由于JSON结构通常是匿名的，并且不一定具有“根成员对象”，因此JSONPath假定$分配给外部对象的抽象名称。[摘自官方文档]. # jsonpath取值不需要

somebodyoneday 2019-12-27

Python爬虫进阶——JsonPath使用案例

很多商城网站都会这样做，因为可以减缓服务器的压力。那对于我们爬虫开发来说，如果我们拿到了后端向前端返回的JSon数据，我们又该如何对它进行解析呢？为我心爱的女孩~~

四叶草 2019-12-25

【柠檬班】jmeter鲜为人知的jsonpath用法[原创]

在jmeter使用过程中，我们经常会看到接口返回数据类型为application/json，也就时我们常说的json格式，而在功能测试时，我们经常会要对它的结果进行断言，确认结果是否与预期一致，有时候还会从结果中提取某个值，作为下一个接口的输入，俗称关联。

fengchao000 2019-12-12

python爬虫公众号所有信息，并批量下载公众号视频

哎，好像有点意思了，找到了视频的网页纯下载链接，那就开始吧。发现链接里的有一个关键参数vid 不知道哪来的？和获取到的其他信息也没有关系，那就只能硬来了。通过对单文章的url请求信息里发现了这个参数，然后进行获取。video_path = ‘./video

GhostLWB 2019-12-10

Snack3 之 Jsonpath使用

Snack3 是一个支持JSONPath的JSON框架。JSONPath是一个很强大的功能，也可以在Java框架中当作对象查询语言来使用。Snack3 借签了 Javascript 所有变量由 var 申明，及 Xml dom 一切都是 Node 的设计。

somebodyoneday 2019-12-06

互联网金融爬虫怎么写－第四课雪球网股票爬虫（单页面多数据）

哈哈，我又来了，话说出教程就是这么任性，咱们乘热打铁，把上节课分析完成但是没写的代码给完成了！教程中主要使用到了 1、神箭手云爬虫框架这个是爬虫的基础，2、Chrome浏览器和Chrome的插件XpathHelper 这个用来测试Xpath写的是否正确

yigeng 2016-08-10

查询json数据结构的8种方式

JsonSQL实现了使用SQLselect语句在json数据结构中查询的功能。JSONPath就像是针对JSON数据结构的XPath。jFunk允许你检索复杂的JSON或Javascript对象。jFunkAPI的设计几乎与jQueryAPI类似。它直接复

咸鱼的星空 2015-04-07

JSONPath-简单入门

JSONPath - 是xpath在json的应用。xml最大的优点就有大量的工具可以分析，转换，和选择性的提取文档中的数据。XPath是这些最强大的工具之一。1，数据不使用特殊的脚本，可以在客户端交互的发现并取并获取。2，客户机请求的JSON数据可以减少

chinewwen 2018-08-17

用Python将mysql数据导出成json的方法

此脚本可以将Mysql的数据导出成Json格式，导出的内容可以进行select查询确定。数据传入参数有：dbConfigName, selectSql, jsonPath, fileName。selectSql = "SELECT uid,nam

MYSQL轻松学 2018-08-21

Python使用jsonpath-rw模块处理Json对象操作示例

本文实例讲述了Python使用jsonpath-rw模块处理Json对象操作。分享给大家供大家参考，具体如下：。这两天在写一个爬虫，需要从网站返回的json数据提取一些有用的数据。向url发起请求，返回的是response，在python3中，respon

youmianzhou 2018-07-31

查询json数据结构的8种方式

你有没有对“在复杂的JSON数据结构中查找匹配内容”而烦恼。这里有8种不同的方式可以做到：。JsonSQL实现了使用SQL select语句在json数据结构中查询的功能。JSONPath就像是针对JSON数据结构的XPath。jFunk允许你检索复杂的J

Yugi000 2013-11-18

查询json的数据结构的8种方式简介

JsonSQL实现了使用SQL select语句在json数据结构中查询的功能。JSONPath就像是针对JSON数据结构的XPath。jFunk允许你检索复杂的JSON或Javascript对象。jFunk API的设计几乎与jQuery API类似。它

忘 2014-03-10

python3：jsonpath-rw处理Json对象

前提：接口自动化测试中，存在依赖情况：test_02的某个请求参数的值，需要依赖test_01返回结果中某个字段的数据，所以就先需要拿到返回数据中特定字段的值。这里使用到python中jsonpath-rw库。print<br />运行结果：&

张明云的知识共享 2018-05-29

python3：jsonpath-rw处理Json对象

前提：接口自动化测试中，存在依赖情况：test_02的某个请求参数的值，需要依赖test_01返回结果中某个字段的数据，所以就先需要拿到返回数据中特定字段的值。这里使用到python中jsonpath-rw库。print<br />运行结果：&

张明云的知识共享 2018-05-29

JavaScript with JSONPath

<title>JavaScript JSONPath example | JSON tutorial | w3resource</title>. <h1>This is an example of JavaScript

BitTigerio 2018-04-04

baijinswpu

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号