python爬微信公众号前10篇历史文章（3）-lxml&xpath初探

读书有疑

2018-02-28

关注关注

理解lxml以及xpath

什么是lxml？

python中用来处理XML和HTML的library。与其他相比，它能提供很好的性能，并且它支持XPath。具体可以查看官方文档->http://lxml.de/index.html

结构化数据：

XML, JSON

非结构化数据：

HTML文本是最常见的数据格式，因为一般我们需要的关键信息并非直接可以得到，需要进行对HTML的解析查找，甚至一些字符串操作才能得到，所以归类于非结构化的数据处理中。

常见解析方式如下： XPath、CSS选择器、正则表达式

python lxml库可以使用elements来创建XML/HTML结构，也可以从XML/HTML结构中解析出想要的信息。

创建HTML结构

1. 导包，etree用来创建元素和结构

from lxml import etree

2. 使用Element class API来创建多个元素。元素也被称作结点。

root = etree.Element('html')

3.XML/HTML结构遵循父亲-儿子范例，一个结点可以是其他结点的父亲或者儿子。在lxml中要创建这种关系可以使用etree模块下的SubElement。

In [5]: etree.SubElement(root, 'head')
Out[5]: <Element head at 0x7f43a5c51e60>
 
In [6]: etree.SubElement(root, 'body')
Out[6]: <Element body at 0x7f43a5c51f38>
 
In [7]: print etree.tostring(root)
<html><head/><body/></html>

4 每个结点有很多属性

解析HTML结构

1使用 lxml 的 etree 库，然后利用 etree.HTML解析

In [19]: import requests
In [20]: from lxml import etree
In [21]: page = requests.get('http://www.cnn.com')
In [22]: html_content = etree.html(page.text)

当我们获得一个etree结构时，接下来需要用到XPath去定位信息。它有特定的表达式去选择结点或者一组特定结点。

XPath

XPath（XML Path Language）是XML路径语言,它是一种用来定位XML文档中某部分位置的语言。

表达式	描述
/	从根节点选取。
nodename	选取此节点的所有子节点。
//	从当前节点选择所有匹配文档中的节点
.	选取当前节点。
..	选取当前节点的父节点。
@	选取属性。

每个结点类型是一种灵活的容器对象，用于在内存中存储结构化数据。
每个结点对象都具有以下属性：

1. tag：string对象，标签，用于标识该元素表示哪种数据（即元素类型）。

2. attrib：dictionary对象，表示附有的属性。

3. text：string对象，表示element的内容。

4. tail：string对象，表示element闭合之后的尾迹。

<tag attrib1=1>text</tag>tail
1     2        3         4<br /><br />

谓语条件（Predicates）

谓语用来查找某个特定的信息或者包含某个指定的值的节点。
所谓"谓语条件"，就是对路径表达式的附加条件
谓语是被嵌在方括号中，都写在方括号"[]"中，表示对节点进行进一步的筛选。

lxml html语言 xpath element

读书有疑

0 关注 0 粉丝 0 动态

关注关注

爬虫6 使用xpath语法，解析HTML

　　1. 使用爬取的页面数据，来定义一个对象。　　2. 使用xpath来解析这个对象中的标签树。# ‘//p[@class="author"]/a[1]/text()‘: 某p标签，class属性为“author”，下面的第一个a标签，

我欲疾风前行 2020-04-30

Python爬虫系列之 xpath：html解析神器

通过前面的文章，我们已经知道了如何获取网页和下载文件，但是前面我们获取的网页都是未经处理的，冗余的信息太多，无法进行分析和利用。说到信息筛选我们立马就会想到正则表达式，不过今天我们不讲正则表达式。当然，这并不是说正则不好，只是正则不适合爬虫和新手。别担心，

RuoShangM 2020-03-23

Python爬虫实践 —— 7.秘密网鬼故事大全故事爬取（lxml xpath+requests）

因为教程的demo网站糗事百科已经gg，所以我就只好随便找了个网站练手。首先哦f12分析下网站源码，要获取的内容和分页网址，因为我们获取的内容都是文字，且都显式显示在网页上，很容易得出规律：。我们要获取的鬼故事内容页面的链接 <a>标签，在&l

Kwong 2020-01-12

Python爬虫基础——XPath语法的学习与lxml模块的使用

所以，如果你可以根据自己的需要进行选择。注意：XPath的索引从1开始。div_x_s = html_x.xpath # 直接从HTML中取则不用加.category1 = div_x.xpath[0] # 记得加.category2_s = div_

pythonxuexi 2019-12-20

Python知识点 - Xpath提取某个标签，需要转换为HTML。

# lxml转Html. from lxml import etree. from HTMLParser import HTMLParser. def lxml_to_html(text:etree):. content = etree.tostring(

爱好HtmlCssJs 2019-11-25

python lxml中etree的简单应用

我一般都是通过xpath解析DOM树的时候会使用lxml的etree，可以很方便的从html源码中得到自己想要的内容。这里主要介绍一下我常用到的两个方法，分别是etree.HTML()和etree.tostrint()。etree.HTML()可以用来解析

loverlucky 2019-05-10

python爬虫使用lxml解析数据编码乱码问题

response = requests.get(url=url, headers=headers).text. name = html.xpath("/html/body/div[2]/ul/li[1]/a/p/text()")[0].

cxcxrs 2020-07-28

Python 之lxml解析模块

lxml 是一个HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 数据。<li class="item-0"><a href="link5.html">fifth it

learnpy 2020-04-26

html数据抽取方法对比

对正则和XPath的使用方法，这里就不重复了，只简单对比下BeautifulSoup和SimplifiedDoc。下面的代码展示了两者实例化及提取数据的方法。这里特别提一下SimplifiedDoc中的getElement方法，每个方法中都有三个可选的参数

swiftwwj 2020-02-16

Python爬虫之Beautifulsoup模块的使用

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful S

程松 2020-01-01

爬虫之Beautiful Soup

Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一

hilary0 2020-01-03

python爬虫之beautifulsoup的使用

　　简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Be

猛禽的编程艺术 2019-12-31

Python导入 from lxml import etree 导入不了

问题在学爬虫，Python 版本是2.7，安装的lxml包是4.3的，在 from lxml import etree 时发现一直报错，网上查询，原来是Python版本和lxml包版本不一致导致的。命令安装或者根据上面的提示下载对应的包本地安装都可以。

wklken的笔记 2019-12-17

只要三步，腾讯招聘信息抓取到手

想成为一名真正的程序猿，你需要一份从事编程的工作！那么我们今天就来抓取腾讯招聘网站上的招聘信息！· 利用谷歌浏览器抓包：确定url，发送请求所需参数，确定返回数据所在位置；· 利用scrapy爬虫框架完成代码。对起始url发送请求获取响应，指定该响应用专门

YGLsmile 2019-12-06

Python中类似于jquery的pyquery库用法分析

本文实例讲述了Python中类似于jquery的pyquery库用法。分享给大家供大家参考，具体如下：。pyquery使用lxml执行快速的xml和html操作。这并非一个生成javascript代码或者与javascript代码做交互的库。pyquery

LodbkMi 2019-12-02

Python爬虫入门教程 9-100 河北阳光理政投诉板块

zhaoxiaoheng 2019-11-17

接着上次的python爬虫，今天进阶一哈，局部解析爬取网页数据

用Beatifulsoup基于lxml包lxml包基于html和xml的标记语言的解析包。第三步、导入Beautifulsoup对象from bs4 import BeautifulSoup. 第四步、解析网页内容解析的方式文本格式就是：标记#id或者.

四叶草 2019-11-11

Python利用lxml模块爬取豆瓣读书排行榜的方法与分析

上次使用了BeautifulSoup库爬取电影排行榜，爬取相对来说有点麻烦，爬取的速度也较慢。本次使用的lxml库，我个人是最喜欢的，爬取的语法很简单，爬取速度也快。该排行榜一共有22页，且发现更改网址的 start=0 的 0 为25、50就可以跳到排行

beichenyx 2019-04-15

python简单网络爬虫

content = select.xpath("/html/body/div[1]/div[2]/div[1]/div/div[1]/div/div/div[2]/div[1]/p[2]/strong")

MemoryBuffer 2017-08-30

Python爬虫笔记4-BeautifulSoup使用

BeautifulSoup介绍与lxml一样，BeautifulSoup也是一个HTML/XML的解析器，主要功能也是如何解析和提取HTML/XML数据。工具速度难度正则表达式最快困难 BeautifulSoup慢最简单 lxml快简单 lxml 只会局

乐想屋 2019-07-01

安科网

python爬微信公众号前10篇历史文章（3）-lxml&xpath初探

读书有疑

理解lxml以及xpath

读书有疑

相关推荐

爬虫6 使用xpath语法，解析HTML

Python爬虫系列之 xpath：html解析神器

Python爬虫实践 —— 7.秘密网鬼故事大全故事爬取（lxml xpath+requests）

Python爬虫基础——XPath语法的学习与lxml模块的使用

Python知识点 - Xpath提取某个标签，需要转换为HTML。

python lxml中etree的简单应用

python爬虫使用lxml解析数据编码乱码问题

Python 之lxml解析模块

html数据抽取方法对比

Python爬虫之Beautifulsoup模块的使用

爬虫之Beautiful Soup

python爬虫之beautifulsoup的使用

Python导入 from lxml import etree 导入不了

只要三步，腾讯招聘信息抓取到手

Python中类似于jquery的pyquery库用法分析

Python爬虫入门教程 9-100 河北阳光理政投诉板块

接着上次的python爬虫，今天进阶一哈，局部解析爬取网页数据

Python利用lxml模块爬取豆瓣读书排行榜的方法与分析

python简单网络爬虫

Python爬虫笔记4-BeautifulSoup使用

读书有疑