python html parser库lxml的介绍和使用

vevoly

2013-09-30

使用由Python编写的lxml实现高性能XML解析http://blog.csdn.net/yatere/article/details/6667043

用lxml解析HTMLhttp://www.cnblogs.com/descusr/archive/2012/06/20/2557075.html

分步遍历：比先遍历得到body的某个div,然后在使用这个div的内容做遍历基础，继续通过它往下遍历

def scanningHotArticle(url):
    print url
    request=requests.get(url)
    dom=soupparser.fromstring(request.content)
    body=dom[1]
    articleList=body.xpath("//div[@class='block untagged mb15 bs2']")
    for article in articleList:
        articleStr= etree.tostring(article)
        articleBody=soupparser.fromstring(articleStr)
        print len(articleBody.xpath("//div[@class='detail']"))

结构是body-*->div[class='blockuntaggedmb15bs2'],这个div下面又存在许多div,然后把这个div当作根节点，在继续xpath查找下面的元素。

pythonhtmlparser库lxml的介绍和使用（快速入门）

http://blog.csdn.net/marising/article/details/5821090

lxm是python的一个html/xml解析并建立dom的库，lxml的特点是功能强大，性能也不错，xml包含了ElementTree，html5lib，beautfulsoup等库，但是lxml也有自己相对应的库，所以，导致lxml比较复杂，初次使用者很难了解其关系。

1.解析html并建立dom

>>> import lxml.etree as etree

>>> html = '<html><body id="1">abc<div>123</div>def<div>456</div>ghi</body></html>'
>>> dom = etree.fromstring(html)
>>> etree.tostring(dom)
'<html><body id="1">abc<div>123</div>def<div>456</div>ghi</body></html>'

如果用beautifulsoup的解析器，则

>>> import lxml.html.soupparser as soupparser
>>> dom = soupparser.fromstring(html)
>>> etree.tostring(dom)
'<html><body id="1">abc<div>123</div>def<div>456</div>ghi</body></html>'

但是我强烈建议使用soupparser，因为其处理不规范的html的能力比etree强太多。

2.按照Dom访问Element

子元素长度

>>> len(dom)
1

访问子元素：

>>> dom[0].tag
'body'

循环访问：

>>> for child in dom:
...     print child.tag
... 
body

查看节点索引

>>>body = dom[0]
>>> dom.index(body)
0

字节点获取父节点

>>> body.getparent().tag
'html'

访问所有子节点

>>> for ele in dom.iter():
...     print ele.tag
... 
html
body
div
div

遍历和打印所有子节点：

>>> children = list(root)
>>> for child in root:
... print(child.tag)

元素的兄弟或邻居节点是通过next和previous属性来访问的

Thesiblings(orneighbours)ofanelementareaccessedasnextandpreviouselements:

>>> root[0] is root[1].getprevious() # lxml.etree only! 
True 
>>> root[1] is root[0].getnext() # lxml.etree only! 
True

3.访问节点属性

>>> body.get('id')
'1'

也可以这样

>>> attrs = body.attrib
>>> attrs.get('id')
'1'

带属性的元素

XML元素支持属性，可以用Element工厂方法直接创建。

>>> root = etree.Element("root", interesting="totally")
>>> etree.tostring(root)
b’<root interesting="totally"/>’

可以使用set和get方法访问这些属性：

>>> print root.get("interesting")
totally
>>> root.set("interesting", "somewhat")
>>> print root.get("interesting")
somewhat

也可以使用attrib性质的字典接口

>>> attributes = root.attrib
>>> print(attributes["interesting"])
somewhat
>>> print(attributes.get("hello"))
None
>>> attributes["hello"] = "Guten Tag"
>>> print(attributes.get("hello"))
Guten Tag
>>> print(root.get("hello"))
Guten Tag

4.访问Element的内容

>>> body.text
'abc'
>>> body.tail

text只是从本节点开始到第一个字节点结束；tail是从最后一个字节结束到本节点未知。

访问本节点所有文本信息

>>> body.xpath('text()')
['abc', 'def', 'ghi']

访问本节点和子节点所有文本信息

>>> body.xpath('//text()')
['abc', '123', 'def', '456', 'ghi']

貌似返回本文档中所有文字信息

body.text_content()返回本节点所有文本信息。

5.Xpath的支持

所有的div元素
>>> for ele in dom.xpath('//div'):
...     print ele.tag
... 
div
div

id=“1”的元素

>>> dom.xpath('//*[@id="1"]')[0].tag
'body'

body下的第1个div

>>> dom.xpath('body/div[1]')[0].tag
'div'

参考：

lxml的官方文档：http://codespeak.net/lxml/

HtmlParser的性能：http://blog.ianbicking.org/2008/03/30/python-html-parser-performance/

lxml python dom

vevoly

0 关注 0 粉丝 0 动态

关注关注

python爬虫使用lxml解析数据编码乱码问题

response = requests.get(url=url, headers=headers).text. name = html.xpath("/html/body/div[2]/ul/li[1]/a/p/text()")[0].

cxcxrs 2020-07-28

爬虫6 使用xpath语法，解析HTML

　　1. 使用爬取的页面数据，来定义一个对象。　　2. 使用xpath来解析这个对象中的标签树。# ‘//p[@class="author"]/a[1]/text()‘: 某p标签，class属性为“author”，下面的第一个a标签，

我欲疾风前行 2020-04-30

Python 之lxml解析模块

lxml 是一个HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 数据。<li class="item-0"><a href="link5.html">fifth it

learnpy 2020-04-26

Python爬虫系列之 xpath：html解析神器

通过前面的文章，我们已经知道了如何获取网页和下载文件，但是前面我们获取的网页都是未经处理的，冗余的信息太多，无法进行分析和利用。说到信息筛选我们立马就会想到正则表达式，不过今天我们不讲正则表达式。当然，这并不是说正则不好，只是正则不适合爬虫和新手。别担心，

RuoShangM 2020-03-23

html数据抽取方法对比

对正则和XPath的使用方法，这里就不重复了，只简单对比下BeautifulSoup和SimplifiedDoc。下面的代码展示了两者实例化及提取数据的方法。这里特别提一下SimplifiedDoc中的getElement方法，每个方法中都有三个可选的参数

swiftwwj 2020-02-16

Python爬虫实践 —— 7.秘密网鬼故事大全故事爬取（lxml xpath+requests）

因为教程的demo网站糗事百科已经gg，所以我就只好随便找了个网站练手。首先哦f12分析下网站源码，要获取的内容和分页网址，因为我们获取的内容都是文字，且都显式显示在网页上，很容易得出规律：。我们要获取的鬼故事内容页面的链接 <a>标签，在&l

Kwong 2020-01-12

Python爬虫之Beautifulsoup模块的使用

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful S

程松 2020-01-01

爬虫之Beautiful Soup

Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一

hilary0 2020-01-03

python爬虫之beautifulsoup的使用

　　简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Be

猛禽的编程艺术 2019-12-31

Python爬虫基础——XPath语法的学习与lxml模块的使用

所以，如果你可以根据自己的需要进行选择。注意：XPath的索引从1开始。div_x_s = html_x.xpath # 直接从HTML中取则不用加.category1 = div_x.xpath[0] # 记得加.category2_s = div_

pythonxuexi 2019-12-20

Python导入 from lxml import etree 导入不了

问题在学爬虫，Python 版本是2.7，安装的lxml包是4.3的，在 from lxml import etree 时发现一直报错，网上查询，原来是Python版本和lxml包版本不一致导致的。命令安装或者根据上面的提示下载对应的包本地安装都可以。

wklken的笔记 2019-12-17

只要三步，腾讯招聘信息抓取到手

想成为一名真正的程序猿，你需要一份从事编程的工作！那么我们今天就来抓取腾讯招聘网站上的招聘信息！· 利用谷歌浏览器抓包：确定url，发送请求所需参数，确定返回数据所在位置；· 利用scrapy爬虫框架完成代码。对起始url发送请求获取响应，指定该响应用专门

YGLsmile 2019-12-06

Python中类似于jquery的pyquery库用法分析

本文实例讲述了Python中类似于jquery的pyquery库用法。分享给大家供大家参考，具体如下：。pyquery使用lxml执行快速的xml和html操作。这并非一个生成javascript代码或者与javascript代码做交互的库。pyquery

LodbkMi 2019-12-02

Python知识点 - Xpath提取某个标签，需要转换为HTML。

# lxml转Html. from lxml import etree. from HTMLParser import HTMLParser. def lxml_to_html(text:etree):. content = etree.tostring(

爱好HtmlCssJs 2019-11-25

Python爬虫入门教程 9-100 河北阳光理政投诉板块

zhaoxiaoheng 2019-11-17

接着上次的python爬虫，今天进阶一哈，局部解析爬取网页数据

用Beatifulsoup基于lxml包lxml包基于html和xml的标记语言的解析包。第三步、导入Beautifulsoup对象from bs4 import BeautifulSoup. 第四步、解析网页内容解析的方式文本格式就是：标记#id或者.

四叶草 2019-11-11

python lxml中etree的简单应用

我一般都是通过xpath解析DOM树的时候会使用lxml的etree，可以很方便的从html源码中得到自己想要的内容。这里主要介绍一下我常用到的两个方法，分别是etree.HTML()和etree.tostrint()。etree.HTML()可以用来解析

loverlucky 2019-05-10

Python利用lxml模块爬取豆瓣读书排行榜的方法与分析

上次使用了BeautifulSoup库爬取电影排行榜，爬取相对来说有点麻烦，爬取的速度也较慢。本次使用的lxml库，我个人是最喜欢的，爬取的语法很简单，爬取速度也快。该排行榜一共有22页，且发现更改网址的 start=0 的 0 为25、50就可以跳到排行

beichenyx 2019-04-15

python简单网络爬虫

content = select.xpath("/html/body/div[1]/div[2]/div[1]/div/div[1]/div/div/div[2]/div[1]/p[2]/strong")

MemoryBuffer 2017-08-30

Python爬虫笔记4-BeautifulSoup使用

BeautifulSoup介绍与lxml一样，BeautifulSoup也是一个HTML/XML的解析器，主要功能也是如何解析和提取HTML/XML数据。工具速度难度正则表达式最快困难 BeautifulSoup慢最简单 lxml快简单 lxml 只会局

乐想屋 2019-07-01

安科网

python html parser库lxml的介绍和使用

vevoly

vevoly

相关推荐

python爬虫使用lxml解析数据编码乱码问题

爬虫6 使用xpath语法，解析HTML

Python 之lxml解析模块

Python爬虫系列之 xpath：html解析神器

html数据抽取方法对比

Python爬虫实践 —— 7.秘密网鬼故事大全故事爬取（lxml xpath+requests）

Python爬虫之Beautifulsoup模块的使用

爬虫之Beautiful Soup

python爬虫之beautifulsoup的使用

Python爬虫基础——XPath语法的学习与lxml模块的使用

Python导入 from lxml import etree 导入不了

只要三步，腾讯招聘信息抓取到手

Python中类似于jquery的pyquery库用法分析

Python知识点 - Xpath提取某个标签，需要转换为HTML。

Python爬虫入门教程 9-100 河北阳光理政投诉板块

接着上次的python爬虫，今天进阶一哈，局部解析爬取网页数据

python lxml中etree的简单应用

Python利用lxml模块爬取豆瓣读书排行榜的方法与分析

python简单网络爬虫

Python爬虫笔记4-BeautifulSoup使用

vevoly