Python爬虫基础——XPath语法的学习与lxml模块的使用

pythonxuexi

2019-12-20

XPath与正则都是用于数据的提取，二者的区别是：

正则：功能相对强大，写起来相对复杂；
XPath：语法简单，可以满足绝大部分的需求；

所以，如果你可以根据自己的需要进行选择。

一、首先，我们需要为Google浏览器配置XPath插件：

请自行学习，效果如下：
Python爬虫基础——XPath语法的学习与lxml模块的使用

二、XPath的语法：

Python爬虫基础——XPath语法的学习与lxml模块的使用
注意：
XPath的索引从1开始。

三、XPath的案例：

一级分类：
//h3[@class="classify_c_h3"]/a/text()
二级分类：
//div[@class="classify_list"]/span/a/text()
模糊查询：
//div[contains(@class,"classify_list")]/span/a/text()

四、lxml模块的使用

import lxml.etree as le

with open('edu.html', 'r', encoding='utf-8') as f:
    html = f.read()
    # print(html)
    # 转换为XPath对象
    html_x = le.HTML(html)
    # print(html_x)
    # 匹配一二级分类的父标签
    div_x_s = html_x.xpath('//div[@class="classify_cList"]')  # 直接从HTML中取则不用加.
    data_s = []
    for div_x in div_x_s:
        # 一级分类
        category1 = div_x.xpath('./h3/a/text()')[0]  # 记得加.
        # 二级分类
        category2_s = div_x.xpath('./div/span/a/text()')  # 表示从当前节点进行筛选
        data_s.append(
            dict(
                category1=category1,
                category2_s=category2_s
            )
        )
    print(data_s)
    for data in data_s:
        print(data.get('category1'))
        for category2 in data.get('category2_s'):
            print('   ', category2)

lxml xpath python python爬虫

pythonxuexi

0 关注 3 粉丝 0 动态

相关推荐

爬虫6 使用xpath语法，解析HTML

　　1. 使用爬取的页面数据，来定义一个对象。　　2. 使用xpath来解析这个对象中的标签树。# ‘//p[@class="author"]/a[1]/text()‘: 某p标签，class属性为“author”，下面的第一个a标签，

我欲疾风前行 2020-04-30

Python爬虫系列之 xpath：html解析神器

通过前面的文章，我们已经知道了如何获取网页和下载文件，但是前面我们获取的网页都是未经处理的，冗余的信息太多，无法进行分析和利用。说到信息筛选我们立马就会想到正则表达式，不过今天我们不讲正则表达式。当然，这并不是说正则不好，只是正则不适合爬虫和新手。别担心，

RuoShangM 2020-03-23

Python爬虫实践 —— 7.秘密网鬼故事大全故事爬取（lxml xpath+requests）

因为教程的demo网站糗事百科已经gg，所以我就只好随便找了个网站练手。首先哦f12分析下网站源码，要获取的内容和分页网址，因为我们获取的内容都是文字，且都显式显示在网页上，很容易得出规律：。我们要获取的鬼故事内容页面的链接 <a>标签，在&l

Kwong 2020-01-12

Python知识点 - Xpath提取某个标签，需要转换为HTML。

# lxml转Html. from lxml import etree. from HTMLParser import HTMLParser. def lxml_to_html(text:etree):. content = etree.tostring(

爱好HtmlCssJs 2019-11-25

python lxml中etree的简单应用

我一般都是通过xpath解析DOM树的时候会使用lxml的etree，可以很方便的从html源码中得到自己想要的内容。这里主要介绍一下我常用到的两个方法，分别是etree.HTML()和etree.tostrint()。etree.HTML()可以用来解析

loverlucky 2019-05-10

python爬虫使用lxml解析数据编码乱码问题

response = requests.get(url=url, headers=headers).text. name = html.xpath("/html/body/div[2]/ul/li[1]/a/p/text()")[0].

cxcxrs 2020-07-28

Python 之lxml解析模块

lxml 是一个HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 数据。<li class="item-0"><a href="link5.html">fifth it

learnpy 2020-04-26

html数据抽取方法对比

对正则和XPath的使用方法，这里就不重复了，只简单对比下BeautifulSoup和SimplifiedDoc。下面的代码展示了两者实例化及提取数据的方法。这里特别提一下SimplifiedDoc中的getElement方法，每个方法中都有三个可选的参数

swiftwwj 2020-02-16

Python爬虫之Beautifulsoup模块的使用

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful S

程松 2020-01-01

爬虫之Beautiful Soup

Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一

hilary0 2020-01-03

python爬虫之beautifulsoup的使用

　　简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Be

猛禽的编程艺术 2019-12-31

Python导入 from lxml import etree 导入不了

问题在学爬虫，Python 版本是2.7，安装的lxml包是4.3的，在 from lxml import etree 时发现一直报错，网上查询，原来是Python版本和lxml包版本不一致导致的。命令安装或者根据上面的提示下载对应的包本地安装都可以。

wklken的笔记 2019-12-17

只要三步，腾讯招聘信息抓取到手

想成为一名真正的程序猿，你需要一份从事编程的工作！那么我们今天就来抓取腾讯招聘网站上的招聘信息！· 利用谷歌浏览器抓包：确定url，发送请求所需参数，确定返回数据所在位置；· 利用scrapy爬虫框架完成代码。对起始url发送请求获取响应，指定该响应用专门

YGLsmile 2019-12-06

Python中类似于jquery的pyquery库用法分析

本文实例讲述了Python中类似于jquery的pyquery库用法。分享给大家供大家参考，具体如下：。pyquery使用lxml执行快速的xml和html操作。这并非一个生成javascript代码或者与javascript代码做交互的库。pyquery

LodbkMi 2019-12-02

Python爬虫入门教程 9-100 河北阳光理政投诉板块

之前几篇文章都是在写图片相关的爬虫，今天写个留言板爬出，为另一套数据分析案例的教程做做准备，作为一个河北人，遵纪守法，有事投诉是必备的技能，那么咱看看我们大河北人都因为什么投诉过呢？下面就是配合xpath 语法获取网页元素了，关于xpath 这个你也可以

zhaoxiaoheng 2019-11-17

接着上次的python爬虫，今天进阶一哈，局部解析爬取网页数据

用Beatifulsoup基于lxml包lxml包基于html和xml的标记语言的解析包。第三步、导入Beautifulsoup对象from bs4 import BeautifulSoup. 第四步、解析网页内容解析的方式文本格式就是：标记#id或者.

四叶草 2019-11-11

Python利用lxml模块爬取豆瓣读书排行榜的方法与分析

上次使用了BeautifulSoup库爬取电影排行榜，爬取相对来说有点麻烦，爬取的速度也较慢。本次使用的lxml库，我个人是最喜欢的，爬取的语法很简单，爬取速度也快。该排行榜一共有22页，且发现更改网址的 start=0 的 0 为25、50就可以跳到排行

beichenyx 2019-04-15

python简单网络爬虫

content = select.xpath("/html/body/div[1]/div[2]/div[1]/div/div[1]/div/div/div[2]/div[1]/p[2]/strong")

MemoryBuffer 2017-08-30

Python爬虫笔记4-BeautifulSoup使用

BeautifulSoup介绍与lxml一样，BeautifulSoup也是一个HTML/XML的解析器，主要功能也是如何解析和提取HTML/XML数据。工具速度难度正则表达式最快困难 BeautifulSoup慢最简单 lxml快简单 lxml 只会局

乐想屋 2019-07-01

在 CentOS 6.5 上使用 ansible 的 jenkins_job 模块

运行环境CentOS 6.5ansible 2.6.8系统自带python2.6用户为 root问题/解决最近试用了一下 ansible 的 jenkins_job 模块，在这里整理一下我遇到的问题和解决方法。yum install -y python-d

花落兰亭 2019-06-30

pythonxuexi

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号