在Python中处理XML的教程

ElementW

2015-04-29

关注关注

XML虽然比JSON复杂，在Web中应用也不如以前多了，不过仍有很多地方在用，所以，有必要了解如何操作XML。
DOM vs SAX

操作XML有两种方法：DOM和SAX。DOM会把整个XML读入内存，解析为树，因此占用内存大，解析慢，优点是可以任意遍历树的节点。SAX是流模式，边读边解析，占用内存小，解析快，缺点是我们需要自己处理事件。

正常情况下，优先考虑SAX，因为DOM实在太占内存。

在Python中使用SAX解析XML非常简洁，通常我们关心的事件是start_element，end_element和char_data，准备好这3个函数，然后就可以解析xml了。

举个例子，当SAX解析器读到一个节点时：

<a href="/">python</a>

会产生3个事件：

start_element事件，在读取<a href="/">时；
char_data事件，在读取python时；
end_element事件，在读取</a>时。

用代码实验一下：

from xml.parsers.expat import ParserCreate

class DefaultSaxHandler(object):
  def start_element(self, name, attrs):
    print('sax:start_element: %s, attrs: %s' % (name, str(attrs)))

  def end_element(self, name):
    print('sax:end_element: %s' % name)

  def char_data(self, text):
    print('sax:char_data: %s' % text)

xml = r'''<?xml version="1.0"?>
<ol>
  <li><a href="/python">Python</a></li>
  <li><a href="/ruby">Ruby</a></li>
</ol>
'''
handler = DefaultSaxHandler()
parser = ParserCreate()
parser.returns_unicode = True
parser.StartElementHandler = handler.start_element
parser.EndElementHandler = handler.end_element
parser.CharacterDataHandler = handler.char_data
parser.Parse(xml)

当设置returns_unicode为True时，返回的所有element名称和char_data都是unicode，处理国际化更方便。

需要注意的是读取一大段字符串时，CharacterDataHandler可能被多次调用，所以需要自己保存起来，在EndElementHandler里面再合并。

除了解析XML外，如何生成XML呢？99%的情况下需要生成的XML结构都是非常简单的，因此，最简单也是最有效的生成XML的方法是拼接字符串：

L = []
L.append(r'<?xml version="1.0"?>')
L.append(r'<root>')
L.append(encode('some & data'))
L.append(r'</root>')
return ''.join(L)

如果要生成复杂的XML呢？建议你不要用XML，改成JSON。
小结

解析XML时，注意找出自己感兴趣的节点，响应事件时，把节点数据保存起来。解析完毕后，就可以处理数据。

练习一下解析Yahoo的XML格式的天气预报，获取当天和最近几天的天气：

http://weather.yahooapis.com/forecastrss?u=c&w=2151330

参数w是城市代码，要查询某个城市代码，可以在weather.yahoo.com搜索城市，浏览器地址栏的URL就包含城市代码。

xml语言 python xml解析 element

ElementW

0 关注 0 粉丝 0 动态

关注关注

一个快速找到Spring框架是在哪里找到XML配置文件并解析Beans定义的小技巧

The line 399 where exception is raised will be automatically located. The core logic to load xml file is just near the exception

与卿画眉共浮生 2020-10-14

浅谈XML和JSON的区别

今天做接口对接时,发现对方竟然是通过XML进行数据传输,当时冒出的第一个想法就是:WTF,这都什么年代了,还在用XML,是来搞笑的吧,JSON它不香吗?XML 标签没有被预定义。XML 被设计为具有自我描述性。这些特性使JSON成为理想的数据交换语言。格式

xiyang 2020-08-21

Spring解析Xml注册Bean流程

有道无术,术可求;有术无道,止于术;加油~！！！！！那么Spring是如何进行Bean的注册的呢？经过这几天的源码查看我写下了这篇文章来作为笔记，再此之前我先bb几句，为了方便查看源码，可以去GitHub上下载Spring的源码导入到Idea或者是ecli

XGQ 2020-07-04

XPath提取猫眼电影

XML称为可扩展标记语言，XML是互联网数据传输的重要工具，它可以跨越互联网任何的平台，不受编程语言和操作系统的限制，可以说它是一个拥有互联网最高级别通行证的数据携带者。HTML 和 XML的区别在于HTML主要用来显示数据，XML是用来传输数据。XML都

Andrewjdw 2020-05-29

用DOM实现对XML文件的解析

DOM的 xml.dom.minidom 子模块、xml.dom.pulldom 子模块分别提供两种形式的解析器。该解析器解析成功，返回指定 XML 文件的一个文档对象。[‘Enemy Behind‘, ‘War, Thriller‘, ‘DVD‘, ‘P

Yakamoz 2020-05-26

HTML和XML的区别

HTML和XML的区别是：语法要求不同，标记不同，作用不同。在XML中，是严格的树状结构，绝对不能省略掉结束标记。XML 和HTML 的目标不同HTML 的设计目标是显示数据并集中于数据外观，而XML的设计目标是描述数据并集中于数据的内容。与HTML 相似

行吟阁 2020-05-18

jQuery实现的解析本地 XML 文档操作示例

本文实例讲述了jQuery实现的解析本地 XML 文档操作。分享给大家供大家参考，具体如下：。Create a jQuery object using an XML string and obtain the value of the title node

88491874 2020-04-30

类转json、 json转xml的方法，转SortedDictionary转 xml 的方法。

The root object must have a single property in order to create a valid XML document.根对象必须有一个属性才能创建有效的XML文档。DBCHM 这个软件好用，看数据结构，生成

baijinswpu 2020-07-29

新Jenkins实践-第4章 Jenkins系统用户认证配置管理

我们进入系统设置 > 全局安全配置，在这里可以配置jenkins的用户认证和授权策略。在配置之前还是要嘱咐一句，由于配置失败或者不当可能会影响后续用户的登录。在此建议大家首先在测试环境进行测试。可以提前将${JENKINS_HOME}/config.

leonranri 2020-07-26

springmvc常用方法以及注解

会话期间指的是浏览器打开该页面，到关闭。一般用于存放用户信息。把自己要的数据放在session里面传来传去.Model 和 ModelMap 的实例都是spirng mvc框架来自动创建并作为控制器方法参数传入，用户无需自己创建。而且需要return 返回

zhongliwen 2020-07-05

javascript实用

JavaScript引擎是一个事件驱动的执行引擎，代码总是以单线程执行，而回调函数的执行需要等到下一个满足条件的事件出现后，才会被执行。Infinity：表示无限大，当数值超过JavaScript的Number所能表示的最大值时。据此，应严格遵守“在函数内

麋鹿麋鹿迷了路 2020-07-05

AI芯片加速图像识别

法国研究机构CEA-Leti和LIST在2020年VLSI研讨会上展示了一种概念验证芯片，该芯片集成了低功耗物联网节点和人工智能加速器，并展示了超快的唤醒时间，峰值至空闲功耗降低了1500倍。对于机器学习任务，该节点每秒可提供高达1.3tera次运算/瓦特

zengyu00 2020-07-05

ApplicationContext 通常的实现是什么?

载 beans 的定义，XML Bean 配置文件的全路径名必须提供给它的构造函数。载 beans 的定义，这里，你需要正确设置 classpath 因为这个容器将在 classpath. 义了一个 WEB 应用的所有 bean。

CoderBoy 2020-06-28

Spring 的历史

本文主要去介绍spring 的历史和每个版本发布的不同的功能。Spring的第一次出现在2020年的“Expert One-on-One J2EE Design and Developmen”上。更通用的事务管理。support for source-le

whbing 2020-06-28

Wide-Bandgap宽禁带（WBG）器件（如GaN和SiC）市场将何去何从？

Wide-Bandgap宽禁带器件市场将何去何从？电力电子在采用宽禁带器件方面有了一个有趣的转变。虽然硅仍然主导着市场，但GaN和SiC器件的出现将很快引导技术朝着新的、更高效的解决方案发展。Yole Dédeveloppement估计，到2025年，Si

绝望的乐园 2020-06-27

5G和AI机器人平台

高通技术公司周三推出了一款高级5G和人工智能机器人平台，该平台具有先进的高性能边缘计算和计算机视觉功能。此前，该公司刚刚在一年多前推出了入门级机器人平台。新推出的机器人RB5平台是其最先进、集成化、全面的产品，专为机器人技术而设计。声称，迄今为止，已与许多

wellfly 2020-06-26

嵌入式C程序基础与编程结构

Basics of Embedded C Program and Programming Structure. 首先也是最重要的是决定嵌入式系统功能的嵌入式软件。早期，许多嵌入式应用程序是使用汇编级编程开发的。编写的C代码更加可靠、可伸缩和可移植；而且事实

菇星獨行 2020-06-25

英特尔图形处理器第8代架构

The Compute Architecture of Intel Processor Graphics Gen8. 了解英特尔体系结构的软件、硬件和产品处理器图形第8代。与运行相关的架构特性，英特尔处理器图形上的计算应用程序。这个Gen8白皮书更新了“I

草原孤狼 2020-06-25

【AJAX】Asynchronous JavaScript And XML （非同步的JS & XML）

AJAX 即“Asynchronous Javascript And XML”。是指一种创建交互式网页应用的网页开发技术。ajax 是一种浏览器通过 js 异步发起请求，局部更新页面的技术。网页不刷新的情况下，从服务器中获取数据的解决方案。-　url ，你

坚持着执着 2020-06-16

Ajax(2) —— Ajax接收JSON数据

JSON是一种存储和交换文本信息的语法。因为JSON比XML更轻量，效率更高，更易解析，所以在Ajax中前后台传输数据一般都使用的是JSON格式。JSON最常见的用法之一，是从web服务器上读取JSON格式的字符串数据，将JSON数据转化为JavaScri

wcqwcq 2020-06-14

安科网

在Python中处理XML的教程

ElementW

ElementW

相关推荐

一个快速找到Spring框架是在哪里找到XML配置文件并解析Beans定义的小技巧

浅谈XML和JSON的区别

Spring解析Xml注册Bean流程

XPath提取猫眼电影

用DOM实现对XML文件的解析

HTML和XML的区别

jQuery实现的解析本地 XML 文档操作示例

类转json、 json转xml的方法，转SortedDictionary转 xml 的方法。

新Jenkins实践-第4章 Jenkins系统用户认证配置管理

springmvc常用方法以及注解

javascript实用

AI芯片加速图像识别

ApplicationContext 通常的实现是什么?

Spring 的历史

Wide-Bandgap宽禁带（WBG）器件（如GaN和SiC）市场将何去何从？

5G和AI机器人平台

嵌入式C程序基础与编程结构

英特尔图形处理器第8代架构

【AJAX】Asynchronous JavaScript And XML （非同步的JS & XML）

Ajax(2) —— Ajax接收JSON数据

ElementW