扣丁学堂Python培训之处理HTML转义字符五种方式详解

yjinhao

2018-01-25

今天扣丁学堂给大家介绍一下关于用Python处理HTML转义字符的5种方式，首先大多数Python初学者觉得写爬虫是一个发送请求，提取数据，清洗数据，存储数据的过程。在这个过程中，不同的数据源返回的数据格式各不相同，有 JSON 格式，有 XML 文档，不过大部分还是HTML 文档，HTML 经常会混杂有转移字符，这些字符我们需要把它转义成真正的字符。

什么是转义字符

在 HTML 中 <、>、& 等字符有特殊含义(<，> 用于标签中，& 用于转义)，他们不能在 HTML 代码中直接使用，如果要在网页中显示这些符号，就需要使用 HTML 的转义字符串(Escape Sequence)，例如 < 的转义字符是 <，浏览器渲染 HTML 页面时，会自动把转移字符串换成真实字符。

转义字符(Escape Sequence)由三部分组成：第一部分是一个 & 符号，第二部分是实体(Entity)名字，第三部分是一个分号。比如，要显示小于号(<)，就可以写< 。

显示字符说明转义字符

< 小于 <

空格

< 小于 <

> 大于 >

& &符号 &

" 双引号 "

® 已注册商标 ®

Python 转义字符串反转义

用 Python 来处理转义字符串有多种方式，而且 py2 和 py3 中处理方式不一样，在 python2 中，反转义的模块是 HTMLParser。

# Python2

import HTMLParser

>>> HTMLParser().unescape('param=p1¶m=p2')

'param=p1¶m=p2'

Python3 HTMLParser 模块迁移到了 html.parser

# Python3

>>> from html.parser import HTMLParser

>>> HTMLParser().unescape('param=p1¶m=p2')

'param=p1¶m=p2'

到 python3.4 以后的版本，在 html 模块新增了 unescape 方法。

# Python3.4

>>> import html

>>> html.unescape('param=p1¶m=p2')

'param=p1¶m=p2'

推荐最后一种写法，因为 HTMLParser.unescape 方法在 Python3.4 就已经被废弃掉不推荐使用了，意味着之后的版本会被彻底移除。

另外，xml的sax模块也有支持反转义的函数

>>> from xml.sax.saxutils import unescape

>>> unescape('param=p1¶m=p2')

'param=p1¶m=p2'

以上就是关于扣丁学堂Python培训之处理HTML转义字符五种方式的详细介绍，最后想要了解更多关于Python发展前景趋势，请关注扣丁学堂官网、微信等平台，扣丁学堂IT职业在线学习教育平台为您提供权威的Python培训视频教程系统，通过千锋扣丁学堂金牌讲师在线录制的Python视频教程课程，让你快速掌握Python从入门到精通开发实战技能。扣丁学堂Python技术交流群：279521237。

python python培训转义字符 param htmlparser

yjinhao

0 关注 0 粉丝 0 动态

关注关注

安科网

扣丁学堂Python培训之处理HTML转义字符五种方式详解

yjinhao

yjinhao

yjinhao