讲述面向对象的语言——Python语言

daweihe

2010-03-01

Python语言确实是一种十分精彩又强大的语言，它合理地结合了高性能与使得编写程序简单有趣的特色，看完本文你肯定有不少收获，希望本文能教会你更多东西。

对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说，经常用到对网页(即HTML文件)的解析处理。事实上，通过Python语言提供的各种模块，我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。

本文上篇中，我们介绍了一个可以帮助简化打开位于本地和Web上的HTML文档的Python模块。在本文中，我们将论述如何使用Python模块来迅速解析在HTML文件中的数据。从而处理特定的内容，如链接、图像和Cookie等。同时还会介绍如何规范HTML文件的格式标签，Python语言还有一个非常有用的模块HTMLParser。

该模块使我们能够根据HTML文档中的标签来简洁、高效地解析HTML文档。所以，在处理HTML文档的时候，HTMLParser是最常用的模块之一。处理HTML文档的时候，我们常常需要从其中提取出所有的链接。使用HTMLParser模块后，这项任务将变得易如反掌。

首先，我们需要定义一个新的HTMLParser类，以覆盖handle_starttag()方法，我们将使用这个方法来显示所有标签的HRef属性值。定义好新的HTMLParser类之后，需要创建一个实例来返回Python语言。然后，就可以使用urllib.urlopen(url)打开HTML文档并读取该HTML文件的内容了。

为了解析HTML文件的内容并显示包含其中的链接，可以使用read()函数将数据传递给HTMLParser对象。HTMLParser对象的feed函数将接收数据，并通过定义的HTMLParser对象对数据进行相应的解析。

需要注意，如果传给HTMLParser的feed()函数的数据不完整的话，那么不完整的标签会保存下来，并在下一次调用feed()函数时进行解析。当HTML文件很大，需要分段发送给解析器的时候，这个功能就会有用武之地了。下面是一个具体的例子。

font python html语言 html文件

安科网

讲述面向对象的语言——Python语言

daweihe

daweihe

相关推荐

win10家庭版找不到gpedit.msc的解决办法

Linux解压文件

VS Code + PlantUML实现跨平台设计

jackson gson

让数据处理更简单？百度EasyData推出首个高级智能数据清洗功能

总结一些，我在书写 CSS 的时候，经常犯的错误！

如何用Spring WebFlux构建Reactive REST API

css常用的简写技巧_css background简写、css border 简写、css font属性简写等

数据科学家、开发者的新神器 Amazon SageMaker正式上线中国区

雷林鹏分享：Apache POI字体/Fonts

虹软开放平台算法上新助力全面拓展人脸识别细分化场景

JQuery省市联动效果实现过程详解

代码（移动端rem初始化设置1rem=15px）

Blogs顶部添加欢迎信息

Markdown常用语法

JAVA数据结构与算法之数组与队列（二）

CSS之em、rem、px区别介绍

css动画 animation

CSS3（6）字体

Win10 19592快速预览版怎么手动更新？

daweihe