Python抓取百度百科数据

xw0

2019-03-18

欢迎点击右上角关注小编，除了分享技术文章之外还有很多福利，私信学习资料可以领取包括不限于Python实战演练、PDF电子文档、面试集锦、学习资料等。

Python抓取百度百科数据

抓取策略

Python抓取百度百科数据

确定目标：确定抓取哪个网站的哪些页面的哪部分数据。本实例抓取百度百科python词条页面以及python相关词条页面的标题和简介。

分析目标：分析要抓取的url的格式，限定抓取范围。分析要抓取的数据的格式，本实例中就要分析标题和简介这两个数据所在的标签的格式。分析要抓取的页面编码的格式，在网页解析器部分，要指定网页编码，然后才能进行正确的解析。

编写代码：在网页解析器部分，要使用到分析目标得到的结果。

执行爬虫：进行数据抓取。

分析目标

1、url格式

进入百度百科python词条页面，页面中相关词条的链接比较统一，大都是/view/xxx.htm。

Python抓取百度百科数据

2、数据格式

标题位于类lemmaWgt-lemmaTitle-title下的h1子标签，简介位于类lemma-summary下。

Python抓取百度百科数据

3、编码格式

查看页面编码格式，为utf-8。

Python抓取百度百科数据

经过以上分析，得到结果如下：

Python抓取百度百科数据

项目结构

新建文件夹baike-spider，作为项目根目录。

新建spider_main.py，作为爬虫总调度程序。

新建url_manger.py，作为url管理器。

新建html_downloader.py，作为html下载器。

新建html_parser.py，作为html解析器。

新建html_outputer.py，作为写出数据的工具。

最终项目结构如下图：

Python抓取百度百科数据

spider_main.py

Python抓取百度百科数据

url_manger.py

Python抓取百度百科数据

html_downloader.py

Python抓取百度百科数据

html_parser.py

Python抓取百度百科数据

html_outputer.py

Python抓取百度百科数据

运行

在命令行下，执行python spider_main.py。

运行结果

Python抓取百度百科数据

xw0

0 关注 0 粉丝 0 动态

xw0

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号