只听说过用Python做爬虫，Java程序员笑了！

snakeson

2020-10-09

关注关注

本文转载自微信公众号「Java极客技术」，作者鸭血粉丝。转载本文请联系Java极客技术公众号。

网络爬虫技术，早在万维网诞生的时候，就已经出现了，今天我们就一起来揭开它神秘的面纱!

一、摘要

说起网络爬虫，相信大家都不陌生，又俗称网络机器人，指的是程序按照一定的规则，从互联网上抓取网页，然后从中获取有价值的数据，随便在网上搜索一下，排在前面基本都是 pyhton 教程介绍。

只听说过用Python做爬虫，Java程序员笑了！

的确，pyhton 在处理网页方面，有着开发简单、便捷、性能高效的优势!

但是我们 java 也不赖，在处理复杂的网页方面，需要解析网页内容生成结构化数据或者对网页内容精细的解析时，java 可以说更胜一筹!

下面我们以爬取国家省市区信息为例，使用 java 技术来实现，过程主要分三部：

第一步：目标网页分析
第二步：编写爬虫程序，对关键数据进行抓取
第三步：将抓取的数据写入数据库

废话不多说，直接开撸!

二、网页分析

网络爬虫，其实不是一个很难的技术，只是需要掌握的技术内容比较多，只会 java 技术是远远不够，还需要熟悉 html 页面属性!

以爬取国家省市区信息为例，我们可以直接在百度上搜索国家省市区，点击进入全国行政区划信息查询平台。

只听说过用Python做爬虫，Java程序员笑了！

在民政数据菜单栏下，找到最新的行政区域代码公示栏。

只听说过用Python做爬虫，Java程序员笑了！

点击进去，展示结果如下!

只听说过用Python做爬虫，Java程序员笑了！

可以很清楚的看到，这就是我们要获取省市区代码的网页信息。

可能有的同学会问，这么直接干合不合法?

国家既然已经公示了，我们直接拿来用就可以，完全合法!而且国家省市区代码是一个公共字典，在很多业务场景下必不可少!

当我们找到了目标网页之后，我们首先要做的就是对网页进行分析，打开浏览器调试器，可以很清晰的看到它是一个table表格组成的数据。

熟悉 html 标签的同学，想必已经知道了它的组成原理。

其实table是一个非常简单的 html 标签，主要有tr和td组成，其中tr代表行，td代表列，例如用table标签画一个学生表格，代码如下：

<table> 
 <!-- 定义表格头部 --> 
 <tr> 
  <td>编号</td> 
  <td>姓名</td> 
 </tr> 
 <!-- 定义表格内容 --> 
 <tr> 
  <td>100</td> 
  <td>张三</td> 
 </tr> 
 <tr> 
  <td>101</td> 
  <td>李四</td> 
 </tr> 
</table>

展示结果如下：

只听说过用Python做爬虫，Java程序员笑了！

了解了table标签之后，我们再对网页进行详细分析。

首先对整个内容进行观察，很容易的看到，市级以上(包括市级)，都是黑体字加粗的，区或者县级地区，都是常规!

只听说过用Python做爬虫，Java程序员笑了！

出现这个现象，其实是由样式标签CSS来控制的，点击北京市，找到对应的代码位置，从图中我们可以很清晰的看到，市级对应的样式class为xl7030796，区或者县级地区对应的样式class为xl7130796

只听说过用Python做爬虫，Java程序员笑了！

除此之外，我们继续来看看省和市级的区别!

只听说过用Python做爬虫，Java程序员笑了！

可以很清晰的看到，市级相比省级信息，多了一个span占位符标签。

于是，我们可以得出如下结论：

省级信息，样式标签为xl7030796

市级信息，样式标签为xl7030796，同时包含span占位符标签

区或者县级信息，样式标签为xl7130796

等会会通过这些规律信息来从网页信息中抓取省、市、区信息。

三、编写爬虫程序

3.1、创建项目

新建一个基于 maven 工程 java 项目，在pom.xml工程中引入如下 jar 包!

<!--解析HTML--> 
<dependency> 
    <groupId>org.jsoup</groupId> 
    <artifactId>jsoup</artifactId> 
    <version>1.11.2</version> 
</dependency>

3.2、编写爬取程序

先创建一个实体数据类，用于存放抓取的数据

public class ChinaRegionsInfo { 
 
    /** 
     * 行政区域编码 
     */ 
    private String code; 
 
    /** 
     * 行政区域名称 
     */ 
    private String name; 
 
    /** 
     * 行政区域类型，1:省份，2：城市，3：区或者县城 
     */ 
    private Integer type; 
 
    /** 
     * 上一级行政区域编码 
     */ 
    private String parentCode; 
 
    //省略get、set 
}

然后，我们来编写爬取代码，将抓取的数据封装到实体类中

//需要抓取的网页地址 
private static final String URL = "http://www.mca.gov.cn//article/sj/xzqh/2020/202006/202008310601.shtml"; 
 
public static void main(String[] args) throws IOException { 
    List<ChinaRegionsInfo> regionsInfoList = new ArrayList<>(); 
 //抓取网页信息 
    Document document = Jsoup.connect(URL).get(); 
 //获取真实的数据体 
    Element element = document.getElementsByTag("tbody").get(0); 
    String provinceCode = "";//省级编码 
    String cityCode = "";//市级编码 
    if(Objects.nonNull(element)){ 
        Elements trs = element.getElementsByTag("tr"); 
        for (int i = 3; i < trs.size(); i++) { 
            Elements tds = trs.get(i).getElementsByTag("td"); 
            if(tds.size() < 3){ 
                continue; 
            } 
            Element td1 = tds.get(1);//行政区域编码 
            Element td2 = tds.get(2);//行政区域名称 
            if(StringUtils.isNotEmpty(td1.text())){ 
                if(td1.classNames().contains("xl7030796")){ 
                    if(td2.toString().contains("span")){ 
                        //市级 
                        ChinaRegionsInfo chinaRegions = new ChinaRegionsInfo(); 
                        chinaRegions.setCode(td1.text()); 
                        chinaRegions.setName(td2.text()); 
                        chinaRegions.setType(2); 
                        chinaRegions.setParentCode(provinceCode); 
                        regionsInfoList.add(chinaRegions); 
                        cityCode = td1.text(); 
                    } else { 
                        //省级 
                        ChinaRegionsInfo chinaRegions = new ChinaRegionsInfo(); 
                        chinaRegions.setCode(td1.text()); 
                        chinaRegions.setName(td2.text()); 
                        chinaRegions.setType(1); 
                        chinaRegions.setParentCode(""); 
                        regionsInfoList.add(chinaRegions); 
                        provinceCode = td1.text(); 
                    } 
 
                } else { 
                    //区或者县级 
                    ChinaRegionsInfo chinaRegions = new ChinaRegionsInfo(); 
                    chinaRegions.setCode(td1.text()); 
                    chinaRegions.setName(td2.text()); 
                    chinaRegions.setType(3); 
                    chinaRegions.setParentCode(StringUtils.isNotEmpty(cityCode) ? cityCode : provinceCode); 
                    regionsInfoList.add(chinaRegions); 
                } 
            } 
        } 
    } 
    //打印结果 
    System.out.println(JSONArray.toJSONString(regionsInfoList)); 
}

运行程序，输出结果如下：

只听说过用Python做爬虫，Java程序员笑了！

json解析结果如下：

只听说过用Python做爬虫，Java程序员笑了！

至此，网页有效数据已经全部抓取完毕!

四、写入数据库

在实际的业务场景中，我们需要做的不仅仅只是抓取出有价值的数据，最重要的是将这些数据记录数据库，以备后续的业务可以用的上!

例如，当我们在开发一个给员工发放薪资系统的时候，其中的社保、公积金，可能每个城市都不一样，这个时候就会到国家省市区编码。

因此，我们可以将抓取的国家省市区编码写入数据库!

在上面，我们已经将具体的省市区数据结构封装成数组对象，写入过程也很简单。

首先，创建一张国家行政地域信息表china_regions

CREATE TABLE `china_regions` ( 
  `id` bigint(20) unsigned NOT NULL COMMENT '主键ID', 
  `code` varchar(32) COLLATE utf8mb4_unicode_ci NOT NULL DEFAULT '' COMMENT '行政地域编码', 
  `name` varchar(50) COLLATE utf8mb4_unicode_ci NOT NULL DEFAULT '' COMMENT '行政地域名称', 
  `type` tinyint(4) NOT NULL DEFAULT '1' COMMENT '行政地域类型，1:省份，2：城市，3：区域', 
  `parent_code` varchar(32) COLLATE utf8mb4_unicode_ci NOT NULL DEFAULT '' COMMENT '上一级行政编码', 
  `is_delete` tinyint(4) NOT NULL DEFAULT '0' COMMENT '是否删除 1：已删除；0：未删除', 
  `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间', 
  `update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '更新时间', 
  PRIMARY KEY (`id`), 
  KEY `idx_code` (`code`) USING BTREE, 
  KEY `idx_name` (`name`) USING BTREE, 
  KEY `idx_type` (`type`) USING BTREE, 
  KEY `idx_parent_code` (`parent_code`) USING BTREE 
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci COMMENT='国家行政地域信息表';

搭建一个springboot工程，通过mybatis-plus组件，一键生成代码

只听说过用Python做爬虫，Java程序员笑了！

最后，配置好数据源，重新封装数组对象，调用批量插入方法，即可插入操作

chinaRegionsService.saveBatch(regionsInfoList);

插入执行完之后，数据库结果如下

只听说过用Python做爬虫，Java程序员笑了！

至此，大部分工作基本已经完成!

但是，细心的你，可能会发现还有数据问题，因为我们国家在省级区域上，还有一个直辖市的概念，以北京市为例，在数据库中type类型为1，表示省级类型，但是它的子级是一个区，中间还掉了一层市级类型。

因此，我们还需要对这些直辖市类型的数据进行修复，查询出所有的直辖市类型的城市。

只听说过用Python做爬虫，Java程序员笑了！

对这些编号的城市，单独处理，中间加一层市级类型!

只听说过用Python做爬虫，Java程序员笑了！

至此，国家省市区编码数据字典，全部处理完毕!

五、总结

本篇主要以爬取国家省市区编号为例，以 java 技术为背景进行讲解，在整个爬取过程中，最重要的一部分就是网页分析，找出规律，然后通过jsoup工具包解析网页，获取其中的有效数据。

同时，技术是一把双面刀，希望同学们能正当使用!

七、参考

python 程序员 python爬虫 text-align https

snakeson

0 关注 0 粉丝 0 动态

关注关注

Python曾是程序员的“瑞士军刀”，而如今正被慢慢取代

上世纪90年代初，Python面世了。近30年来，关于它的“炒作”一直没有少过。当然，编程界花了至少20年的时间才认识到它，但自那以后，它的流行程度远远超过了C、C#、Java甚至Javascript。尽管Python目前在数据科学和机器学习领域，以及某些

susmote 2020-11-07

Python爬虫破解登陆哔哩哔哩的方法

作为一名找不到工作的爬虫菜鸡人士来说，登陆这一块肯定是个比较大的难题。从今天开始准备一点点对大型网站进行逐个登陆破解。加深自己爬虫水平。if response_json['code'] == 0 and response_json['data']['sta

夜斗不是神 2020-11-17

python 爬虫如何实现百度翻译

本文将会通过爬虫的方式实现简单的百度翻译。本文中的代码只供学习，不允许作为于商务作用。若有侵犯，立即删文！在网站文件中找到隐藏的免费api。传入api所需要的参数并对其发出请求。在返回的json结果里找到相应的翻译结果。进入百度翻译，随便输入一段需要翻译的

染血白衣 2020-11-16

使用开源可视化工具来理解你的Python代码

VizTracer 工具可以可视化并跟踪 Python 代码，让你可以更深入地了解其工作原理。随着 Python 项目变得越来越大、越复杂，理解起它来就变得充满挑战性。即使是你自己独自编写了整个项目，也不可能完全知道项目是如何工作的。为了能更好的理解你的代

千锋 2020-11-15

python 下载文件的多种方法汇总

本文档介绍了 Python 下载文件的各种方式，从下载简单的小文件到用断点续传的方式下载大文件。使用 Requests 模块的 get 方法从一个 url 上下载文件，在 python 爬虫中经常使用它下载简单的网页内容。使用 python 内置的 url

HeyShHeyou 2020-11-17

python 发送get请求接口详解

　　如果想用python做接口测试，我们首先有不得不了解和学习的模块。虽然Python内置的urllib模块，用于访问网络资源。但是，它用起来比较麻烦，而且，缺少很多实用的高级功能。更好的方案是使用。它是一个Python第三方库，处理URL资源特别方便。R

YENCSDN 2020-11-17

python 使用tkinter+you-get实现视频下载器

#获取屏幕尺寸以计算布局参数，使窗口居屏幕中央,其中width和height为界面宽和高。#阻止窗口调整大小

lsjweiyi 2020-11-17

python中requests模拟登录的三种方式(携带cookie/session进行请求网站)

session是在cookie的基础上，服务端设置session时会向浏览器发送设置一个设置cookie的请求，这个cookie包括session的id当访问服务端时带上这个session_id就可以获取到用户保存在服务端对应的session. 到此这篇关

houmenghu 2020-11-17

python开发一个解析protobuf文件的简单编译器

最近刚刚用python写完了一个解析protobuf文件的简单编译器，深感ply实现词法分析和语法分析的简洁方便。乘着余热未过，头脑清醒，记下一点总结和心得，方便各位pythoner参考使用。如果你不是从事编译器或者解析器的开发工作，你可能从未听说过ply

Erick 2020-11-17

Linux Shell 如何获取参数的方法

是显示最后命令的退出状态，0表示没有错误，其他表示有错误。不同点：$* 和 $@ 都表示传递给函数或脚本的所有参数，不被双引号(" ")包含时，都以"$1" "$2" …"$n"

以梦为马不负韶华 2020-10-20

python跨文件使用全局变量的实现

但是他的一大缺陷就是只能本module 中也就是本文件中使用，跳出这个module就不行。使用一个更宏观的思路，全局变量就用全局加载的模块解决，很遗憾也是不行，这样可以，但是如果再有一个module 想用呢？这样就会报错，因为import 加载就会执行一遍

lhtzbj 2020-11-17

python调用百度API实现人脸识别

# """ 你的 APPID AK SK """. # img = Image.fromarray #将每一帧转为Image. # output_buffer = BytesIO() #创

pythonjw 2020-11-17

Python调用ffmpeg开源视频处理库，批量处理视频

strcmd = r'ffprobe -print_format json -show_streams -i "{}"'.format. strcmd = 'ffmpeg -i "{}" -vcodec copy -

dingwun 2020-11-16

详解python os.path.exists判断文件或文件夹是否存在

os即operating system，Python 的 os 模块封装了常见的文件和目录操作。os.path模块主要用于文件的属性获取,exists是“存在”的意思，所以顾名思义，os.path.exists()就是判断括号里的文件是否存在的意思，括号内

lhxxhl 2020-11-16

python实现在列表中查找某个元素的下标示例

列表中字符和数字都有。使用python的内建函数enumerate

sunskyday 2020-11-16

python如何获得list或numpy数组中最大元素对应的索引

#表示最大值在第二行第二列

sizhixht 2020-11-16

Python实现列表索引批量删除的5种方法

开头，如果不仔细看好像没什么问题。但是结果却是错误的。将 listObj.remove() 改为listObj.pop结果也是相同的。Java用同样的编程思想，得到的结果也有相似性。这种错误，主要是初学者对于数据存储原理没有理解清楚，或者，没有意识到内存存

坚持是一种品质 2020-11-16

致命错误！Python开发者的7个崩溃瞬间

本文转载自公众号“读芯术”。毫无疑问，Python是当今使用最为广泛的编程语言。但无论你经验多丰富，或是已使用过多少种语言，切换到Python时都不能保证非常顺利。具有面向对象编程背景的开发人员容易忽略Python的惯用特性，很可能会滥用编程结构，从而产生

huavhuahua 2020-11-20

针对Python开发人员的10个“疯狂”的项目构想

最棒的是，你可以通过这些有趣但也具有挑战性的项目来增强 Python 编程技能。你知道 Python 是被称为全能编程语言的吗？是的，它确实是，虽然不应该在每个项目中都使用它。你可以使用它来创建桌面应用程序、游戏、移动应用程序、网站和系统软件。它甚至是

meylovezn 2020-11-20

用Python内置模块处理ini配置文件

开发人员每天都在处理一些大型而复杂的项目，而配置文件会帮到我们并节省不少时间。在处理配置文件过程中，无需更改源代码本身，只需要调整配置文件即可访问不同的API接口、更新基础URL信息或其它事情。尽管可以通过多种方式来支持软件中的配置文件，包括JSON，

逍遥友 2020-11-20

安科网

只听说过用Python做爬虫，Java程序员笑了！

snakeson

snakeson

相关推荐

Python曾是程序员的“瑞士军刀”，而如今正被慢慢取代

Python爬虫破解登陆哔哩哔哩的方法

python 爬虫如何实现百度翻译

使用开源可视化工具来理解你的Python代码

python 下载文件的多种方法汇总

python 发送get请求接口详解

python 使用tkinter+you-get实现视频下载器

python中requests模拟登录的三种方式(携带cookie/session进行请求网站)

python开发一个解析protobuf文件的简单编译器

Linux Shell 如何获取参数的方法

python跨文件使用全局变量的实现

python调用百度API实现人脸识别

Python调用ffmpeg开源视频处理库，批量处理视频

详解python os.path.exists判断文件或文件夹是否存在

python实现在列表中查找某个元素的下标示例

python如何获得list或numpy数组中最大元素对应的索引

Python实现列表索引批量删除的5种方法

致命错误！Python开发者的7个崩溃瞬间

针对Python开发人员的10个“疯狂”的项目构想

用Python内置模块处理ini配置文件

snakeson