盘点用Java抓取HTTP服务器和FTP服务器的网页数据或图片等数据的实用技巧

登峰小蚁

2020-01-11

摘要

在信息时代，常常需要通过编程的方式来灵活整理各种网络数据。首先涉及到如何方便准确地抓取网络数据。下面盘点用Java程序来访问HTTP服务器以及FTP服务器的各种实用技巧。主要介绍了Java Socket、java.net.URL类、Selenuim软件包、Apache HttpClients、Apache FTPClient来和HTTP服务器以及FTP服务器通信的方法以及其优缺点。
参考资料

（1）本文参考了笔者所写的《Java网络编程核心技术详解》，2020年上半年出版。
（2）JavaThinker.net网站上的网友们贡献的丰富技术资料
（3）Java API的JavaDoc文档
（4）Selenium的软件包下载地址
（5）Apache HttpClients的软件包下载地址
（6）Apache FTPClient的软件包下载地址
（7）Apache HttpClients API的JavaDoc文档
（8） Apache FTPClient API的JavaDoc文档
（9）Selenium软件API的JavaDoc文档

一、用Java Socket访问HTTP服务器

通过Socket访问HTTP服务器，需要了解具体的HTTP协议通信细节，由Socket获得输入流和输出流，然后通过输入流发送HTTP请求数据，通过输出流读取HTTP响应结果。程序得到了HTTP响应结果后，需要对响应头和响应正文进行解析。

这是最原始的方法，給程序员提供了很灵活地发挥空间，可以炮制各种各样的HTTP请求数据。缺点是处理HTTP响应结果比较麻烦。尤其是现在许多网站发回的数据会先进行gzip压缩。客户端得到了这样的数据后，还需要进行解压，才能得到真实的数据。

这种方法的使用技巧和范例请参考用Java套接字访问HTTP服务器读取网页数据

二、用java.net.URL等类访问HTTP服务器

URL类以及其相关的URLConnection类称为客户端协议处理框架，它对原始的HTTP通信细节进行了封装。程序员只需要提供一个URL地址，就能发送HTTP请求数据以及读取HTTP响应结果。如果服务器端对HTML文档进行了gzip压缩，客户端协议处理框架会对HTML文档进行解压，再作为响应结果的正文返回給客户程序，这是比直接用Socket读取HTML文档更省力的地方。

以下getByteSource()方法能根据给定的URL地址，返回相应的响应结果的正文部分的字节流，以byte[]形式返回。

public static byte[] getByteSource(String  urlStr)throws IOException{
     URL url=new URL(urlStr);

    HttpURLConnection.setFollowRedirects(true);   //设置允许重定向
    //此处创建URLConnection对象时，并不会进行真实地与HTTP服务器的连接，
    //只有当调用URLConnection的connect()方法，或者发送HTTP请求以及读取HTTP响应结果时才会连接服务器
    URLConnection connection=url.openConnection();  
    connection.setConnectTimeout(60000); //设置连接超时时间为60秒
    connection.setReadTimeout(60000);  //设置读取数据超时时间为60秒

    //演示设置HTTP请求头部的信息
    connection.setRequestProperty("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36");
    connection.setRequestProperty("Connection","keep-alive");
    connection.setRequestProperty("Content-Type","text/plain;charset=UTF-8");
    connection.setRequestProperty("X-Buffalo-Version","2.0-alpha3");
    connection.setRequestProperty("Sec-Fetch-Mode","cors");
    connection.setRequestProperty("Accept"," */*");
    connection.setRequestProperty("Sec-Fetch-Site","same-origin");
    connection.setRequestProperty("Accept-Encoding","deflate, br");
    connection.setRequestProperty("Accept-Language","zh-CN,zh;q=0.9");  

   //演示遍历访问响应结果的头部信息
   Map<String,List<String>> headers=connection.getHeaderFields();
   Set<String> keySet=headers.keySet();
   for(String key:keySet){
      //响应头中的每一项可能有多个取值，此处仅打印第一个取值
     System.out.println(key+":"+headers.get(key).get(0));
   }

   //读取响应头部的特定项的值
   String location=connection.getHeaderField("Location");

     //读取响应正文的数据
    InputStream in=connection.getInputStream();
    ByteArrayOutputStream buffer=new ByteArrayOutputStream();
    byte[] buff=new byte[1024];  
    int len=-1;

    while((len=in.read(buff))!=-1){
      buffer.write(buff,0,len);
    }

    return buffer.toByteArray();
  }

以下getStringSource()方法演示获得HTML文本数据。它利用上面的getByteSource()方法得到HTTP响应正文的字节流，再把它包装成一个字符串对象。需要指定响应正文的字符编码。

public static String getStringSource(String urlStr,String encode)throws IOException{
     byte[] buffer=getByteSource(urlStr);
     String data=new String(buffer,tencode);
    return data;  //把字节数组转换为字符串
  }

客户端协议处理框架的更多使用技巧和范例请参考用java.net.URL类访问HTTP服务器读取网页数据

三、用Selenium软件API访问HTTP服务器

Selenium是一个专业的爬虫软件。它支持Java和Python等语言。当通过上述java.net.URL类来读取网站的HTML文档时，有时候读到的仅仅是JavaScript脚本，而真正的HTML文档需要运行JavaScript才能获得。Selenium能够利用Chrome浏览器或者是FireFox浏览器的驱动程序来启动浏览器，由浏览器执行JavaScript脚本，然后返回真实的HTML文档。
Selenium具有以下优势：
（1）利用浏览器动态执行JavaScript脚本的功能，获得真正要访问的HTML文本数据。
（2）对HTML文档进行了DOM（文档对象模型）建模，可以方便地访问HTML文档中各个元素的属性。

关于用Selenium获取HTML文档的方法和范例请参考：Java版Selenium使用chrome driver抓取动态网页

Selenium读取和处理HTML文档比较方便，但是目前在抓取网页图片方面比较麻烦。一种做法是先把整个网页进行截屏，得到一个图片。然后截取特定元素在整个图片中所在的区域，获得元素所对应的图片。这种做法的缺点是: 如果对网页的截屏的大小取决于电脑屏幕的大小。对于需要通过滚动屏幕才能显示的网页部分内容，则不能一次性截屏。

对于不在截屏图片范围内的元素，如果试图截取这个元素对应区域的图片，程序会抛出Outside of Raster的异常。

关于用Selenium截取网页图片以及特定元素的图片的方法和范例请参考： Java版Selenium 截取网页上特定元素的图片的方法

如果用Selenium来抓图比较方法，还可以使用java.net.URL或者Apache HttpClients来抓图。关于把Selenium和java.net.URL类结合使用，来读取HTML文档以及下载文档中<img>元素指定图片的方法，请参考：用Selenium 爬虫API和java.net.URL类保存网页上的图片

使用Selenium的另一个缺点是比较“笨重”，必须安装Chrome浏览器，下载对应的Chrome驱动器程序，提供Selenium的多个类库文件。

四、用Apache HttpClients下载网上的图片等各种数据

用java.net.URL来下载图片数据时，如果HTTP服务器端对图片数据进行了重定向，或者进行了特殊格式的压缩，有时还是无法获取正确的原始图片数据。在这种情况下，可以使用Apach HttpClients API。

关于用Apache HttpClients来下载各种网页数据的方法，请参考：用Apache HttpClients下载网上的图片等各种数据

在实际应用中，可以利用Selenium来读取需要动态执行JavaScript脚本的网页，用Apache Clients来下载网页中的图片等数据，这样会解决抓取数据中遇到的各种障碍。

五、用Apache FTPClient访问FTP服务器

Java程序除了要访问HTTP服务器，还需要访问FTP服务器。Apache FTPClient API提供了访问FTP服务器的各种功能，包括：

下载和上传文件
浏览FTP服务器端的文件信息
在远程FTP服务器上创建或删除文件以及目录

关于用Apache HttpClients来上传文件的方法，请参考：用 Apache 的FTPClient上传文件
关于用Apache HttpClients在FTP服务器上创建目录的方法，请参考：用Apache FTPClient在FTP服务器上创建目录

作者：孙卫琴

ftp 软件网页抓取 apache

安科网

盘点用Java抓取HTTP服务器和FTP服务器的网页数据或图片等数据的实用技巧

登峰小蚁

一、用Java Socket访问HTTP服务器

二、用java.net.URL等类访问HTTP服务器

三、用Selenium软件API访问HTTP服务器

四、用Apache HttpClients下载网上的图片等各种数据

五、用Apache FTPClient访问FTP服务器

登峰小蚁

相关推荐

防火墙端口开放命令

Linux Vsftpd服务

Linux基础知识(三)--基础服务

linux搭建一台外网使用的FTP服务器

linux 搭建vsftpd服务详解

Docker搭建FTP服务器

使用PYODBC将数据从Pandas的DataFrame写入SQL Server

FTP主动模式和被动模式

Linux下使用docker搭建ftp服务器

ansible自动部署ftp中遇到的坑

Linux搭建FTP服务器

Linux中FTP安装与配置

linux系统手动搭建FTP站点教程

Linux服务配置-vsftpd服务配置虚拟用户登录

《Linux就该这么学》第十三课

SQL Server数据库mdf文件中了勒索病毒[[email protected]].ROGER

python FTP常见用例

文件共享之ftp、nfs、samba和inotify_rsync实时备份

CentOS 8.1 配置vsftp和yum

centos7 Pure-ftpd

登峰小蚁