HtmlUnit+Jsoup 解决爬虫无法解析执行javascript的问题

wysjwh

2017-10-22

本人最近在研究爬虫。作为一个新手。研究了些爬虫框架，发现所有开源的爬虫框架很多，功能也很齐全，但唯独遗憾的是，目前还没有发现那个爬虫对js完美的解释并执行。看了浅谈网络爬虫爬js动态加载网页（二）之后很有感慨，首先对博主的钻研精神季度敬佩。虽然该文中第二和第三种方案不怎么靠谱，但能想到这些方案，说明博主的思维发散性很强，不会局限于单方向钻牛角尖式的思考。不过很遗憾，因为我就是这样的人。我始终觉得博主对于HtmlUnit的了解不够深入（也可能是我的误解）。于是就开始钻牛角尖了。看了HtmlUnit的简介之后，我有一种预感，认为HtmlUnit没理由不能支持Js的自动解释于执行，事实证明了我的想法。废话多说无益，

这里拿地址【http://cq.qq.com/baoliao/detail.htm?294064】来测试，通过查看该页面源码，可以发现，该页面文章标题，内容，浏览量都是采用占位符的形式，在页面加载时，通过js替换之，下面代码获取该文章浏览量字段。

public void testCrawler() throws Exception {  
        /**HtmlUnit请求web页面*/  
        WebClient wc = new WebClient();  
        wc.getOptions().setJavaScriptEnabled(true); //启用JS解释器，默认为true  
        wc.getOptions().setCssEnabled(false); //禁用css支持  
        wc.getOptions().setThrowExceptionOnScriptError(false); //js运行错误时，是否抛出异常  
        wc.getOptions().setTimeout(10000); //设置连接超时时间 ，这里是10S。如果为0，则无限期等待  
        HtmlPage page = wc.getPage("http://cq.qq.com/baoliao/detail.htm?294064");  
        String pageXml = page.asXml(); //以xml的形式获取响应文本  
  
        /**jsoup解析文档*/  
        Document doc = Jsoup.parse(pageXml, "http://cq.qq.com");   
        Element pv = doc.select("#feed_content span").get(1);  
        System.out.println(pv.text());  
        Assert.assertTrue(pv.text().contains("浏览"));  
  
        System.out.println("Thank God!");  
    }

js js代码 htmlunit

安科网

HtmlUnit+Jsoup 解决爬虫无法解析执行javascript的问题

wysjwh

wysjwh

相关推荐

WebAssembly及其 API 的完整介绍

通过构建自己的JavaScript测试框架来了解JS测试

想要在JS中把正则玩得飘逸，学会这几个函数的使用必不可少

js实现表格单列按字母排序

js实现表格数据搜索

浅谈AjaxPro.dll,asp.net 前台js调用后台方法

前端 HTMLTestRunner中JS的用法

gulp 构建 demo

SpringBoot入门二十五,默认的404错误页面引入css和js文件

selenium键盘操作，执行JS，上传文件

JS事件、Bom对象和Dom对象（1）（乐字节架构）

python 爬虫遇到 Cloudflare 邮箱加密

ES6-Babel-Browserify模块化教程

【AJAX】Asynchronous JavaScript And XML （非同步的JS & XML）

原生JavaScript(JS)修改添加CSS样式表（更好的性能）

JS原型对象操作实例分析

js实现mp3录音通过websocket实时传送+简易波形图效果

详解用js代码触发dom事件的实现方案

uglifyjs 合并压缩 js, clean-css 合并压缩css

gulp js文件压缩 es6 代码转换

webpack 之压缩js代码和html文件

wysjwh