Nutch和CasperJS的区别

84337565

2013-09-27

http://bingozhao.com/blog/?p=53

研究淘宝产品数据抓取的时候遇到动态内容读取的问题（淘宝上的价格，评论信息是通过JS动态加载的），Nutch在这方面并未考虑。

对应的解决方案是基于Webkit/Geko等浏览器核心创建的HeadlessBrowserAgent，比如casperjs（基于pantomjs），可以灵活实现各种模拟用户操作并动态更新DOM结构已获得动态内容。基本上用户可以看到的信息（文字，图片等等）通过这个代理都可以抓取到，有效解决了动态数据抓取的问题。

casperjs脚本基于Javascript（或者Coffeescript），基本编程风格很适合页面前端编程人员进行DOM遍历，查找，还可以动态扩展额外脚本（比如模拟用户操作的脚本）等，使用起来比较简单。存在的问题是：

1.相比于Nutch这个高效抓取全文静态页面的好帮手来说，casperjs太慢了。前者基本上是在ms级别，后者为秒级，差了1000倍，当然这是因为强调用户交互的动态性，增加了更多的客户端和服务端连接，更多的数据解析功能，并且JS本身基于解释性语言的缘故，性能自然不能跟Nutch比。

2.casperjs还是不太完善，有比较多的bug需要修正。比如对于selector的选取并没有那么鲁棒性，经常需要调试来调整代码的输出以避免selector耍性子。

HeadlessWebkit/GekoAgent/Spider应该是适应未来发展的，希望能逐渐改善处理速度，满足实时数据抓取的需求。（按照现在目测casperjs抓取解析的速度，一个中等复杂页面上几个关键字模板抓取内容的时间在5秒左右，这样算下来要抓取100万个页面需要差不多一年，必须使用大规模的分布式集群进行抓取才能取得实际产品环境的效果）

nutch casperjs 动态

安科网

Nutch和CasperJS的区别

84337565

84337565

相关推荐

Hadoop

你的大数据之Hadoop是如何去学习的？Hadoop300集了解一下

二次开发nutch的恩恩怨怨

开源搜索引擎

运行nutch报错：unzipBestEffort returned null

开源爬虫框架的优缺点？

nutch 2.1 分布式hbase部署

nutch0.9实现抓取动态网页部署笔记

NUTCH中的not in gzip format异常处理

利用nutch-1.2和Lucene 搭建自己的搜索平台， Apache Mahout 构建社会化推荐引擎

Lucene+Nutch搜索引擎开发一：介绍

Nutch1.0或者Nutch1.1如何导入MyEclipse与Eclipse?

web爬虫

Nutch 是一个开源Java 实现的搜索引擎

windows平台下，使用nutch，得需要cygwin工具作为其模拟linux的运行环境

全文搜索引擎

Google式的搜索引擎实现

搜索引擎 Nutch

Nutch中MapReduce的分析

linux nutch1.0安装配置

84337565