二、基于storm的爬虫设计方案构想
基于storm的爬虫设计方案构想
这是一个令人振奋的构想
最近在弄storm,之前又弄过爬虫,所以把两者结合起来我觉得还挺有意思的。我们知道爬虫是从网络上获取数据经过一些处理保存到本地,作为自己的业务数据等。所以其从输入到输出其实就是一个数据流不断的流经系统。storm作为实时流处理的利器,其使我们非常方便的对系统各部件的并发进行rebalance,所以如果将其用在自己的爬虫中我们的爬虫就可以分布式了,例如:下载比较慢,那么我们就给下载部件添加运行资源、若解析慢就为解析添加资源,而且sotrmUI中提供的很多参数可以作为系统调优的依据,也可以方便我们找到系统瓶颈。
上图
具体的爬虫设计这里不便介绍,大致都一样,storm的资料网络上也很多,而且学习成本比hadoop要小很多,这里直接上图了,大家有好的想法好的思路一块儿拿出来讨论!!!!
图1、StormWeiboCrawler
这是一张简单的构想图,没有那么细
图2、StormTopo
这是一张来源于网络的,在storm内部topo图案例
相关推荐
枫叶上的雨露 2020-05-02
LandryBean 2020-03-12
一名java从业者 2020-01-09
weeniebear 2013-03-25
weeniebear 2014-05-28
sfqbluesky 2019-12-12
AbnerSunYH 2016-08-12
weeniebear 2016-08-11
Stereo 2016-07-27
芒果先生Mango 2018-05-31
dykun 2019-08-16
GimmeS 2016-10-11
benbendy 2016-09-30
Johnhao 2016-09-30
AbnerSunYH 2016-04-28
benbendy 2016-04-15