spark+hadoop+cenos6.5+VitualBox4.3.6整合开发(末)

1.前言。

spark0.8.1+shark0.8.1+hadoop2.2的整合,总体感觉是累。

中间的章节由于时间问题还没整理处理,这里做些总体的评论。

2.评测。

(1)spark跑在6台8核6G的电脑的wordcount并没有达到秒级,还是分钟级别,spark的牛吹大了。

(2)与传统hadoop结合方面,shark是一边倒在了CDH,cloudra給了钱也不能丢完节操啊。因为shark不支持传统hadoop,我最终表示放弃走shark路线。一个从开源走到封闭,并且完全由一个变化莫测的公司去主导自己的开发的产品,注定走不长久。

(3)spark和shark并没有发挥并行的优势,传说中的比map-reduce快90的谎言,在这里我需要揭破一下。

(4)hadoop如果再一边倒到CDH方面的话,hadoop我也要剔除在选型范围,不是说和CDH有仇,只是请尊重开源开发者自由选型的权利。

3.结束。

spark+shark在CDH的干扰下被扼杀了创造力。想法是好的,走的路反了。

相关推荐