Hadoop离Online系统有多远

玻璃心

2012-05-29

长久以来，说起Hadoop，大家只会想到它能承担offline系统的分析工作。的确，它在这个方面做的是很优秀了。如果有人说：Hadoop也可以担当online系统的一部分呀！我们可能就会替这个人悲哀了，是吧？为了更好地认识Hadoop的“所为”，我想暂时抛开技术的细枝末节，逐一梳理下Hadoop的各个组件，试着分析下Hadoop离担当online系统之大任还差哪些。

首先，在我来看，online系统需要有这些特质：稳定、高效、易于管理与监控、易于集成，它们在我认识中依次以重要性排序。能和Hadoop类比的（类似的，只为了举例）online系统有NFS，DB等，它们符合这样的要求。所以这些特质也会成为我们要求Hadoop平台的准绳。

Hadoop定位于大数据的存储与计算，且存储的是半结构化或非结构化数据。Online系统是否需要这样的一个组件是第一位要考虑的。单纯用它做文件存储?感觉大材小用了，类似的存储平台很多，不一定选Hadoop。Hadoop的优势就在于将存储与计算整合，所以如果要让它担当大任，对进来的数据不做分析就没有必要。那如果要分析，可以分析哪些数据呢？之前Cloudera的创始人讲过Hadoop适用的十种场景，可能不是很完整，至少在很多领域里，我们都能看到Hadoop的应用场景。

有人会问：如果要online分析，我为什么不选择Storm/S4这些流式数据分析平台，那不更有效么？Storm/S4的特点就是一次分析结束，数据就没了！也就是说，数据没有“重放性”。很多时候分析不是一次就可以做完的。增量分析、定时分析、延迟分析、迭代分析等，都需要想要分析时数据还在。所以Hadoop的使用与Storm/S4的应用场景还是有差别的。那Hadoop要支持online系统，它能做什么呢？这个问题的答案就是：你想从大数据中获取什么信息？如果用在广告定位领域，就是想更快地根据实时搜索调整广告投放；如果用在贸易监控领域，就是想及时地获得异常情况反馈。。。如果Hadoop能根据实时搜索结果动态改善搜索质量，那么你觉着有意义么？

Hadoop要想接入到online系统，它需要有效地部署与完善它的各个组件。下面会分析这些组件所面临的各种问题：

存储：

1.HA.自从最近社区解决了HA问题后，终于可以扬眉吐气地增加主版本了。HDFS也不用再受别人BS的眼神。

2.自身的软件问题。HDFS发展快八年了，还是有很多软件问题存在。客观上没办法，分布式集群的同步问题谁也避不开。但是它影响着集群的升级与维护，会降低系统的可用性。

3.更简单及方便的接口。从语言上看，推出了libhdfs，但有内存泄露问题，不敢用呀。还没有其它语言的接口。Hoop正在完善中，之后就可以名正言顺地替代HTTPProxy了。Thrift接口也完善了，但Thriftserver应该放在哪呢？

计算：

1.MapReduce的动静太大了。MapReduce利用并发化来解决没有索引的大数据分析问题。每个MapReduceJob都粗旷地扫描所有目标文件。我的感觉里，没有索引的粗狂风格纵是成为online系统，也应付不了online的更多问题。当前正在做的HOP只是解决框架设计，不能解决索引的问题。

2.配额管理。MapReduceJob执行依赖于集群资源的支撑。CPU、内存和网络等资源需要有效管理起来，以适用于不同的onlineuser。在MapReduce中，与之相关的部分就是Job调度策略。在Hive中，表结构的规划也会影响到HDFS文件大小及MapReduce资源。总之，如果不做资源管理的话，想对于提供相互貌似独立的平台其实很难的。

3.调度。Job有大有小、有急有缓、有长期有瞬时。不管怎样的Job都套在MapReduce的Job调度策略中，肯定不是有效的选择。如何根据Job的属性来选择匹配合适的调度策略是需要考虑的。

4.MapReduceJob的调优。Job的优化不是统一的，肯定因Job而异。Online的服务需要根据业务与数据特性来定制合适的调优策略。这点暂时没有做到。

展现：

有效的输出展现工具。当前的MapReduce展现太丑陋了。做了这么牛的一套系统，输出很弱智，的确让人感到悲哀。不过，最新的消息是Apache正在酝酿Hive等系统的展现工具，或许是集成其它好玩的应用。不管怎样，有效的展现总会提高用户体验的。

全局：

1.集群的管理与监控。这个方面现在不管Hadoop创业公司还是社区都有相当高的认识，很多产品开始涌现。如何简单地配置与高效地监控是大家比拼的重点。这个方面可以不用担忧。

2.用户的全局管理。Hadoop生态圈的用户管理是分散、没有全局统一起来的。用户可以做什么、用户所在的组可以做什么都需要有明确的要求。在Hadoop之外再搭建一层用户管理的层是相当有必要的。

3.安全机制。如同上面所说的用户管理，整个Hadoop生态圈也需要全局的认证与授权组件。可以定义HDFSquota、MapReduce资源、Hive表空间及HBase相关存储的有效管理。在HA方案之后，能把Hadoop推到更高层次的下一要点就是安全了。

4.跨数据中心的能力。Hadoop能跨数据中心吗？暂时不能！整个生态圈依赖于HDFS与MapReduce。这两位在Namespace管理层都不能做到解决跨数据中心的延迟与不一致性问题。但对于Online服务，这项技术越来越重要。

暂时能想到的只有这么多了，大家有什么补充的可以补充。这样梳理下来看，Hadoop任重而道远，大家努力吧。

hadoop 大数据

安科网

Hadoop离Online系统有多远

玻璃心

玻璃心

相关推荐

为什么Java仍将是未来的主流语言？

Hadoop3.2.0集群搭建常见注意事项

hadoop伪分布式环境搭建

_服役新节点，退役旧节点，多目录配置。+_HDFS2.x的新特性

Hadoop（一）安装

第四周练习

Hadoop小练习

hadoop框架三大组件hdfs、mapreduce、yarn 内容

Hadoop基础（三十三）：Zookeeper 分布式安装部署

Hadoop基础（二十二）：Shuffle机制（三）

hdfs、hive、hbase的搭建总结

NameNode和Zookeeper的format作用

hadoop集群的启动与停止

JStorm介绍

Hadoop2.7.7 centos7 完全分布式配置与问题随记

Hadoop Yarn工作机制 Job提交流程

【赵强老师】大数据工作流引擎Oozie

Hadoop

入门大数据---Spark开发环境搭建

hadoop创建目录

玻璃心