Apache Hadoop 2.6.0发布——异构存储,长时间运行的服务与滚动升级支持
我很高兴地宣布,在Apache的Hadoop社区已经发布了Apache Hadoop的2.6.0!
特别是,我们很高兴在此版本中相关的三个主要片:异构存储在HDFS使用SSD和内存层,支持长时间运行在YARN服务和滚动升级,将升级您的集群软件,然后重新启动升级的节点而无需关闭群集或丢失正在进行的工作。YARN作为其架构中心,Hadoop的不断吸引新的引擎在数据平台中运行,作为组织想要在一个单一的存储库高效地存储数据,并与它同时以不同的方式进行交互。
非常感谢所有的贡献者和提交这些人所合作过这个版本,共有近900个 JIRA问题在四个方面解决的:
- Hadoop通用:231个 JIRA问题解决
- Hadoop的HDFS:305个 JIRA问题解决
- Hadoop的YARN:290个 JIRA问题解决
- Hadoop的MapReduce的:70个 JIRA问题解决
- Apache Hadoop2.6.0的亮点
以下是有关的最重要的特征的一些细节。对于功能,改进和bug修复的完整列表,
加强支持异构存储层的HDFS
管理员可以在一个限定的Datanode跨磁盘存储层,以及应用程序可利用的API将数据存储到这些不同的存储层。这意味着管理员可以优化他们的应用程序通过使用Hadoop运行:
- 在SSD存储层以提高读/写延迟
- 内存存储层进行快速读/写要么临时数据或故障的应用程序(如星火,TEZ等)
- 归档存储层,以提高存储效率。
支持长时间运行的服务在YARN
Apache Hadoop2.6.0包括增强了核心Apache Hadoop YARN平台,使长期存在的服务(如Apache Storm,Apache Samza,Apache Kafka或Apache HBase),可以在YARN中运行,并充分利用其优势的容错,安全性和易维护性。
Apache Hadoop最初架构,支持批量处理数据。但有些应用“永远在线”,随时准备处理输入数据。例如,Apache Storm必须准备在一天中的任何时间实时处理数据流,在一年中的任何一天。
用Hadoop2.6.0,集群现在可以利用相同的基础设施安排,执行和管理所有期限的多个工作负载。长住服务,如 Storm和HBase可以和平共处的一起是在特定的时间点(如Apache Hive或Apache Pig),用于特设工作应用程序。
滚动升级在YARN工作,保留重新启动
新的工作,维护重启功能可以让应用程序保持其完成和正在进行的国家,在一个节点故障或重启的脸。 YARN现在可以提供滚动以最小的服务质量下降用于运行应用程序的升级支持。已完成或正在进行中的应用工作节点重启过程中保持不变,进度回升,而不必从头开始重新启动所有任务。
展望Apache Hadoop2.7版本
为ApacheHadoop的下一个版本的主要驱动力正在向JDK7+即我们现在要求使用JDK7的ApacheHadoop的前进,也支持JDK8作为一个运行时。
在ApacheHadoop社区开展的其他重要活动有:
- 在HDFS进行纠删码支持 - HDFS-7285
- 支持磁盘YARN调度和隔离的资源 - YARN-2139
- 容器资源委派延长YARN资源管理 - YARN-1488
与往常一样,你可以沿着发展,通过跟踪路线图的Wiki的Apache Hadoop跟随。
致谢