扣丁学堂手把手教你如何入门Hadoop编程

虽然软件组件构成的Hadoop生态系统堆栈是开源技术,但是采用付费订阅使用其供应商的商业Hadoop平台会为企业带来许多好处。例如,订阅可以提供技术支持和培训,以及访问那些不提供给开源社区的企业功能。而供应商的Hadoop的企业版提供了Hadoop生态系统协议堆栈的核心部件,主要区别是这些厂商提供超越公开访问的功能。我们为了能够更进一步研究Hadoop的产品分布将如何有针对性地满足用户组织的业务需求。将总结出以下几点供大家借鉴与学习。

扣丁学堂手把手教你如何入门Hadoop编程

Hadoop的部署模型

大多数Hadoop厂商支持混合部署的方法,但是只有来自微软和亚马逊网络服务公司(AWS)的Hadoop产品在云环境完全部署。微软公司运行在Azure云基础设施的Hadoop产品名为HDInsight,是一个基于Hortonworks数据平台(HDP)托管服务,这与Pivotal公司代理销售Hadoop版本相同。AWS公司使用亚马逊弹性云计算平台,支持AmazonElasticMapReduce(EMR)的S3数据存储,其Hadoop发布版捆绑了其他各种工具和技术。此外,亚马逊EMR还提供使用MAPR的Hadoop发行版,这并不是亚马逊公司自己的产品。

云部署模型提供了一个快速而省力的方式来配置Hadoop集群,微软和AWS都使用户能够调整需求他们的环境来处理动态计算和存储能力的需求。这种弹性可以满足理想的组织对计算和存储的需求,可能会随时间变化。

而其他主要的Hadoop厂商,例如Cloudera,Hortonworks,IBM和MAPR都提供了基于云的部署,他们并不局限于这一模式。它们允许用户下载,可以在本地或私有云部署在各种服务器,包括Linux和Windows系统的版本。此外,Cloudera公司和MAPR公司还提供了可以运行在虚拟环境中的沙箱版本,例如VMware。

底线:考虑你的组织是否更倾向于管理其内部的大数据环境或使用托管服务。在内部管理监督意味着软件环境的维护和系统的连续监测,即环境是否对处所的物理平台或使用基于云的服务安置。如果你有经验丰富的工作人员,并知道适当的系统大小特征,或者如果安全问题权证管理一个可信的防火墙背后的系统,其内部部署选项可能是可取的。

另一种方法是使用一个供应商提供的服务平台,这将有助于配置,启动,管理和监控你的操作。如果你不知道你需要什么规模的系统,或期望系统规模将增长基础上的需求不断增加,这可能是可取的。而使用云计算和托管服务工作的好处是,它会为存储和处理资源提供必要的弹性。

顶端的Hadoop发行版的企业级功能

三个独立的Hadoop供应商的开发方法有一些明显的差异。Cloudera公司往往增强了Hadoop的核心与内部开发的插件技术,例如,基于Hadoop的ImpalaSQL查询引擎;Cloudera的Manager管理工具;以及Kudu,这是在Hadoop分布式文件系统(HDFS)运行的另一个用于实时分析数据存储应用。通常,企业在进行初步开发工作后会开放源代码等技术。另一方面,Hortonworks公司促进其在ApacheHadoop社区软件的100%创新,并没有专有扩展。

再加上其附加技术,如从开源项目一开始推出的Ambari配置和管理软件。另外,Hortonworks公司已经与IBM等公司联合起来,形成开放式数据平台计划(ODPi),致力于建立一个共同的核心技术规范的Hadoop平台的组织。ODPi成员声称,这将提高互操作性,并减少供应商的锁定。

MAPR公司开发了自己的文件系统MAPR-FS,而没有使用HDFS,另外也开发了自己的NoSQL数据库MAPR-DB和其它基础技术,为了支持大型集群部署企业级的性能等基础技术的需求,MapR也越来越注重实时流处理应用。该公司在2015年底将其产品为MAPR融合数据平台,其结合了MAPRHadoop文件系统和数据库和ApacheSpark处理引擎,以及实施批处理和实时任务的称之为MAPR流的新事件流的技术。

与此同时,IBM公司对ApacheHadoop发布版BigInsights采用分析型战略,以保持其广泛的销售商业智能和先进的分析工具一致。IBM公司提供不同的附加价值与企业级功能模块,这是BigInsights的一部分,其中包括独立的分析师和数据科学家模块。其分析模块提供了联合SQL访问Hadoop和其他大数据源的SQL。BigSheets是分析师模块的一部分,允许用户浏览,转换和存储在Hadoop的大数据集,使用直观的电子表格的界面实现可视化。BigInsights数据科学家模块包括一个R语言版本,文本分析,SystemML机器学习库。

而其云平台是亚马逊AWS的主要电子名片,它也提供了用于监控和管理集群工具,使其成为应用和集群互操作性Hadoop的服务的一部分。

亚马逊电子病历收集用于跟踪进度和衡量集群的健康指标。集群健康指标可以通过命令行界面,软件开发工具包或API来访问,并且可以通过电子病历的管理控制台来查看。此外,亚马逊的CloudWatch的监控服务可以一起使用,其实施了Apache神经节性能监控组件的检查集群,并设置了这些指标触发的事件警报。

底线:选择一个供应商,提供作为其企业订阅的一部分增值组件可能意味着致力于一个长期的合作关系。尤其是这些组件是与其标准协议栈紧密集成的。如果你担心厂商锁定,请考虑参与OPDi的厂商。

Hadoop供应商产品的安全和保护

尽管扩大了使用开源软件的企业级应用,但人们对其生产使用的安全和保护方面仍然存在着怀疑,Hadoop的一些厂商已经采取措施来减轻一些这方面的焦虑。

例如,Hortonworks已经与其他供应商和客户联手推出针对Hadoop的数据治理计划,最初的重点是阿特拉斯管理共享元数据的新的Apache项目、数据分类、审计、安全和策略管理数据保护。它还致力于整合阿特拉斯与Ranger,一个用于执行数据访问策略的开放源码的安全工具Cloudera提供工具,让用户能够管理数据安全和CDH平台治理,支持一个组织的需要,满足法律和法规要求。

此外,Cloudera,Hortonworks,MAPR和IBM都提供数据加密的功能。其中Hortonworks和Cloudera支持静止数据加密。MAPR提供集群内部的数据传输加密功能,IBM公司提供的InfoSphereGuardium产品,可以执行数据隐私以及提供加密和保密数据屏蔽。

底线:Hadoop供应商提供不同的身份验证方法,其中包括基于角色的访问控制、安全策略管理、数据加密。仔细指定你的安全和保护要求,以及审查每个供应商如何解决这些需求的办法。

开源软件模型的基本价值主张是系统部署的捆绑和简化,支持和服务。部署Hadoop需要下载的一种替代源代码来自开放源代码库中的每个组件,然后构建和所有部件集成在一起。这需要技巧和努力,而且很可能是一个反复的过程。开源厂商已经进行了很大的改进,提供预先配置的发布版,并维护了的整合堆栈。

Hadoop发行版产品哪个能满足组织的需求?

供应商的区别在很大程度上是他们的支持模式。Hortonworks公司提供几种模式,其企业版提供全天候支持和更短的响应时间,这取决于问题的严重程度。Cloudera的提供与企业许可证持有者一小时和全天候支持选项的支持订阅。它还提供了Flex或数据中心版的许可证,其中包括一个为组织提供关键问题的高级支持的15分钟的响应时间。

所有AWS账户包括基本的支持,提供全天候的客户服务,获得了社区论坛和文档,以及访问AWS值得信赖的顾问应用。开发者支持包括对于严重的问题的一小时响应,对于大多数问题,则提供12或24小时的响应时间。企业级支持提供全天候电子邮件访问云支持工程师,以及根据严重程度缩短响应时间。企业级对于关键问题的支持增加了不到15分钟的响应时间,以及专门的技术客户经理服务,再加上额外的启动和运行支持的好处。

MAPR提供高级支持服务,增加了Web和电子邮件支持,自定义门户,培训,紧急的缺陷修复,后续的太阳支持和全天候电话支持的优先问题。该公司的高级支持增加了门票和接触支持单点的优先级队列,并提供现场或远程专用支持选项IBM提供支持的组织购买授权的组件,也被称为价值添加模块,扩展其开放平台的ApacheHadoop。

对于大数据中的Hadoop大概都有所系统的了解与掌握了,那么如果有学生想学大数据的朋友可以选择扣丁学堂进行学习,扣丁学堂是在线大数据培训学习,有老师全程教导,既省时又省力。并且还有大量高质量大数据视频教程供学员观看学习,手把手带你进入大数据世界,想要大数据视频教程的小伙伴快联系咨询老师领取吧。扣丁学堂大数据学习群:209080834。

相关推荐