何时将大数据存储在云计算中
鉴于云计算对我们大部分人来说还只是一个概念性的梦想,当有人谈及他们的大数据的策略是“把所有的数据都存储在云服务中”时,您尚不能明确的分辨他们的策略是一种有远见的方案,抑或只是简单的重复了他们在行业会议上所听到的某些专家的谈话。
大数据和云计算范例之间的重叠实际是如此地广泛,您可以声称您的企业正在利用现有的内部部署的Hadoop、NoSQL、或企业级数据仓库环境,进行基于云计算的大数据部署。但请务必记住,云计算这一概念在当前更为广泛的是被理解为“私人云”的部署,然后才是以公共云计算、SaaS和多租户托管环境为补充。
但是,如果您将您的关于“云计算”的实际定义限制在公众认购服务的范围,您便找到了问题的核心了:您必须确定哪些大数据应用程序更适合于公共云/ SaaS部署,而哪些则更适合于内部部署(如涉及到提前优化的硬件设备或虚拟的服务器集群)。
换句话说:您什么时候可以收集到可扩展性、弹性、高性能、符合成本效益、高可靠性和可管理性的大数据,让外部服务供应商对其进行管理?如下是几个明显的大数据在公共云进行管理的例子。
企业应用程序已经托管在云服务中:如果,许多企业(尤其是中小型企业)已经在使用外部服务提供商的基于云的应用程序,您的大部分的事务的数据源已经在一个公共云。或者如果您的企业与这一云平台有着很深的历史数据渊源,其可能已经进行了大数据量的积累。在某种程度上,该服务供应商或其合作伙伴提供增值分析服务——如流失分析、营销优化、或异地备份和客户资料归档——这样,将大数据托管在该云服务中,而不是存储在企业内部的主机,可能更有意义。
高容量的外部数据源,需要相当大的预处理:例如,如果您正在根据社交媒体数据进行客户情绪监测,您可能不需要利用企业内部的服务器、存储设备、带宽容量资源。这是一个很明显的应用程序的例子,您只需要利用公共云基于大数据服务提供的社交媒体过滤服务。
应用程序需求超出您企业内部设备的大数据处理能力:如果您的企业内部已经有本地的大数据平台,专门致力于处理某一款应用程序(如专用的Hadoop集群处理高容量非结构化数据源ETL)。那么,当有一款新的应用程序,而企业当前的大数据平台又不适合,无法满足新应用程序的需求时,采用公共云就显得是恰到好处的解决方案了。(例如,多渠道营销、社交媒体分析、地理空间分析功能、可查询归档、弹性数据、科学沙箱),而且,按需服务更符合成本效益。事实上,如果您需要尽快处理PB级规模、流媒体、多结构的大数据,公共云解决方案可能是唯一可行的选择。