Windows Azure发布HDInsight服务公众预览
数据世界瞬息万变,给现有IT基础设施带来了巨大的挑战,实时产生的海量非结构和半结构化数据让原有的数据库架构捉襟见肘。这些数据类型各异,既包括人们在社交网络上的各种情绪表达,也有地理位置信息,传感器产生的机器数据,以及自动生成的大量日志记录等。
如果能善用这些数据,企业用户就可以得到以往难以企及的关键业务洞察。例如,台湾著名茶点连锁餐厅“黑丸”将来自零售网点的销售数据,与人们在社交网络上对其表达的情绪反馈,以及所在地的天气信息等数据相结合,发现了能刺激客户消费的原因。通过将传统数据源与全新的“大数据”相融合,他们发现,其实气温高低并不会影响人们去选择冷饮或者热饮,现在他们可以真正从消费者的需求出发对销售策略做出调整。
类似的应用场景引发了对Hadoop等大数据产品的需求热潮。作为开源平台的Hadoop能够在相对廉价的消费级硬件上,实现海量数据的存储和处理。Hadoop具有如此强大功能的部分原因在于,其生态系统通过通用的计算模式实现了相同的数据存储。这种存储是一种分布式文件系统,其规模能够从几个节点扩展至数千个节点,并且全都针对非结构化数据。通过Hadoop与传统数据结构相结合,用户能从数据中得到以往难以想象的深入洞察。
但是,在多节点上创建Hadoop集群并非易事,需要有合适的硬件、周密的容量规划,以及对Hadoop进行设置和部署的专业知识。此外,Hadoop生态系统的快节奏创新也要求IT管理员不断升级Hadoop软件或为操作系统打补丁,因此后续的不间断维护也将成为一大挑战。而公有云上的Hadoop服务能帮助用户克服这些挑战。