Windows Azure发布HDInsight服务公众预览

wngn

2014-11-20

数据世界瞬息万变，给现有IT基础设施带来了巨大的挑战，实时产生的海量非结构和半结构化数据让原有的数据库架构捉襟见肘。这些数据类型各异，既包括人们在社交网络上的各种情绪表达，也有地理位置信息，传感器产生的机器数据，以及自动生成的大量日志记录等。

如果能善用这些数据，企业用户就可以得到以往难以企及的关键业务洞察。例如，台湾著名茶点连锁餐厅“黑丸”将来自零售网点的销售数据，与人们在社交网络上对其表达的情绪反馈，以及所在地的天气信息等数据相结合，发现了能刺激客户消费的原因。通过将传统数据源与全新的“大数据”相融合，他们发现，其实气温高低并不会影响人们去选择冷饮或者热饮，现在他们可以真正从消费者的需求出发对销售策略做出调整。

Windows Azure发布HDInsight服务公众预览

类似的应用场景引发了对Hadoop等大数据产品的需求热潮。作为开源平台的Hadoop能够在相对廉价的消费级硬件上，实现海量数据的存储和处理。Hadoop具有如此强大功能的部分原因在于，其生态系统通过通用的计算模式实现了相同的数据存储。这种存储是一种分布式文件系统，其规模能够从几个节点扩展至数千个节点，并且全都针对非结构化数据。通过Hadoop与传统数据结构相结合，用户能从数据中得到以往难以想象的深入洞察。

但是，在多节点上创建Hadoop集群并非易事，需要有合适的硬件、周密的容量规划，以及对Hadoop进行设置和部署的专业知识。此外，Hadoop生态系统的快节奏创新也要求IT管理员不断升级Hadoop软件或为操作系统打补丁，因此后续的不间断维护也将成为一大挑战。而公有云上的Hadoop服务能帮助用户克服这些挑战。

hadoop azure 大数据数据处理

安科网

Windows Azure发布HDInsight服务公众预览

wngn

wngn

相关推荐

[AWS][大数据][Hadoop] 使用EMR做大数据分析

想了解大数据的鼻祖Hadoop技术栈，这里有一份优质书单推荐！

Hive安装，以及一些问题处理

hadoop 数据处理总结

Hadoop3.2.0集群搭建常见注意事项

为什么Java仍将是未来的主流语言？

hadoop伪分布式环境搭建

_服役新节点，退役旧节点，多目录配置。+_HDFS2.x的新特性

Hadoop（一）安装

第四周练习

Hadoop小练习

hadoop框架三大组件hdfs、mapreduce、yarn 内容

Hadoop基础（三十三）：Zookeeper 分布式安装部署

Hadoop基础（二十二）：Shuffle机制（三）

hdfs、hive、hbase的搭建总结

NameNode和Zookeeper的format作用

hadoop集群的启动与停止

JStorm介绍

Hadoop2.7.7 centos7 完全分布式配置与问题随记

Hadoop Yarn工作机制 Job提交流程

wngn