Spark项目为何会在云环境中大放光芒？

GeorgeGuo

2015-07-31

关注关注

最近几个月以来，业界对于Apache Spark项目的兴趣与投入迎来了显著提升，而这皆要归功于云客户规模的不断拓展。

Spark项目为何会在云环境中大放光芒？

就在上个月，多家在云及商业计算领域声名显赫的巨头公开表达（并决定投资）了对Apache Spark数据分析项目的兴趣。是什么让这些老牌劲旅对这款年轻的技术方案青眼有加？

这种兴奋当然不会毫无来由，事实上这项极具发展前景的技术已经得到了广泛应用。不过要想让该项目真正在云环境下变成吸金利器，我们还面临着两个重大课题——一是便捷性，二是规模化。

Spark的吸引力

最近几个月来，对Spark项目表现出深厚兴趣的厂商包括：

•IBM。除了将Spark支持能力加入自家Bluemix PaaS之外，IBM方面还将SystemML机器学习算法构建技术贡献给Spark。

•微软。将Spark支持能力纳入自家Azure HDInsight（微软的云托管Hadoop版本）。

•Amazon。其Elastic MapReduce服务将能够运行以Scala、Python以及Java语言开发的Spark应用程序。

•华为。这家中国网络巨头最近公布了一个名为Astro的项目，其将Spark、Spark SQL以及HBase打包于一款产品当中。Spark目前也被华为公司用于其基于Hadoop的FusionInsight产品，并作为服务由华为开发的新兴云平台交付。

Spark之所以拥有出众的吸引力，是因为它能够在Hadoop当中提供强大的内存内数据处理组件，专门应对实时及批量事件。在雅虎公司，也就是Hadoop项目的发源地，Spark已经成为分析运营流程当中的核心与基石。

对于以上厂商而言，Spark项目能够为其云业务提供一流技术支持——无论是否配合Hadoop（虽然一般情况下会配合Hadoop）。随着市场价格竞争趋于白热化甚至开始探底，云供应商之间的竞争目前仍然主要受限于原本的内部数据中心层面，而往往无法真正发挥云体系的规模化等独特优势。（事实上，在我们目前所处的阶段中，越来越多的业务数据开始在云中生成，而不再像过去那样单纯将数据迁移至云端。）

点燃下一场燎原烈火

Spark在这一过程中的作用同样非常关键，因为未来的主要发展方向以及项目的潜在影响都取决于Spark将如何以云资源的方式实现部署。

IBM公司正默默为Spark项目作出贡献。而Spark开发厂商Databricks则有着自己的计划，希望能够起到更为彻底的效果。其Tungsten项目为Spark的内存利用及分配方式作出了重大改造，旨在借此提高性能水平。这不仅有利于吸引更多开发商的加入，同时也有助于Spark以“即服务”的方式实现交付。

颇具讽刺意味的是，Spark在云环境下的人气明显更高，其甚至直接威胁到了Databricks公司自身的商业模式。Andy Oliver曾对Daatabricks公司的Spark产品进行过一番审查，并发现该公司“绝不成为数据科学领域的Tableau”的口号完全没能成为现实。另外，以上列出的各大竞争参与者虽然不一定会与自家Spark产品产生这种交集关系，但此类产品的出现实际上更为直接地对Spark工作负载作出了补充。

spark 云计算数据处理

安科网

Spark项目为何会在云环境中大放光芒？

GeorgeGuo

GeorgeGuo

相关推荐

spark系列之基本概念

Spark RDD

Spark Streaming读取Kafka数据两种方式

Apache Spark有哪些局限性

Mr与spark的shuffle过程详解及对比

Spark分区

Spark Streaming企业运用

spark 任务提交参数

Spark 数据分析调优（一）

【译】Using .NET for Apache Spark to Analyze Log Data

spark系列-5、RDD、DataFrame、Dataset的区别和各自的优势

spark工作原理

spark streaming 读取kafka两种方式的区别

Spark SQL(6) OptimizedPlan

spark 广播变量累加器

Spark 源码解读（五）SparkContext的初始化之创建和启动DAGScheduler

Spark DAG 依赖关系 Stage

Notebook Docker 安装spark环境

入门大数据---Spark开发环境搭建

使用经 EMRFS S3 优化的提交器提高 Apache Spark 写入 Apache Parquet 格式文件的性能

GeorgeGuo