微软发布Azure数据仓库,对抗AWS Redshift

很多在微软数据库和云生态系统里工作的数据专业人士一直都迫不及待地想知道,微软什么时候会推出云数据仓库服务与亚马逊的Redshift竞争。在微软Build大会的开幕演讲中,执行副总裁Scott Guthrie宣布推出“Azure数据仓库”( Azure Data Warehouse)——名字非常地恰到好处。

微软发布Azure数据仓库,对抗AWS Redshift


在发布Azure数据仓库的同时,还传出另外两个服务的消息:Azure Data Lake和Azure SQL Database弹性数据库。尽管这两个服务看起来只是来凑凑热闹,但其实三个产品之间有着相辅相成的关系。

扩展易如反掌

首先要说明一下,Azure数据仓库不仅仅是用来对付Redshift产品的,Azure数据仓库也是对Redshift经济模式的挑战。在Redshift里,用户扩展数据仓库时,计算资源和存储的增加是以固定的比例锁在一起的。而在Asure数据仓库(英文缩写为ADW)里,计算资源和存储是脱节的,用户可以只缩放其中之一。

ADW的经济模式可以为客户省钱。这种模式可以在需要更多的存储时消除多余的计算资源的配置(反之亦然),而且,在ADW模型里,没用到的计算资源可以被暂停,需要时再恢复。如此,计算资源费用帐单可以自成一项,这与Redshift模式形成强烈对比,在Redshift模式里,用户要为节点群集里的所有虚拟机买全天候的单。

ADW之所以能将存储独立出来是因为用了Azure Storage Blobs(Azure Storage Blob是Azure的云存储服务,类似于亚马逊S3),而不是用虚拟机上的本地驱动。这样做可能导致性能上的差异,对Azure数据仓库不利。但笔者本周初听数据平台集团副总裁T.K. Ranga Rengarajan和数据库系统集团总经理Shawn Bice介绍有关服务时,他们一口保证ADW性能优良。我要靠那些喜欢折腾评估的朋友帮着做做这方面事。

那Hadoop呢?

ADW是千兆兆字节级别的服务——但谈论数据量这码事时,不是应该讲到Hadoop吗?别慌,会的。首先,ADW用的技术是微软用在旗下分析平台系统(Analytics Platform System,缩写为APS——是以前的SQL Server并行数据仓库)的技术,其中含一项名为PolyBase的技术,笔者以前写过博文介绍过PolyBase。

APS和ADW通过PolyBase可以直接查询在Hadoop集群上的数据,或是可以将工作负载委托给Hadoop。这样一来,Hadoop的数据对于数据仓库而言就看起来好像是本地数据一样,而开发人员和数据库管理人员可以使用现有的技能对其进行查询。PolyBase通过这种方式可以和Hadoop整合在一起,而不用理会是微软云中的HDInsight集群还是在Azure虚拟机上或本地运行的Hortonworks或Cloudera集群。

还有更厉害的——Azure Data Lake

微软在宣布ADW的同时还推出了一款新的Azure存储,名为Azure Data Lake。它可处理流数据(低延迟、高容量、更新频繁一类的数据)、可进行地理分布处理、可利用数据的本地性,并可以在千兆兆字节的级别上对各个文件根据大小分组。

Azure Data Lake当然地可以通过Azure存储API访问,而且还与Hadoop分布式文件系统(HDFS)兼容。即是说,Hadoop集群可以使用Azure Data Lake,而Azure Data Lake也可以使用ADW/PolyBase。

回头再看一下OLTP这一块

数据仓库和Hadoop集群牛得很,但我们也不要忘了,生产应用程序和数据库生成交易数据,分析工具则需要以此作参考。在微软云里,我们则需要用到Azure SQL数据库(提一下,ADW的基础用到Azure SQL数据库12版的技术)。

SQL数据库领域有什么新东西?容量安排上有了新的选择,就是这东西。存储和计算资源扣在一起会在数据仓库领域导致效率低,同样,将规模和数据库或数据库分区扣在一起也会导致OLTP(联机事务处理)的效率变低。其原因是:数据库容量单位的生长或收缩彼此之间相对灵活,所以,在总体上进行容量配置就具有更大的吸引力。

Azure SQL DB弹性数据库(Azure SQL DB Elastic Databases)能够利用这种以总体为导向的容量配置,对亚马逊的关系数据库服务(RDS)是另一个经济模式上的挑战,据我所知,RDS尚无一个可比选项。

客户是赢家

竞争是好事。可以这样说,假若不是亚马逊先用Redshift搅了微软的局,微软肯定不会推出ADW的。新的计费法可能是被AWS产品里的点实例模式催化出来的——至少部分受到点实例模式的影响。微软现在做出响应,不仅仅是做到AWS的同等水平而已,而是多走了重要的几步。

亚马逊将如何应对?亚马逊已经拿出一个机器学习产品对抗Azure。我猜测亚马逊会在数据仓库、存储和OLTP方面有所动作。而且我们不要忘了,谷歌携Hadoop、BigQuery和旗下的云存储也是玩家之一。

相关推荐