连放大招!微软发布三项云数据服务,都跟海量数据和性能有关
微软云平台Azure最近宣布针对3项数据服务的更新,包含推出正式版的数据湖存储服务Data Lake Storage Gen2和数据完全托管服务Data Explorer,此外,还推出预览版的混合数据整合服务Data Factory,期望提供用户性价比高,又安全的云端数据分析服务。
数据湖存储服务Data Lake Storage Gen2适用于巨量数据分析,结合了Azure非结构化存储服务Blob Storage的可扩展性、安全模型和丰富的功能于一身,再加上为分析所设计的高性能的文件系统,还能与Hadoop分布式文件系统兼容,让用户选择云数据湖服务时,不需要在成本和性能中取舍。
微软指出,其数据湖存储服务其中一项主要目标,即是要与Apache生态系统兼容,为了做到这点,微软开发Azure Blob文件系统驱动程序,该驱动程序正式成为Apache Hadoop和Spark的一部分,并且加入到许多Hadoop的商业版本中。
为了进一步提升Data Lake Storage Gen2的分析性能,微软用层阶式命名空间,收集文档集合并整理成层阶式目录和子目录,此种命名空间对巨大数据分析架构相当重要,由于Hive或是Spark等工具经常将输出写入零时位置,并在操作结束时重新命名该位置,若没有层阶式命名空间,重新命名所花费的时间通常会比分析流程本身更长,因此,层阶式命名空间因为需要较少的计算执行,能够加速工作执行并减低成本。
而Data Explorer是一个快速且具有高扩展性的完全托管数据分析服务,能够针对大量的串流数据进行实时分析,在不需要修改数据结构的情况下,一秒内能够查询10亿笔记录,此外,该服务能与微软云其他服务相连,如Data Lake Storage、SQL Data Warehouse、Power BI。为了提升速度和简化操作,Data Explorer由两个分别的服务组成:Engine服务和数据管理服务,这两项服务都在Azure中,以计算节点的集群形式部署。
数据管理服务负责消化多种不同型态的原始数据,并且管理数据清理、执行失败和backpressure等任务,还能通过自动索引和压缩机制快速处理数据。而Engine服务则是负责处理输入的原始数据和用户的查询,通过自动扩展(Auto Scaling)和数据分割(data sharding)来达到高性能的目标。
最后,微软这次的更新还推出混合数据整合服务Data Factory预览版,Data Factory服务是用来将数据移动和转换工作自动化的服务,内建超过80个与结构化、半结构化和非结构化数据源的连接器。除此之外,该服务还提供数据工作流程可视化工具Mapping Data Flow,提供用户在设计、构建和管理数据转换的过程有可视化的体验,不需要学习Spark或是对分布式基础架构有深入的了解。