AWS 将如何在云环境中进一步整合数据?
在本届Reinvent大会上,Amazon Web Services针对数据在云环境下的每个使用阶段分别给出了新的方案选项。
数据上传、数据提取与数据分析——我们通常会把这三项功能与云工作负载关联起来。Amazon公司在本周三的Reinvent大会主题演讲当中宣称,未来将有新型服务帮助大家搞定这三项任务——以更具创造力的方式。
举例来说,我们为什么要通过线缆与Amazon对接才能完成数据同步?为什么不直接作为邮包寄给服务供应商?而且考虑到Amazon承载着海量等待进行分析处理的数据,何不推出一款专门面向商业客户——而非IT人士——的工具,从而帮助他们从信息当中获取价值?
AWS导入/导出Snowball
“永远不要低估数据往来不绝的大规模传输场景下的网络带宽问题,”计算机科学家Andy Tannenbaum曾经指出。而Amazon针对数据向云端迁移所推出的新设备显然将这一箴言融入了血液当中。
AWS导入/导出Snowball的设计原型早在2009年就已经确立,但Amazon随后又对其进行了重新定义,旨在帮助用户将数据保存在指定的设备当中并直接邮寄给Amazon。有了Snowball,Amazon将能够以自动化方式完成整个硬件装载邮寄流程,同时精简其往来投递工作。
AWS导入/导出Snowball能够自动完成数据面向AWS的上传工作。用户的负载数据会被保存在一款特定设备当中,通过邮寄交付至AWS并完成上传,而后再将其寄还给用户——整个过程只需200美元。
Snowball设备其实是一套坚固耐用、具备防篡改功能且能够接入网络的磁盘阵列,同时具备一个10 GB网络端口。用户可以一次性向其中导向50 TB数据,而后将其邮寄给Amazon公司,从而快速将这部分数据上传到指定的S3存储分卷当中。每台设备每次服务要价200美元,而每超出限定使用周期10天(即超过10天仍未将设备寄回)则需额外承担每天15美元的滞纳金。
Snowball的主要卖点在于其极为便利,其能够确保客户在当下乃至今后不会被彻底吞没在数据海洋当中,而又无力将其及时上传至AWS中。另外该设备当中的数据会被加密,Amazon公司还会在Snowball的邮寄途中不断更新其当前位置:“正邮寄给客户”、“正邮寄至AWS”、“导入中”等等。该设备上的电子墨水扫描装置甚至能够作为邮寄标签使用,而Amazon公司表示“未来可能还会有更多功能增强机制推出,包括持续不断的GPS位置追踪。”
Amazon数据库迁移服务
对于那些乐于将自己的结构化数据逐步交由Amazon数据中心打理的客户,AWS也推出了类似的方案选项:Amazon数据库迁移服务。
甲骨文、MySQL或者微软SQL Server的用户可以将数据从自己的数据中心内复制到AWS中的同类数据库处,或者是选择另一种完全不同的迁移目的地——例如将甲骨文数据库内容导入到MySQL中。AWS方面提供一款使得的模式转换工具,能够确保转换后的数据不会在迁移过程中受到任何破坏,而Amazon公司还强调称其建议客户以并行方式使用该功能,因为其可能在某些目标平台上无法正常起效。
这项服务的计费机制以每虚拟机实例每小时计算——也就是运行该迁移服务的虚拟机数量(起步价位为每小时1.8美分),不过像Migration Service实例这类在同一可用区内迁移的数据库无需任何使用成本。
那么这项服务的目标受众何在?可能主要是那些有意向Amazon迁移,但却没有能力或者没有时间自行实施的客户。通过这样一种方式,此类客户能够在后端建立起一条数据复制通道,其与现有业务运营体系并行不悖,而且不至于由于全面向AWS迁移而导致正常业务陷入停滞。
Amazon Kinesis Firehose
Amazon的Kinesis服务旨在帮助AWS客户捕捉并处理实时数据,无论其来自何处。作为全新方案选项,Amazon Kinesis Firehose并没有在实质上做出任何改变——事实上,它反而对原有功能进行了削减。
顾名思义,Firehose更像是一款连接器,允许客户在获取到数据流时将其写入到S3或者Redshift当中。Firehose对于数据流的惟一额外操作(可选)就是进行压缩或者加密。而从客户角度出发,他们可以在数据出现之前为其设定缓存大小以及将要写入的目标存储桶。
有趣的是,FIrehose服务还允许大家以独立方式对数据进行收集与处理。举例来说,用户能够在Firehose数据抵达目标S3存储桶时触发AWS Lambda任务。如此一来,我们就能以数据输入为条件进行任何需要的工作,而且只需要为每种Lambda处理模型完成最基本的代码编写。
QuickSight
云环境下的数据本身可能质量不高。Amazon公司从传统角度讲缺乏丰富的选项来以规模化方式收集并存储数据,但现在其为用户带来一种新的方案,能够对已经储备到的全部数据进行分析以及可视化处理——这一切皆由一项托管在Amazon上的服务实现,也就是QuickSight。
Amazon的新型商务智能产品QuickSight能够与Amazon的现有数据库集合(包括RDS、DynamoDB、ElastiCache以及Redshift)以及分析系统(包括EMR、DataPipeline、Elasticsearch Service、Kinesis以及机器学习等)相对接。一旦接入给定数据源,用户则可以使用一套界面操作类似于Tableau简化版的产品,同时从最适合选定数据集的可视化工具推荐中挑选对应方案。
Amazon QuickSight旨在对保存在Amazon各服务当中的数据进行快速分析,并最终可与Tableau等现有商务智能产品相对接。