如何查找隐藏在云存储中的数据

最近的一项调查显示,随着云端对象库成为事实上的数据湖,企业在查找和统计堆积的所有数据时,处于艰难的境地。

如何查找隐藏在云存储中的数据

对于拥有大量空旷空间的人们来说,其存放的物品总是凌乱散布,而这可能是人类的本性。而目前也有这样一个趋势,即对于越来越多的企业来说,云对象存储正在成为事实上的数据湖。好消息是,云对象存储成本相对更低,并且具有高度可扩展性,而且越来越易于访问。例如,大多数云Hadoop服务交换Hadoop分布式文件系统(HDFS)的对象存储,并且越来越多的云计算提供商正在提供服务,提供临时查询或将云对象存储视为数据仓库的扩展表。

依赖云存储作为默认目标或数据湖的另一个方面是需要协调通用目标中数据的积累,需要对数据隐私或数据保护更负责,尤其对于GDPR等规则生效的情况。

Chaos Sumo公司计划在今年夏天推出SaaS提供商的搜索层以添加云存储(现在称为Amazon S3),该公司刚刚发布了一项调查,显示云计算采用者感受到的一些痛点。

无可否认,这个调查规模并不大,只有120名受访者,主要针对的是数据操作专业人员,该示例很可能偏向已经接受云计算的组织。例如,72%的人表示他们目前使用某种形式的云对象存储。对于那些使用亚马逊S3的人来说,40%的受访者表示他们预计明年他们使用S3存储的比例至少会增长50%。

对于企业来说,主要用于备份、存储和归档。但是28%的人已经在使用数据湖的对象存储,而另外18%的人计划在未来的12-18个月内实施。毫不奇怪,对于这个以AWS为主的样本,如今在使用Amazon Athena报告的类似比例(23%)。大约一半的受访者表示,已使用Amazon Redshift数据仓库,Spectrum现在可以将S3视为扩展表。

Athena等工具的创新开放了对系统中数据的交互式访问,而不是对存储进行优化,而不需要ETL(尽管数据必须采用某种形式的半结构化存储,如CSV、JSON、Parquet或其他格式)。

如何查找隐藏在云存储中的数据

但正如图表所显示的那样,随着数据在对象存储中的涌现,越来越多的少数人担心问责制问题。这正是Hadoop等平台的商业销售优势,以及用于分析和数据准备的打包工具,这些平台具有某种形式的数据沿袭,安全性和访问控制作为其存在的理由。云对象存储在涉及治理或周边安全时是赤裸裸的——传统上是数据平台、云主机或消耗数据的分析工具的工作。

相关推荐