云计算在克服分析泛滥的作用
作为信息基础设施现代化战略的一部分,企业应该考虑如何更好地利用云计算来分担在数据中心运行的一些工作负载。
大多数企业表示,希望在一年内将在云端运行其工作负载。根据调研机构451 Research公司最近进行的一项调查,2018年中期,企业采用私有云或公共云工作负载的百分比将从41%提高到60%。在这些调查对象中,38%的企业已经采用了云端优先政策,其中针对所有工作负载部署优先考虑云解决方案。这并不奇怪,这是因为其具有敏捷性,灵活性,可扩展性,降低总体拥有成本,以及提供云端数据等优势。云定价是云端工作负载的关键驱动力。随着云计算的成本持续下降,企业越来越不愿意采用成本高昂的内部部署数据中心。
除云定价和固有的计算优势外,云计算提供商还不断增加数据仓库、数据集成、数据准备和分析等服务,这些服务对于加速向内部和外部客户提供分析都至关重要。毫无疑问,随着企业利用其固有的灵活性,数据和计算能力的重心正在越来越多地从传统的内部数据中心转移到云端。
为什么数据重力(Data gravity)很重要?
数据重力可以处理移动数据,并分析更接近的数据。而企业目前采用的替代方案更昂贵,更耗时。现代分析中所涉及的数据量太大,无法依赖需要将大量数据从一个系统复制到另一个系统进行处理的复杂方法。将数据移入和移出云端进行处理将无法解决这个问题,反而可能会加剧。
处理引擎必须是智能的,以便将处理移动到数据驻留的位置,并尽量减少跨网络的数据移动。数据无处不在,包括边缘,靠近边缘,以及托管数据中心。如果需要移动数据,谨慎地移动只支持分析所需的数据子集(例如,从内部部署到云,云到云或边缘到云)。过滤,减少和检索必要的数据可以最大程度地减少数据移动,无论数据位于何处。
数据中心对企业的业务来说至关重要,并且预计不会很快消失。然而,企业的工作负载越来越多地分散和混合。企业要求采用托管服务和超大规模云计算,新的云平台和网络模型,并将其映射到最为优化的数据中心,这可能是边缘,接近边缘和核心位置,甚至是远程位置。为存储、处理、聚合和过滤提供最佳位置的因素应包括数据的位置,包括但不限于以下内容:
- 性能和延迟要求
- 访问数据的关键性(例如,考虑远程数据中心)
- 可接受的停机时间(例如,网络连接断开)
- 带宽限制(例如,内部部署到云端,云端到云端)
- 安全性,合规性,治理要求(例如,维护内部数据中心敏感数据的必要性)
在加速分析计划中,Data gravity对于支持所需的性能和延迟至关重要。
如今存在需要计算重力补充数据重力的情况,包括科学,医疗保健和运输中的计算密集型用例。可以通过利用适当的计算资源(无论数据所在的位置,无论是云对象存储还是内部部署)来执行数据子集(工作集)的计算密集二次分析。能够在云端中处理可能起源于包含许多PB级的原始数据的次要分析目标的数据子集。
在云中构建临时集群可以轻松地支持这些类型的工作负载,特别是当底层的内部部署基础架构达到其最大计算能力时。或者,驻留在云存储中的原始数据的目标数据子集可以在满足二次分析的计算需求的本地部署的环境中进行处理。优化企业数据中心与云端之间的网络带宽是云计算提供商提供的一个选择,但可能取决于企业预算。
用于计算密集型用例的另一个解决方案包括提供数据缓存的数据访问层和用于数据处理的嵌入式MPP内存结构。
数据虚拟化和数据重力
数据虚拟化通过设计之后支持数据重力。它为现代分析模式带来了灵活性、抽象性和统一的安全性。其最佳性能是通过设计数据虚拟化查询优化器来实现的,以优化逻辑架构中的网络流量;最小化的常规优化是不够的。更重要的是,查询优化器应利用内存中并行处理来促进进一步的优化。