揭开Data Lake架构的神秘面纱

为了在组织的数据格局中创造最大价值,传统的决策支持系统体系结构已不再适用。需要开发新的架构模式来利用数据的力量。为了充分掌握使用大数据的价值,企业需要灵活的数据架构,并能够从数据生态系统中获取最大价值。

Data Lake的概念已经存在了一段时间了。但是,我看到很多组织都在努力理解这个概念,因为它们中的很多仍然在企业数据仓库的旧范式中。

在本文中,我将深入探讨Data Lake架构模式的概念性构造以及布局架构模式。

传统数据仓库(DWH)架构:

揭开Data Lake架构的神秘面纱

传统企业DWH架构模式已使用多年。有数据源,数据被提取,转换和加载(ETL),并在途中,我们做某种结构创建,清理等。我们预先定义了EDW(维模型或3NF模型)中的数据模型,然后创建部门数据用于报告的集合,用于切片和切块的OLAP立方体以及自助式BI。

这种模式非常普遍,现在已经很好地运行了很长时间。

但是,这种模式存在一些固有的挑战,在大数据时代无法扩展。让我们看看他们中的几个:

  • 首先,我们工作的理念是我们需要首先理解数据。什么是源系统结构,它拥有什么样的数据,基数是什么,基于业务需求应该如何建模,数据是否存在异常等等。这是一项繁琐而复杂的工作。我曾经在需求分析和数据分析阶段花费至少2-3个月的时间。EDW项目持续几个月到几年。这都是基于企业知道需求的假设。

  • 我们还必须做出选择和妥协,以便存储哪些数据以及丢弃哪些数据。在决定如何引入,如何存储,如何转换等方面花费了很多时间。实际执行数据发现,揭示模式或为业务增值创建新假设花费了较少的时间。

数据的定义:

揭开Data Lake架构的神秘面纱

现在让我们简单地讨论一下数据的定义是如何改变的。大数据的4V现在非常知名。体积,速度,品种和准确性。让我给这些事情加上一些背景:

  • iPhone革命以来数据量猛增。有60亿部智能手机,每年创造近1PB的数据。

  • 数据不只是休息。有流媒体数据,支持IoT的连接设备。来自多个战线的数据过多。

  • 这也涉及各种数据。视频供稿,照片都是现在需要分析和利用的数据点。

  • 随着数据的爆炸也带来了数据质量的挑战。哪一个应该被信任,哪一个不应该是大数据世界的一个更大的挑战。

简言之,可分析数据的定义已经改变。现在不仅仅是结构公司数据,而是各种数据。面临的挑战是将它们混合在一起,并从中理解。

摩尔定律:

揭开Data Lake架构的神秘面纱

自2000年以来,处理能力,存储和相应的成本结构发生了巨大变化。它一直受到我们称之为摩尔定律的支配。关键点:

  • 自2000年以来,处理能力增加了约10,000倍。这意味着有效分析更多数据的能力有所增加。

  • 存储成本也相当可观。自2000年以来,存储成本已下降超过1000倍。

数据湖比喻:

揭开Data Lake架构的神秘面纱

参观大湖总是一种非常愉快的感觉。湖中的水以其最纯净的形式存在,并且不同的人在湖上进行不同的活动。有些人正在钓鱼,有些人正在享受乘船之旅,这个湖还为生活在安大略省的人们提供饮用水。总之,同一个湖泊用于多种用途。

随着数据范例的变化,出现了一种新的架构模式。它被称为数据湖架构。就像湖中的水一样,数据湖中的数据也是最纯粹的形式。像湖一样,它需要不同的人,需要钓鱼的人或想乘船的人或想从中获取饮用水的人,数据湖建筑迎合了多种人物角色。它为数据科学家提供了探索数据和创建假设的途径。它为商业用户探索数据提供了一条途径。它为数据分析师分析数据和查找模式提供了一条途径。它为报告分析师提供了创建报告并向利益相关者呈现的途径。

我将数据湖与数据仓库或集市进行比较的方式如下所示:

Data Lake以最纯粹的形式存储数据,迎合多个利益相关者,还可以用于以最终用户可以使用的形式打包数据。另一方面,数据仓库已经按定义的目的进行了精馏和打包。

概念数据湖架构:

揭开Data Lake架构的神秘面纱

以下是数据湖体系结构中的关键组件。我们有我们的数据源可以是结构化的和非结构化的。它们都集成到原始数据存储中,以最纯粹的可能形式使用数据,即不进行转换。这是一个便宜的持久性存储,可以按比例存储数据。然后我们有用于理解数据,创建原型,执行数据科学和探索数据的分析沙箱,以建立新的假设和用例。

然后我们有批处理引擎,将原始数据处理成用户可以使用的东西,即可用于报告最终用途的结构。我们称之为加工数据存储。还有一个实时处理引擎,可以接收流数据并对其进行处理。本架构中的所有数据都经过编目和策划。

让我引导您浏览此架构中的每个组件组。

LAMBDA:

揭开Data Lake架构的神秘面纱

第一个组件组迎合了处理数据的目的。它遵循称为 Lambda 体系结构的体系结构模式。基本上, Lambda 体系结构需要两个处理路径。一个批处理层和一个速度层。批处理层存储数据的条理可能的形式, 即原始数据存储和速度层处理数据近实时。速度层还将数据存储到原始数据存储区, 并可能在加载到已处理的数据存储之前存储瞬态数据。

分析沙盘:

揭开Data Lake架构的神秘面纱

分析沙箱是数据湖体系结构中的关键组件之一。这些是数据科学家的探索性领域,他们可以开发和测试新的假设,混搭并探索数据以形成新的使用案例,创建快速原型以验证这些使用案例,并意识到可以从中提取价值这生意。

它是数据科学家可以发现数据,提取价值并帮助改变业务的地方。

编目和治理(Cataloging and Governance):

揭开Data Lake架构的神秘面纱

数据编目是传统商业智能中一直被忽视的重要原则。在大数据领域,编目是人们应该关注的最重要的方面。首先让我来举一个类比来解释什么是编目。我和我的客户一起做这个练习,以获得编目的重点。

当我要求客户在不提供目录信息的情况下猜测油画的潜在成本时,答案从100美元到100000美元不等。当我提供目录信息时,答案更接近实际情况。顺便说一下,这幅画被称为帕布罗毕加索创作于1903年的' 老吉他手 '。它的估计成本超过1亿美元。

数据目录非常相似。不同的数据块具有不同的价值,并且该值根据数据沿袭,数据质量,创建源等而有所不同。数据需要编目,以便数据分析师或数据科学家可以自己决定将哪些数据指向用于特定分析。

目录地图:

揭开Data Lake架构的神秘面纱

目录图提供了可以编目的潜在元数据。编目是一个捕获有价值的元数据的过程,因此它可以用来确定数据的特征并得出使用或不使用的决定。基本上有两种类型的元数据:商业和技术。业务元数据更多地与定义,逻辑数据模型,逻辑实体等有关,而技术元数据则是捕获与数据结构的物理实现相关的元数据。它包括数据库,质量得分,栏目,模式等等。

根据目录信息,分析师可以选择在正确的上下文中使用特定的数据点。让我举一个例子。想象一下,数据科学家想要对库存周转率进行探索性分析,并且它在ERP中定义的方式和库存系统是不同的。如果该术语被编目,那么数据科学家根据上下文可以决定使用ERP中的列还是库存系统中的列。

Data Lake和EDW的主要区别是:

揭开Data Lake架构的神秘面纱

  • 首先,在数据湖体系结构中,我们首先加载数据,然后决定我们应该如何处理数据。在传统的DWH体系结构中,我们必须首先了解数据,对其进行建模并加载。

  • 数据湖中的数据存储在DWH中的数据以结构化形式存储的原始表单中。记住湖泊和蒸馏水。

  • 数据湖支持各种用户。

  • 分析项目实际上是敏捷项目。这些项目的性质是,一旦你看到输出结果,你就会想更多,想要更多。数据湖本质上是敏捷的。由于他们将所有数据存储在他们的目录中,因此可以确保如果有新的需求出现,可以很容易地进行调整。

Azure上的Data Lake体系结构:

揭开Data Lake架构的神秘面纱

云平台最适合实施Data Lake架构。他们有许多可组合的服务,可以编织在一起以实现所需的可扩展性。微软的Cortana智能套件提供了一个或多个可映射到Data Lake架构的组件。

揭开Data Lake架构的神秘面纱

关键要点:

  1. 数据湖是大数据架构的一种新模式转变。

  2. Data Lakes迎合各种数据,以原始形式存储数据,迎合一系列用户的需求,并提供更快的洞察力。

  3. 细致的数据编目和治理是数据湖实施成功的关键。

  4. 云平台以经济和可扩展的方式为实现数据湖体系结构提供端到端解决方案。

相关推荐