从零基础开始学习大数据对你来说意味着什么?

从零基础开始学习大数据对你来说意味着什么?

毋庸置疑,现如今是属于大数据(Big Data)的,革命性的时代。从社交媒体到企业,每时每刻都在产生大量的数据。无所作为,从而把这样的宝藏白白浪费掉是及其愚蠢的。企业已经学会了收集大数据以获取更高的利润,并提供更好的服务以及更深入地了解其目标客户。

大数据主要是指企业中日常生成的,大量的有组织以及无组织的数据。在这种情况下,组织如何处理这些数据,与数据量是无关的。对大数据分析可以产生改善战略商务决策(Strategic business decision-making)的洞察力。

大数据的重要性

如前所述,大数据的价值不在于您拥有多少信息,而在于您要如何利用它。您可以从任何一个点收集数据(并对其进行检查),以找到下面四种情况的解决方案:

  • 物价回降(Price reductions)
  • 时间缩减(Time reductions)
  • 新产品开发,以及改进产品
  • 做出明智的判断

当您耗费大量精力分析聚合大数据时,下面这些业务关联的任务就可能实现:

  • 实时识别故障原因、问题以及缺陷。
  • 根据客户的购买历史,在销售端(Point-of-sale)生成凭证(Voucher)。
  • 在几分钟内计算出特定功能的全部风险。
  • 在欺骗行为影响到您的组织之前,将其检测出来。

从零基础开始学习大数据对你来说意味着什么?

图1. 大数据基础结构

大数据实例

汽车行业:福特现代混合动力车型 Fusion,它每小时产生高达 25GB 的数据。这些数据可以用于解释驾驶习惯和驾驶模式,以预防意外事故,转向碰撞等情况。

娱乐:电子游戏行业每天都在使用大数据技术来检查超过 500GB 的有组织数据,以及 4TB 的功能性积压(Functional backlogs)。

社交媒体效应:每天,社交媒体网站 Facebook 的数据库中都会增加大约 500TB 的新数据。

大数据类型

大数据可以分为以下三大类。

1. 结构化:可以以固定数据格式存储、处理和改进的数据称为结构化数据。随着时间的推移,如今计算机科学已经能够开发使用这些数据的方法,并从中获得价值。不过近来我们正预测与庞大数量的这类数据相关的问题,这些数据量将成为 ZB(10 亿 TB 等于 1ZB)级别的。

2. 非结构化:非映射(Unmapped)形式的数据称为非结构化数据。如何从大量的非结构化数据中获取价值,这其中充满挑战。例如,包含了简单文本文件、图片、音频,以及视频录像之集合的异构数据源(Heterogeneous data source),这些数据将难以进行分析。当下,组织拥有大量可用的数据,但不幸的是,他们并何从下手以提取数据的价值,因为这些数据是未经处理的形式。

3. 半结构化:这可以包含两种形式的数据。另外,我们可以将半结构化数据视为一种形式上的结构,但实际上数据本身并未定义。例如,XML 文件中所描述的数据。

大数据的四个 "V" 值

一些共同特征如图 2 所示。

1. 体积(Volume):数据量是决定大数据价值的重要因素。因此,体积是处理大数据时需要考虑的一个属性。

2. 种类(Variety):指的是各种数据源以及数据的性质,这其中既有结构的,也有非结构化的。曾经,电子表格和数据库是大多数实际应用中唯一考虑的数据来源。但现在,调查应用中还会考虑到电子邮件,图片,录音,以及监控设备等形式的数据。

3. 速率(Velocity):该术语是指 “数据是如何迅速生成的”。数据创建和提炼的速率要有多快,才能满足特定需求,这决定了它的真正潜力。大数据的速率是数据从业务流程、应用程序日志、网站等来源流出的速度。大数据流动的速度非常高,几乎从不间断。

从零基础开始学习大数据对你来说意味着什么?

大数据架构

大数据架构包含一致的、可扩展的,以及完全计算机化的数据管道(Data pipelines)。构建这种基础架构需要具有深入了解堆中的每一层的能力,即从集群设计(Cluster design)开始,直到设置负责处理数据的顶级链(Top chain)。图 3 展示了堆栈的复杂性以及数据管道工程如何触及其每个部分。

在图 3 中,数据管道收集原始数据并将其转化为有价值的东西。同时,大数据工程师必须计划好数据会发生什么情况,数据存储在集群中的方式,内部许可的访问方式,用于处理数据的设备,以及提供给外界访问的模式。那些设计和实现这种架构的人被称为大数据工程师。

大数据技术

众所周知,大数据的主题非常广泛,并且渗透到了许多新技术的发展中。以下对一些技术的概述旨在帮助用户对大数据进行改造。

1. MapReduce(映射化简):这使得任务的实现具有能够跨越数千台服务器的可扩展性。

  • Map:将输入数据集转换为一组不同的值。
  • Reduce: 将 Map 任务的输出联合起来,形成一组简化的值。

2. Hadoop:这是 MapReduce 最令人钦佩的执行方式,它是一个完全开源的处理大数据的平台。Hadoop 足够灵活,它能够处理多种数据源,例如聚合数据以进行大规模处理,从数据库读取数据等。

大数据处理的优势

处理大数据的能力具有多种益处。

1. 企业可以在进行决策时利用外脑(Outside brainpower):使用来自搜索引擎以及 Facebook 和 Twitter 等网站的社交数据的权利,可以帮助企业改进商务战略。

2. 增强客户服务:客户响应系统正在被使用了大数据技术的新系统所取代。在这些新系统中,大数据技术用于理解与评估消费者的反应。

3. 在早期识别服务风险:可以事先识别风险因素,以提供完美的数据。

好了,今天的知识就分享到这里,欢迎关注爱编程的南风,私信关键词:学习资料,获取更多学习资源,如果文章对你有有帮助,请收藏关注,在今后与你分享更多学习python的文章。同时欢迎在下面评论区留言如何学习python。

相关推荐