扣丁学堂剖析大数据主要技术层面和技术内容
在现如今,随着国内互联网数据越来越庞大,目前大部分公司都是用大数据计算技术去管理。从大的方面来分,大数据技术与研究主要分为大数据基础理论、大数据关键技术和系统、大数据应用以及大数据信息资源库等几个重要方面。
从信息系统的角度来看,大数据处理是一个涉及整个软硬件系统各个层面的综合性信息处理技术。从信息系统角度可将大数据处理分为基础设施层、系统软件层、并行化算法层以及应用层。
1.基础设施层
基础设施层主要提供大数据分布存储和并行计算的硬件基础设施和平台。目前大数据处理通用化的硬件设施是基于普通商用服务器的集群,在有特殊的数据处 理需要时,这种通用化的集群也可以结合其他类型的并行计算设施一起工作,如基于众核的并行处理系统(如GPU或者Intel新近推出的MIC),形成一种 混合式的大数据并行处理构架和硬件平台。此外,随着云计算技术的发展,也可以与云计算资源管理和平台结合,在云计算平台上部署大数据基础设施,运用云计算 平台中的虚拟化和弹性资源调度技术,为大数据处理提供可伸缩的计算资源和基础设施。
2.系统软件层
在系统软件层,需要考虑大数据的存储管理和并行化计算系统软件。
(1)分布式文件系统与数据查询管理系统
大数据处理首先面临的是如何解决大数据的存储管理问题。为了提供巨大的数据存储能力,人们的普遍共识是,利用分布式存储技术和系统提供可扩展的大数据存储能力。
首先需要有一个底层的分布式文件系统,以可扩展的方式支持对大规模数据文件的有效存储管理。但文件系统主要是以文件方式提供一个最基础性的大数据存 储方式,其缺少结构化/半结构化数据的存储管理和访问能力,而且其编程接口对于很多应用来说还是太底层了。传统的数据库技术主要适用于规模相对较小的结构 化数据的存储管理和查询,当数据规模增大或者要处理很多非结构化或半结构化数据时,传统数据库技术和系统将难以胜任。现实世界中的大数据不仅数据量大,而 且具有多样化的形态特征。据统计,现实世界80%的数据都是非结构化或半结构化的。因此,系统软件层还需要研究解决大数据的存储管理和查询问题。由于 SQL不太适用于非结构化/半结构化数据的管理查询,因此,人们提出了一种NoSQL的数据管理查询模式。但是,人们发现,最理想的还是能提供统一的数据 管理查询方法,能对付各种不同类型的数据的查询管理。为此,人们进一步提出了NewSQL的概念和技术。
(2)大数据并行计算模式和系统
解决了大数据的存储问题后,进一步面临的问题是,如何能快速有效地完成大规模数据的计算。大数据的数据规模之大,使得现有的串行计算方法难以在可接 受的时间里快速完成大数据的处理和计算。为了提高大数据处理的效率,需要使用大数据并行计算模型和框架来支撑大数据的计算处理。目前最主流的大数据并行计 算和框架是hadoop MapReduce技术。与此同时,近年来人们开始研究并提供不同的大数据计算模型和方法,包括高实时低延迟要求的流式计算,具有复杂数据关系的图计算, 面向基本数据管理的查询分析类计算,以及面向复杂数据分析挖掘的迭代和交互计算等。在大多数场景下,由于数据量巨大,大数据处理通常很难达到实时或低延迟 响应。为了解决这个问题,近年来,人们提出了内存计算的概念和方法,尽可能利用大内存完成大数据的计算处理,以实现尽可能高的实时或低延迟响应。目前 Spark已成为一个具有很大发展前景的新的大数据计算系统和平台,正受到工业界和学术界的广泛关注,有望成为与Hadoop并存的一种新的计算系统和平台。
3.并行化算法层
基于以上的基础设施层和系统软件层,为了完成大数据的并行化处理,进一步需要考虑的问题是,如何能对各种大数据处理所需要的分析挖掘算法进行并行化设计。
大数据分析挖掘算法大多最终会归结到基础性的机器学习和数据挖掘算法上来。然而,面向大数据处理时,绝大多数现有的串行化机器学习和数据挖掘算法都难以在可接受的时间内有效完成大数据处理,因此,这些已有的机器学习和数据挖掘算法都需要进行并行化的设计和改造。
除此以外,还需要考虑很多更贴近上层具体应用和领域问题的应用层算法,例如,社会网络分析、分析推荐、商业智能分析、Web搜索与挖掘、媒体分析检 索、自然语言理解与分析、语义分析与检索、可视化分析等,虽然这些算法最终大都会归结到底层的机器学习和数据挖掘算法上,但它们本身会涉及到很多高层的特 定算法问题,所有这些高层算法本身在面向大数据处理时也需要考虑如何进行并行化算法设计。
4.应用层
基于上述三个层面,可以构建各种行业或领域的大数据应用系统。大数据应用系统首先需要提供和使用各种大数据应用开发运行环境与工具;进一步,大数据 应用开发的一个特别问题是,需要有应用领域的专家归纳行业应用问题和需求、构建行业应用和业务模型,这些模型往往需要专门的领域知识,没有应用行业领域专 家的配合,单纯的计算机专业专业技术人员往往会无能为力,难以下手。只有在领域专家清晰构建了应用问题和业务模型后,计算机专业人员才能顺利完成应用系统 的设计与开发。行业大数据分析和价值发现会涉及到很多复杂的行业和领域专业知识,这一特征在今天的大数据时代比以往任何时候都更为突出,这就是为什么我们 在大数据研究原则中明确提出,大数据的研究应用需要以应用需求为导向、领域交叉为桥梁,从实际行业应用问题和需求出发,由行业和领域专家与计算机技术人员 相互配合和协同,以完成大数据行业应用的开发。
以上就是扣丁学堂剖析大数据主要技术层面和技术内容的详细介绍,希望对你有所帮助,还有更多关于大数据在线课程相关的讯息,请关注扣丁学堂官网、微信等平台,另有专业的大数据课程老师和与时俱进的大数据在线视频教程体系定会让你学有所成,助你实现高薪梦想,最好关注扣丁学堂的官网,大量的大数据视频教程供学员观看学习,喜欢就快行动吧。