微软、阿里、百度、腾讯都在使用的Spark大数据分析实战
Spark作为一款基于内存的分布式计算框架,具有简洁的接口,可以快速构建上层数据分析算法,同时具有很好的兼容性,能够结合其他开源数据分析系统构建数据分析应用或者产品。
为了适合读者阅读和掌握知识结构,本篇从Spark基本概念和机制介绍人手,结合笔者实践经验讲解如何在Spark之上构建机器学习算法,并最后结合不同的应用场景构建数据分析应用。
读者对象
本篇中一些实操和应用章节,比较适数据分析和开发人员,可以作为工作手边书;
机器学习和算法方面的章节,比较适合机器学习和算法工程师,可以分享经验,拓展解决问题的思路。
口Spark初学者
口Spark应用开发人员
口Spark机器学习爱好者
口开源软件爱好者
口其他对大数据技术感兴趣的人员
如何阅读本篇
本书分为11章内容。
由于细节内容实在太多啦,所以只把部分知识点截图出来粗略的介绍,每个小节点里面都有更细化的内容!
第1章从Spark概念出发,介绍Spark的来龙去脉,阐述Spark机制与如何进行Spark编程。
第2章详细介绍Spark的开发环境配置。
第3章详细介绍Spark生态系统重要组件Spark SQL、Spark Streaming、GiraphX、MLlib的实现机制,为后续使用奠定基础。
第4章详细介绍如何通过Flume、Kafka、Spark Streaming、HDFS、Flask 等开源工具构建实时与离线数据分析流水线。
第5章从实际出发,详细介绍如何在Azure云平台,通过Node.js、AzureQueue、Azure Table、Spark Streaming、MLlib等组件对用户行为数据进行分析与推荐。
第6章详细介绍如何通 过Twitter API、Spark SQL、Spark Streaming、Cassandra、D3等组件对Twitter进行情感分析与统计分析。
第7章详细介绍如何 通过Scrapy、Kalka、 MongoDB、Spark 、Spark Streaming、Elastic Search等组件对新闻进行抓取、分析、热点新闻聚类等挖掘工作。
第8章详细介绍了协同过滤概念和模型,讲解了如何在Spark 中实现基于Item-based、User-based 和Model-based协同过滤算法的推荐系统。
第9章详细介绍了社交网络分析的基本概念和经典算法,以及如何利用Spark实现这些经典算法,用于真实网络的分析。
第10章详细介绍了 主题分析模型( LDA),讲解如何在Spark中实现LDA算法,并且对真实的新闻数据进行分析。
第11章详细介绍了搜索引擎的基本原理,以及其中用到的核心搜索排序相关算法一PageRank 和Ranking SVM,并讲解了如何在Spark中实现PageRank和RankingSVM算法,以及如何对真实的Web数据进行分析。
如果你有一定的经验, 能够理解Spark的相关基础知识和使用技巧,那么可以直接阅读第4~ 11章。然而,如果你是一名初学者,请一定从第1章的基础知识开始学起。
作为一一个通用大数据计算框架,Spark广 泛应用于多种典型大数据分析场景。
通过本篇,你将了解到:
Spark的机制与生态系统
Spark算法分析与应用
典型的数据分析场景
Spark在日志分析、 情感分析、协同过滤、个性化推荐、社交网络分析、搜索、文本分析等场景的应用
Spark与其他开源工具及系统的集成
因文章篇幅限制,小编在这里就不多做介绍了,希望大家能够潜心修炼自己,不断地强大自身,以达到别人仰望的角度。
需要本【Spark大数据分析实战】技术文档的小伙伴,就可以转发此文关注小编,私信小编“学习”来得到获取方式吧。
Spark已经在全球范围内被广泛使用,无论是微软、Intel、 阿里巴巴、百度、腾讯等国际互联网巨头,还是一些初创公司, 都在使用Spark。本篇作者结合实战经验,抽象出典型数据分析应用场景,适当简化,只进行主干介绍,讲解Spark应用开发 、数据分析算法,并结合其他开源系统与组件,勾勒出数据分析流水线全貌。