Spark

bingyuac

2019-06-26

关注关注

Spark 系列：『 Spark 』1. spark 简介

things you need know before you touch Spark and before you decide to use spark in your next project.

Spark 系列：『 Spark 』4. spark 之 RDD

要想学好 spark，怎么能不先搞清楚 RDD 的来龙去脉呢～～～

Spark 函数详解系列之 RDD 基本转换

RDD：弹性分布式数据集，是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作，一个 RDD 代表一个分区里的数据集
RDD 有两种操作算子：

Transformation（转换）：Transformation 属于延迟计算，当一个 RDD 转换成一   个 RDD 时并没有立即进行转换，仅仅是记住了数据集的逻辑操作
     Ation（执行）：触发 Spark 作业的运行，真正触发转换算子的计算

Spark 调优经验总结

本文以 Spark 实践经验和 Spark 原理为依据，总结了 Spark 性能调优的一些方法。这些总结基于 Spark-1.0.0 版本。对于最近推出的 Spark-1.1.0 版本，本文介绍了几个版本增强。

Spark 系列：『 Spark 』6. 深入研究 spark 运行原理之 job, stage, task

know more, do better

大数据资源整理

scala、spark 使用过程中，各种测试用例以及相关资料整理

借助 Redis ，让 Spark 提速 45 倍！

一些内存数据结构比其他数据结构来得更高效；如果充分利用 Redis，Spark 运行起来速度更快。

Spark 调优经验总结

Spark 调优经验总结
http://click.aliyun.com/m/7936/

Spark 系列：『 Spark 』3. spark 编程模式

let's start coding in spark.

spark streaming 将乱序消息有序存储离线保证 exact once 语义

spark streaming 将乱序消息有序存储离线保证 exact once 语义。

[如何选择三种 Spark API

](https://juejin.im/entry/58591...

Spark 在最近的版本中引进了各种 API，对比各种 API 选择更适合自己项目的

Spark 系列：『 Spark 』2. spark 基本概念解析

Concepts you need keep in mind about spark.

Spark 常用函数讲解之键值 RDD 转换

Transformation（转换）：Transformation 属于延迟计算，当一个 RDD 转换成另一个 RDD 时并没有立即进行转换，仅仅是记住       了数据集的逻辑操作
     Ation（执行）：触发 Spark 作业的运行，真正触发转换算子的计算

Spark 计算过程分析

Spark 是一个分布式的内存计算框架，其特点是能处理大规模数据，计算速度快。Spark 延续了 Hadoop 的 MapReduce 计算模型，相比之下 Spark 的计算过程保持在内存中，减少了硬盘读写，能够将多个操作进行合并后计算，因此提升了计算速度。同时 Spark 也提供了更丰富的计算 API。

深度剖析 Spark 分布式执行原理

Spark 是大数据领域中相当火热的计算框架，在大数据分析领域有一统江湖的趋势，网上对于 Spark 源码分析的文章有很多，但是介绍 Spark 如何处理代码分布式执行问题的资料少之又少，这也是我撰写文本的目的。

Spark 核心技术与实践

http://click.aliyun.com/m/7889/

基于 Python 的 Spark Streaming + Kafka 编程实践

Spark Streaming 的原理说明的文章很多，这里不做介绍。本文主要介绍使用 Kafka 作为数据源的编程模型, 编码实践, 以及一些优化说明。

Spark 在美团的实践

美团是数据驱动的互联网服务，用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志，这些日志数据将被汇总处理、分析、挖掘与学习，为美团的各种推荐、搜索系统甚至公司战略目标制定提供数据支持。大数据处理渗透到了美团各业务线的各种应用场景，选择合适、高效的数据处理引擎能够大大提高数据生产的效率，进而间接或直接提升相关团队的工作效率。

『 Spark 』7. 使用 Spark DataFrame 进行大数据分析

spark 系列第 7 篇，教你如何使用 apache spark dataframe 进行大数据分析

Spark Streaming-- 实战篇

prak Streaming 属于 Saprk API 的扩展，支持实时数据流（live data streams）的可扩展，高吞吐（hight-throughput）容错（fault-tolerant）的流处理。可以接受来自 KafKa,Flume,ZeroMQ Kinesis Twitter 或 TCP 套接字的数据源，处理的结果数据可以存储到文件系统数据库现场 dashboards 等。

spark