Spark

Spark 系列:『 Spark 』1. spark 简介

things you need know before you touch Spark and before you decide to use spark in your next project.

Spark 系列:『 Spark 』4. spark 之 RDD

要想学好 spark,怎么能不先搞清楚 RDD 的来龙去脉呢~~~

Spark 函数详解系列之 RDD 基本转换

RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个 RDD 代表一个分区里的数据集
RDD 有两种操作算子:

Transformation(转换):Transformation 属于延迟计算,当一个 RDD 转换成一   个 RDD 时并没有立即进行转换,仅仅是记住了数据集的逻辑操作
     Ation(执行):触发 Spark 作业的运行,真正触发转换算子的计算

Spark 调优经验总结

本文以 Spark 实践经验和 Spark 原理为依据,总结了 Spark 性能调优的一些方法。这些总结基于 Spark-1.0.0 版本。对于最近推出的 Spark-1.1.0 版本,本文介绍了几个版本增强。

Spark 系列:『 Spark 』6. 深入研究 spark 运行原理之 job, stage, task

know more, do better

大数据资源整理

scala、spark 使用过程中,各种测试用例以及相关资料整理

借助 Redis ,让 Spark 提速 45 倍!

一些内存数据结构比其他数据结构来得更高效;如果充分利用 Redis,Spark 运行起来速度更快。

Spark 调优经验总结

Spark 调优经验总结
http://click.aliyun.com/m/7936/

Spark 系列:『 Spark 』3. spark 编程模式

let's start coding in spark.

spark streaming 将乱序消息有序存储 离线保证 exact once 语义

spark streaming 将乱序消息有序存储 离线保证 exact once 语义。


[如何选择三种 Spark API

](https://juejin.im/entry/58591...

Spark 在最近的版本中引进了各种 API,对比各种 API 选择更适合自己项目的

Spark 系列:『 Spark 』2. spark 基本概念解析

Concepts you need keep in mind about spark.

Spark 常用函数讲解之键值 RDD 转换

RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个 RDD 代表一个分区里的数据集
RDD 有两种操作算子:

Transformation(转换):Transformation 属于延迟计算,当一个 RDD 转换成另一个 RDD 时并没有立即进行转换,仅仅是记住       了数据集的逻辑操作
     Ation(执行):触发 Spark 作业的运行,真正触发转换算子的计算

Spark 计算过程分析

Spark 是一个分布式的内存计算框架,其特点是能处理大规模数据,计算速度快。Spark 延续了 Hadoop 的 MapReduce 计算模型,相比之下 Spark 的计算过程保持在内存中,减少了硬盘读写,能够将多个操作进行合并后计算,因此提升了计算速度。同时 Spark 也提供了更丰富的计算 API。

深度剖析 Spark 分布式执行原理

Spark 是大数据领域中相当火热的计算框架,在大数据分析领域有一统江湖的趋势,网上对于 Spark 源码分析的文章有很多,但是介绍 Spark 如何处理代码分布式执行问题的资料少之又少,这也是我撰写文本的目的。

Spark 核心技术与实践

http://click.aliyun.com/m/7889/

基于 Python 的 Spark Streaming + Kafka 编程实践

Spark Streaming 的原理说明的文章很多,这里不做介绍。本文主要介绍使用 Kafka 作为数据源的编程模型, 编码实践, 以及一些优化说明。

Spark 在美团的实践

美团是数据驱动的互联网服务,用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志,这些日志数据将被汇总处理、分析、挖掘与学习,为美团的各种推荐、搜索系统甚至公司战略目标制定提供数据支持。大数据处理渗透到了美团各业务线的各种应用场景,选择合适、高效的数据处理引擎能够大大提高数据生产的效率,进而间接或直接提升相关团队的工作效率。

『 Spark 』7. 使用 Spark DataFrame 进行大数据分析

spark 系列第 7 篇,教你如何使用 apache spark dataframe 进行大数据分析

Spark Streaming-- 实战篇

prak Streaming 属于 Saprk API 的扩展,支持实时数据流(live data streams)的可扩展,高吞吐(hight-throughput) 容错(fault-tolerant)的流处理。可以接受来自 KafKa,Flume,ZeroMQ Kinesis Twitter 或 TCP 套接字的数据源,处理的结果数据可以存储到文件系统 数据库 现场 dashboards 等。

相关推荐