Spark
Spark 系列:『 Spark 』1. spark 简介
things you need know before you touch Spark and before you decide to use spark in your next project.
Spark 系列:『 Spark 』4. spark 之 RDD
要想学好 spark,怎么能不先搞清楚 RDD 的来龙去脉呢~~~
Spark 函数详解系列之 RDD 基本转换
RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个 RDD 代表一个分区里的数据集
RDD 有两种操作算子:
Transformation(转换):Transformation 属于延迟计算,当一个 RDD 转换成一 个 RDD 时并没有立即进行转换,仅仅是记住了数据集的逻辑操作 Ation(执行):触发 Spark 作业的运行,真正触发转换算子的计算
Spark 调优经验总结
本文以 Spark 实践经验和 Spark 原理为依据,总结了 Spark 性能调优的一些方法。这些总结基于 Spark-1.0.0 版本。对于最近推出的 Spark-1.1.0 版本,本文介绍了几个版本增强。
Spark 系列:『 Spark 』6. 深入研究 spark 运行原理之 job, stage, task
know more, do better
大数据资源整理
scala、spark 使用过程中,各种测试用例以及相关资料整理
借助 Redis ,让 Spark 提速 45 倍!
一些内存数据结构比其他数据结构来得更高效;如果充分利用 Redis,Spark 运行起来速度更快。
Spark 调优经验总结
Spark 调优经验总结
http://click.aliyun.com/m/7936/
Spark 系列:『 Spark 』3. spark 编程模式
let's start coding in spark.
spark streaming 将乱序消息有序存储 离线保证 exact once 语义
spark streaming 将乱序消息有序存储 离线保证 exact once 语义。
[如何选择三种 Spark API
](https://juejin.im/entry/58591...
Spark 在最近的版本中引进了各种 API,对比各种 API 选择更适合自己项目的
Spark 系列:『 Spark 』2. spark 基本概念解析
Concepts you need keep in mind about spark.
Spark 常用函数讲解之键值 RDD 转换
RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个 RDD 代表一个分区里的数据集
RDD 有两种操作算子:
Transformation(转换):Transformation 属于延迟计算,当一个 RDD 转换成另一个 RDD 时并没有立即进行转换,仅仅是记住 了数据集的逻辑操作 Ation(执行):触发 Spark 作业的运行,真正触发转换算子的计算
Spark 计算过程分析
Spark 是一个分布式的内存计算框架,其特点是能处理大规模数据,计算速度快。Spark 延续了 Hadoop 的 MapReduce 计算模型,相比之下 Spark 的计算过程保持在内存中,减少了硬盘读写,能够将多个操作进行合并后计算,因此提升了计算速度。同时 Spark 也提供了更丰富的计算 API。
深度剖析 Spark 分布式执行原理
Spark 是大数据领域中相当火热的计算框架,在大数据分析领域有一统江湖的趋势,网上对于 Spark 源码分析的文章有很多,但是介绍 Spark 如何处理代码分布式执行问题的资料少之又少,这也是我撰写文本的目的。
Spark 核心技术与实践
http://click.aliyun.com/m/7889/
基于 Python 的 Spark Streaming + Kafka 编程实践
Spark Streaming 的原理说明的文章很多,这里不做介绍。本文主要介绍使用 Kafka 作为数据源的编程模型, 编码实践, 以及一些优化说明。
Spark 在美团的实践
美团是数据驱动的互联网服务,用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志,这些日志数据将被汇总处理、分析、挖掘与学习,为美团的各种推荐、搜索系统甚至公司战略目标制定提供数据支持。大数据处理渗透到了美团各业务线的各种应用场景,选择合适、高效的数据处理引擎能够大大提高数据生产的效率,进而间接或直接提升相关团队的工作效率。
『 Spark 』7. 使用 Spark DataFrame 进行大数据分析
spark 系列第 7 篇,教你如何使用 apache spark dataframe 进行大数据分析
Spark Streaming-- 实战篇
prak Streaming 属于 Saprk API 的扩展,支持实时数据流(live data streams)的可扩展,高吞吐(hight-throughput) 容错(fault-tolerant)的流处理。可以接受来自 KafKa,Flume,ZeroMQ Kinesis Twitter 或 TCP 套接字的数据源,处理的结果数据可以存储到文件系统 数据库 现场 dashboards 等。