来自Twitter的Hadoop优化经验：集群越大越明显！

GufraYin

2015-07-16

一、来源

Streaming Hadoop Performance Optimization at Scale, Lessons Learned at Twitter

二、读后感

2.1 概要

此稿介绍了Twitter的核心数据类库团队，在使用Hadoop处理离线任务时，使用的性能分析方法，及由此发现的问题和优化手段，对如何使用 JVM/HotSpot profile(-Xprof)分析Hadoop Job的方法调用开销、Hadoop配置对象的高开销、MapReduce阶段的排序中对象序列化/反序列的高开销问题及优化等给出了实际可操作的方案。

其介绍了Apache Parquet这一面向列的存储格式，并成功应用于列投影(column project)，配合predicated push-down技术，过滤不需要的列，极大提高了数据压缩比和序列化/反序列化的性能。

纯干货。

32个赞!

2.2 优化总结

1) Profile!(-Xprofile)性能优化不能靠猜，而应靠分析!

2) 序列化开销很大，但是Hadoop里有许多序列化(操作)!

3) 根据特定(数据)访问模式，选择不同的存储格式(面向行还是面向列)!

4) 使用column projection。

5) 在Hadoop的MR阶段，排序开销很大，使用Raw Comparators以降低开销。

注：此排序针对如Comparator，其会引发序列化/反序列化操作。

6) I/O并不一定就是瓶颈。必要的时候要多I/O换取更少的CPU计算。

JVM/HotSpot原生profile能力(-Xprof)，其优点如下：

1) 低开销(使用Stack sampling)。

2) 能揭示开销最大的方法调用。

3) 使用标准输出(Stdout)将结果直接写入Task Logs。

2.3 Hadoop的配置对象

来自Twitter的Hadoop优化经验：集群越大越明显！

1) Hadoop的Configuration Object开销出人意料的高。

2) Conf的操作看起来就像一个HashMap的操作。

来自Twitter的Hadoop优化经验：集群越大越明显！

3) 构造函数：读取+解压+分析一个来自磁盘的XML文件

来自Twitter的Hadoop优化经验：集群越大越明显！

4) get()调用引起正则表达式计算，变量替换。

来自Twitter的Hadoop优化经验：集群越大越明显！

5) 如果在循环中对上述等方法进行调用，或者每秒一次调用，开销很高.某些(Hadoop)Jobs有30%的时间花在配置相关的方法上!(的确是出人意料的高开销)

总之，没有profile(-Xprof)技术，不可能获取以上洞察，也不可能轻易找到优化的契机和方向，需要使用profile技术来获知I/O和CPU谁才是真正的瓶颈。

2.4 中间结果的压缩

Xprof揭示了spill线程中的压缩和解压缩操作消耗了大量时间。
中间结果是临时的。
使用lz4方法取代lzo level 3，减少了30%多的中间数据，使其能被更快地读取。
并使得某些大型Jobs提速150%。

2.5 对记录的序列化和反序列，会成为Hadoop Job中开销最高的操作!

来自Twitter的Hadoop优化经验：集群越大越明显！

2.6 对记录的序列化是CPU敏感的，相对比之下，I/O都不算什么了!

来自Twitter的Hadoop优化经验：集群越大越明显！

2.7 如何消除或者减小序列化/反序列化引起的(CPU)开销?

2.7.1 使用Hadoop的Raw Comparator API(来比较元素大小)

开销分析：如下图所示，Hadoop的MR在map和reduce阶段，会反序列化map结果的keys以在此阶段进行排序。

来自Twitter的Hadoop优化经验：集群越大越明显！

(反序列化操作)开销很大，特别是对于复杂的、非原语的keys，而这些keys又很常用。

来自Twitter的Hadoop优化经验：集群越大越明显！

Hadoop提供了一个RawComparator API，用于对已序列化的(原始的)数据(字节级)进行比较：

来自Twitter的Hadoop优化经验：集群越大越明显！

不幸的是，需要亲手实现一个自定义的Comparator。

现在，假设数据已序列化后的字节流，本身是易于比较的：

Scala有个很拉风的API，Scala还有一些宏可以产生这些API，以用于：

Tuples , case classes , thrift objects , primitives , Strings,等等数据结构。

来自Twitter的Hadoop优化经验：集群越大越明显！

怎么拉风法呢?首先，定义一个密集且易于比较的数据序列化(字节)格式：

来自Twitter的Hadoop优化经验：集群越大越明显！

其次，生成一个用于比较的方法，以利用这种数据格式的优势：

来自Twitter的Hadoop优化经验：集群越大越明显！

下图是采用上述优化手段后的比较开销对比：

来自Twitter的Hadoop优化经验：集群越大越明显！

提速到150%!

接着优化!

2.7.2 使用column projection

不要读取不需要的列：

来自Twitter的Hadoop优化经验：集群越大越明显！

1) 可使用Apache Parquet(列式文件格式)。

来自Twitter的Hadoop优化经验：集群越大越明显！

2) 使用特别的反序列化手段可以在面向行的存储中跳过一些不需要的字段。

面向列的存储中，一整列按顺序存储(而不是向面向行的存储那样，列是分开存储的)：

来自Twitter的Hadoop优化经验：集群越大越明显！

可以看到，面向列的存储，使得同类型的字段被顺序排在一起(易于压缩)：

来自Twitter的Hadoop优化经验：集群越大越明显！

采用Lzo + Parquet，文件小了2倍多!

2.7.3 Apache Parquet

1) 按列存储，可以有效地进行列投影(column projection)。

2) 可按需从磁盘上读取列。

3) 更重要的是：可以只反序列化需要的列!

来自Twitter的Hadoop优化经验：集群越大越明显！

看下效果：

来自Twitter的Hadoop优化经验：集群越大越明显！

可以看到，列数越少，Parquet的威力越大，到40列时，其效率反而不如Lzo Thrift。

在读取所有列的情况下，Parquet一般比面向行的存储慢。
Parquet是种密集格式，其读性能和模式中列的数目相关，空值读取也消耗时间。
而面向行的格式(thrift)是稀疏的，所以其读性能和数据的列数相关，空值读取是不消耗时间的。

来自Twitter的Hadoop优化经验：集群越大越明显！

跳过不需要的字段，如下所示：

来自Twitter的Hadoop优化经验：集群越大越明显！

虽然，没有降低I/O开销
但是，可以仅将感兴趣的字段编码进对象中
相对于从磁盘读取 + 略过编码后字节的开销，在解码字符串时所花的CPU时间要高的多!

看下各种列映射方案的对比：

来自Twitter的Hadoop优化经验：集群越大越明显！

Parquet Thrift还有很多优化空间;Parquet在选取的列数小于13列之前，是更快的;此模式相对平坦，且大多数列都被生成了。

还可以采用Predicate Push-Down策略，使得Parquet可以跳过一些不满足过滤条件的数据记录。
Parquet存储了一些统计信息，比如记录的chunks，所以在某些场景下，可以通过对这些统计信息进行读取分析，以跳过整个数据块(chunk)。

来自Twitter的Hadoop优化经验：集群越大越明显！

注：左图为column projection，中图为predicate push-down过滤，右图为组合效果。可以看到很多字段被跳过了，那绝壁可以优化序列化/反序列化的效率

下图则展示了push-down过滤 + parquet的优化成效：

来自Twitter的Hadoop优化经验：集群越大越明显！

2.8 结语

感叹：Twitter真是一家伟大的公司!

hadoop 集群技术优化 twitter 数据处理 text-align

安科网

来自Twitter的Hadoop优化经验：集群越大越明显！

GufraYin

GufraYin

相关推荐

[AWS][大数据][Hadoop] 使用EMR做大数据分析

想了解大数据的鼻祖Hadoop技术栈，这里有一份优质书单推荐！

Hive安装，以及一些问题处理

hadoop 数据处理总结

Hadoop3.2.0集群搭建常见注意事项

为什么Java仍将是未来的主流语言？

hadoop伪分布式环境搭建

_服役新节点，退役旧节点，多目录配置。+_HDFS2.x的新特性

Hadoop（一）安装

第四周练习

Hadoop小练习

hadoop框架三大组件hdfs、mapreduce、yarn 内容

Hadoop基础（三十三）：Zookeeper 分布式安装部署

Hadoop基础（二十二）：Shuffle机制（三）

hdfs、hive、hbase的搭建总结

NameNode和Zookeeper的format作用

hadoop集群的启动与停止

JStorm介绍

Hadoop2.7.7 centos7 完全分布式配置与问题随记

Hadoop Yarn工作机制 Job提交流程

GufraYin