小记--------sparkstreaming常驻yarn调度程序调优

xieting

2020-02-22

关注关注

#!/bin/bash

#hadoop

export HADOOP_HOME=/opt/cloudera/parcels/CDH-5.14.0-1.cdh5.14.0.p0.24

export PATH=${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:$PATH

realtime_queue=root

receiver_max_rate=100

receiver_initial_rate=30

my_job_name="reservation"

main_class="com.df.RealTime_Increment_reservation"

/opt/cdh/spark-2.1.0-bin-2.6.0-cdh5.14.0/bin/spark-submit --master yarn --deploy-mode cluster \

--name ${my_job_name} \

--class ${main_class} \

--queue ${realtime_queue} \

--driver-memory 2g \

--executor-memory 4g \

--executor-cores 2 \

#driver端配置log4j

--conf spark.driver.extraJavaOptions=-Dlog4j.configuration=log4j-yarn.properties \

#executor端配置log4j

--conf spark.executor.extraJavaOptions=-Dlog4j.configuration=log4j-yarn.properties \

#使用kyro序列化

--conf spark.serializer=org.apache.spark.serializer.KryoSerializer \

#数据本地化等待时长10s，默认3s (尽可能减少网络传输)

--conf spark.locality.wait=10 \

#程序失败最大次数为8

--conf spark.task.maxFailures=8 \

#允许在 webUI将stage和相应的job杀死

--conf spark.ui.killEnabled=false \

#SparkContext启动时，记录有效sparkconf信息

--conf spark.logConf=true \

#sparkstreaming接收器将接受数据合并成数据块并存储在spark的时间间隔(毫秒)默认为200

--conf spark.streaming.blockInterval=200 \

#数据在写入配置的checkpoint目录中的预写日志

#这种机制可以让driver在恢复的时候，避免数据丢失，确保整个实时计算过程中不丢失数据

--conf spark.streaming.receiver.writeAheadLog.enable=true \

#spark streaming 反压机制默认false

#反压机制能够通过动态收集系统的一些数据来自动地适配集群数据处理能力

--conf spark.streaming.backpressure.enabled=true \

#估算最低费率默认值为100

--conf spark.streaming.backpressure.pid.minRate=10 \

#------------------------------------------------------------

#spark1.5之前；限制每个receiver每秒最大可以接收的记录的数据

--conf spark.streaming.receiver.maxRate=${receiver_max_rate} \

#spark1.5之前；限制每次作业中每个kafka分区最多读取的记录条数

--conf spark.streaming.kafka.maxRatePerPartition=${receiver_max_rate} \

#InputDStreams内部的RateController里面会存下计算好的最大速率，将速率推送到ReceiverSupervisorImpl。

#最后到底接受多少数据取决于三者的最小值。也就是每个接收器或者每个kafka分区每秒处理的数据不会超过maxRate、maxRatePerPartition的值

#------------------------------------------------------------

#启用反压机制时每个接收器接收第一批数据的初始最大速率

--conf spark.streaming.backpressure.initialRate=${receiver_initial_rate} \

--conf spark.yarn.driver.memoryOverhead=512 \

--conf spark.yarn.executor.memoryOverhead=1024 \

#配置重新运行应用程序的最大尝试次数为4

--conf spark.yarn.maxAppAttempts=4 \

#配置重新运行程序的次数计数器重置时间为：1小时

--conf spark.yarn.am.attemptFailuresValidityInterval=1h \

#配置程序发生故障之前executor失败数量的计数器重置时间为：1小时

--conf spark.yarn.executor.failuresValidityInterval=1h \

#关闭推测执行任务，防止资源被全部占用，不能及时释放

#推测任务是指针对一个stage里面拖后腿的Task，会在其他节点的executor上再次启动这个task，如果其中一个Task实例运行成功则将这个最先完成的Task的计算结果作为最终结果，同时会干掉其他executor上运行的实例，spark推测式执行默认是关闭的。。。

--conf spark.speculation=false \

#广播等待超时时间默认300s(单位：s)；用于大小表进行join时，将小表广播到所有worker节点提升性能

--conf spark.sql.broadcastTimeout=600 \

#shuffle分区数默认200；根据数据量大小，资源大小进行调整或大或小

--conf spark.sql.shuffle.partitions=800 \

#spark执行任务并行度设置只对RDD有效，对SQL无效；spark.sql.shuffle.partitions(spark SQL 有效)

--conf spark.default.parallelism=600 \

#JVM堆内存中M的百分比(默认为0.6)

--conf spark.memory.fraction=0.8 \

#阻塞队列大小默认为10000

--conf spark.scheduler.listenerbus.eventqueue.size=100000 \

/opt/cdh/submit/reservation/Thermodynamic-1.0-SNAPSHOT.jar 100 df1:9092,df2:9092,df3:9092 reservation df_reservation_3 df2:2181,df3:2181,df4:2181,df5:2181,df6:2181

yarn

xieting

0 关注 0 粉丝 0 动态

关注关注

在Ubuntu和其他Linux发行版上使用Yarn

本速成教程向你展示了在 Ubuntu 和 Debian Linux 上安装 Yarn 包管理器的官方方法。你还将学习到一些基本的 Yarn 命令以及彻底删除 Yarn 的步骤。Facebook 声称 Yarn 比 npm 更快、更可靠、更安全。与 npm

yegen00 2020-10-21

三、大数据组件之Yarn

YARN是Hadoop2.0中的资源管理系统，它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务：一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceMana

Notzuonotdied 2020-09-17

yarn 查看资源 core 内存

这个命令句就可以 , 查看集群的资源情况 , 包括正在使用的情况.

xieting 2020-08-17

第一个Vue页面

安装完后，打开cmd命令行界面。安装yarn(fackbook依赖管理工具与Npm功能一样，推荐使用！！！--- 是否安装vue路由 -->. --- 是否启动ESLint代码检测 -->. --- 是否设置单元测试 -->. --- 是

hline 2020-07-29

hadoop框架三大组件hdfs、mapreduce、yarn 内容

1）分布式的运算程序往往需要分成至少2个阶段。2）第一个阶段的MapTask并发实例，完全并行运行，互不相干。3）第二个阶段的ReduceTask并发实例互不相干，但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。4）MapReduce编程

tomli 2020-07-26

Hadoop Yarn工作机制 Job提交流程

MR程序提交到客户端所在的节点。YarnRunner向ResourceManager申请一个Application。RM将该应用程序的资源路径返回给YarnRunner。RM将用户的请求初始化成一个Task。其中一个NodeManager领取到Task任务

xieting 2020-07-04

Hive llap服务安装说明及测试（二）

因为Apache Slider 已经不维护了，下面介绍不使用 Slider 的 LLAP使用方式。

xieting 2020-06-28

Vue开发中cnpm,yarn,npm,nodejs 区别与关系

yarn是Facebook公司出品的用于管理nodejs包的一款软件。yarn是为了弥补 npm 的一些缺陷而出现的，建议使用yarnnpm是随同nodejs一起安装的包管理工具。cnpm是淘宝 npm镜像，更快。

YarnSup 2020-06-28

Yarn架构

资源的分配与调度。管理单个节点上的资源。为应用程序申请资源并分配给内部任务。任务的监控和容错。Container：封装了每个节点的多维度资源

tomli 2020-06-21

Hadoop

8.在2008年，Doug加入了Yahoo，开源了Hadoop，在Yahoo期间设计实现了Pig、HBase等框架

HJWZYY 2020-06-21

使用Taro实现小程序商城的购物车功能模块的实例代码

Taro是一套遵循React语法规范的多端开发解决方案。现如今市面上端的形态多种多样，Web、React-Native、微信小程序等各种端大行其道，当业务要求同时在不同的端都要求有所表现的时候，针对不同的端去编写多套代码的成本显然非常高，这时候只编写一套代

flyingbird 2020-06-14

[email protected]配合antd UI使用，自定义主题

// 使用react-app-rewired customize-cra就不用暴露webpack等配置文件。const { override, fixBabelImports, addLessLoader } = require;// style: tru

Notzuonotdied 2020-06-13

Yarn 和 NPM 国内快速镜像（淘宝镜像）

如果在前端开发使用 NPM 或者 YARN 下载过程中碰到网速非常慢，可以配置国内淘宝镜像来提升下载速度。

HJWZYY 2020-06-07

记学习react-native

　　根据文档中的内容，安装Node,Python2,JDK, Android Studio,npm全局安装Yarn。具体配置和环境变量配置也按文档来的。　　不过在创建新项目的时候使用react-native init项目名时一直报错，有报ETIMEOUT，

xieting 2020-05-29

如何在Ubuntu 20.04上安装Yarn

在Ubuntu上安装Yarn非常简单。我们将启用官方的Yarn存储库，导入存储库GPG密钥，然后安装该软件包。该存储库得到了一致的维护，并提供了最新版本。如果您通过nvm安装了Node槽，请使用以下命令跳过Node.js的安装：。系统上安装的版本可能与上面

tomli 2020-05-27

查看npm和yarn 的镜像源和配置淘宝镜像源

#npm：npm config get registry #yarn：yarn config get registry

xieting 2020-05-26

create-react-app + Typescript脚手架搭建

在react-app-env.d.ts文件中新增（否则将无法正常使用less module！！！

tomli 2020-05-25

设置yarn源修改为淘宝源

和npm修改淘宝源的的步骤差不多

tomli 2020-05-14

npm与yarn常用命令对比

npm init yarn init // 初始化。npm i x --S | --save yarn add x // 安装生产依赖并保存包名。np

tomli 2020-05-11

大数据 Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统，简称HDFS。Hadoop的框架最核心的设计就是：HDFS

strongyoung 2020-05-09

安科网

小记--------sparkstreaming常驻yarn调度程序调优

xieting

xieting

相关推荐

在Ubuntu和其他Linux发行版上使用Yarn

三、大数据组件之Yarn

yarn 查看资源 core 内存

第一个Vue页面

hadoop框架三大组件hdfs、mapreduce、yarn 内容

Hadoop Yarn工作机制 Job提交流程

Hive llap服务安装说明及测试（二）

Vue开发中cnpm,yarn,npm,nodejs 区别与关系

Yarn架构

Hadoop

使用Taro实现小程序商城的购物车功能模块的实例代码

[email protected]配合antd UI使用，自定义主题

Yarn 和 NPM 国内快速镜像（淘宝镜像）

记学习react-native

如何在Ubuntu 20.04上安装Yarn

查看npm和yarn 的镜像源和配置淘宝镜像源

create-react-app + Typescript脚手架搭建

设置yarn源修改为淘宝源

npm与yarn常用命令对比

大数据 Hadoop

xieting