Pyspark 提交任务遇到的问题

Oeljeklaus

2020-03-28

最近使用Pyspark的时候，遇到一些新的问题，希望记录下来，解决的我会补充。

1. WARN DomainSocketFactory: The short-circuit local reads feature cannot be used

2. pyspark TypeError: ‘PipelinedRDD‘ object does not support indexing

该格式的RDD不能直接索引，但是可以通过其他方式实现：

方法一：使用take之后，再索引 —— some_rdd.take(10)[5] ：即表示取前10个中的索引为5的元素；

方法二：如果数据量较少，可以先 collect —— some_rdd.collect() 转化为array格式的数据，再索引；

方法三：通多lambda函数和map函数可以实现 —— some_rdd.map(lambda x: x)

3.WARN DFSClient: Failed to connect to /ip:port for block, add to deadNodes

据说是防火墙原因，但是本人尚未尝试。

4. WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources

本人使用过：spark-submit --executor-memory 512M --total-executor-cores 2 test.py

但是这个方法没有解决这个问题，还在查找中。

原因：可能是内存不足造成的，可以用 free -m 查看一下节点的内存使用情况。

解决方法：

可以尝试方法一：在spark-env.sh中添加环境变量 —— export SPARK_EXECUTOR_MEMORY=512m

然后重启之后再执行。

可以尝试方法二：先清理内存，再执行，即依次执行以下三条命令：

sync    #写缓存到文件系统
echo 3 > /proc/sys/vm/drop_caches   #手动释放内存

# 其中：
# 0：不释放（系统默认值）
# 1：释放页缓存
# 2：释放dentries和inodes
# 3：释放所有缓存，即清除页面缓存、目录项和节点；

free -h     #查看是否已经清理

# 注：指定内存和核，--executor-memory 需要大于450MB, 也就是471859200B

5. java.io.IOException not a file: hdfs:// XXXX java.sql.SQLException

解决方法：在spark-sql命令行中，设置参数，即执行：

SET mapred.input.dir.recursive=true;

SET hive.mapred.supports.subdirectories=true;

原因：猜测是因为要读取的文件或者表在子目录导致。

参考：

https://blog.csdn.net/xwc35047/article/details/53933265

https://jingyan.baidu.com/article/375c8e1971d00864f3a22902.html

https://blog.csdn.net/Gavinmiaoc/article/details/80527717

Oeljeklaus

0 关注 0 粉丝 0 动态

相关推荐

pyspark读取elasticsearch

def get_es_conf(es_hot, es_port, index, type_, query_dic):. "es.nodes": es_hot,"es.resource": ‘{}/{}‘.format

wenwentana 2020-07-17

[随笔]VSCode Remote-ssh+云主机搭建pySpark学习环境

正常配置spark环境，开发 done！

风吹草动 2020-05-16

pyspark combineByKey的理解

　　乍一看，感觉有些难理解，我们来一起探索下！

Oeljeklaus 2020-03-03

如何在Apache Pyspark中运行Scikit-learn模型

在本文中，我们将了解如何在Apache Pyspark中运行Scikit-learn模型，并讨论有关每个步骤的细节。如果您已经准备好了机器学习模型，则可以直接跳到“ pyspark wrapper”部分，也可以通过以下步骤创建一个简单的scikit lea

89377069 2019-12-30

pyspark基础知识点

list = df.head # Example: [Row, Row, ... ...]. 去重set操作，跟py中的set一样，可以distinct()一下去重，同时也可以.count()计算剩余个数。sql = "select * from

Johnson0 2019-12-29

PySpark和大数据处理初探

由于数据量太大而不能在一台机器上进行处理这样的情况已经越来越常见了。幸运的是，已经有Apache Spark、Hadoop等技术被开发出来，去解决这个确切的问题。这些系统的强大功能可以直接在Python中使用PySpark来发掘!有效地处理GB及以上级别的

ITsource 2019-10-10

在pyspark中调用scala代码

在pyspark中调用scala代码情境说明问题我们这边是要使用Spark去并行一个自然语言处理的算法，其中使用到了LDA主题模型。由于使用的是天河二号，Spark版本是1.5.1，pyspark同样，所以获取主题时还不能使用describeTopics，

TheBigBlue 2019-06-25

独家｜一文读懂PySpark数据框（附实例）

本文约1900字，建议阅读8分钟。本文中我们将探讨数据框的概念，以及它们如何与PySpark一起帮助数据分析员来解读大数据集。人们往往会在一些流行的数据分析语言中用到它，如Python、Scala、以及R。数据框的特点PySpark数据框的数据源创建数据框

ALLWITHLOVE 2018-08-28

pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换实例

df = pd.DataFrame([[1, 2, 3], [4, 5, 6]], index=['row1', 'row2'], columns=['c1', 'c2', 'c3']). (0.0, "I like Spark"),(

hongduna 2018-08-02

pyspark 读取csv文件创建DataFrame的两种方法

方法一：用pandas辅助

躬行谷 2018-06-07

unbuntu系统:python2.7安装pyspark

以前在进行搜索引擎rank-svm排序模型训练时，直接使用python读取的HDFS日志文件、统计计算等预处理操作再进行svm模型，最终产生出训练模型。现在回想一下，数据预处理这一块完全可以使用spark进行，而且看起来更“正规一点”和高大上，并借机接触一

清醒疯子 2018-04-05

pyspark 内容介绍（一）

根据网上提供的资料，现在汇总一下这些类的基本用法，并举例说明如何具体使用。也是总结一下经常用到的这些公有类的使用方式。方便初学者查询及使用。Spark 功能的主入口。大多数时候，使用SparkConf()来创建SparkConf对象，也用于载入来自spar

87632219 2017-01-20

Oeljeklaus

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号