问题：

PySpark：在Yarn集群上运行作业时如何对多个文件使用--files标记

井嘉胜

2023-03-14

我对Spark和使用python编写使用PySpark的作业是新手。我想在一个yarn集群上运行我的脚本，并通过发送log4j.properties将日志记录级别设置为warn使用--files标记来删除详细的日志记录。我有一个本地csv文件，脚本使用，我需要包括这以及。如何使用--files标记来包含这两个文件？

我正在使用以下命令：

但是我得到以下错误:error：不能从JAR文件加载main类：/opt/spark/conf/./list.csv`

共有1个答案

梁盛

2023-03-14

你可以删除“。”在/为第二个文件...这里我删除了，这是工作的。

/opt/spark/bin/spark-submit --master yarn --deploy-mode cluster --num-executors 50 --executor-cores 2 --executor-memory 2G --files /opt/spark/conf/log4j.properties /list.csv  /read_parquet.py

类似资料：

无法在Yarn集群模式下运行Talend作业

我正在使用TOS 7.1和MapR 6.0发行版以及sprak2。2. 流程：主任务- 两份工作1 下面是集群模式的应用程序日志中的错误：线程“main”java中出现异常。lang.NoClassDefFoundError:例程/system/api/TalendJob。从错误中请建议。
Spark在Yarn集群exitCode=13上运行：

我是一名spark/纱线新手，在提交纱线集群上的spark作业时遇到exitCode=13。当spark作业在本地模式下运行时，一切正常。我使用的命令是： Spark错误日志：
在Yarn集群上运行的Spark作业java.io.FileNotFoundException：文件不退出，即使该文件退出主节点

我对Spark还是个新手。我试着找，但找不到一个合适的解决办法。我已经在两个盒子（一个主节点和另一个工作节点）上安装了hadoop 2.7.2。我已经通过以下链接来设置集群：http://javadev.org/docs/hadoop/centos/6/installation/multi-node-installation-on-centos-6-non-sucure-mode/I作为root用
如何在pyspark AWS上跨集群添加文件

我是新来的。我正试图从我的主实例读取一个文件，但我得到了这个错误。经过研究，我发现要么需要将数据加载到hdfs，要么需要跨集群复制。我找不到执行这两个命令的命令。 ----------------------------------------------------------------------------------------------------------------------
在Slurm群集上运行批处理作业

所以我现在花了几个小时试图解决这个问题，并希望得到任何帮助。
nosuchmethoderror：在yarn集群上进行spark-submit时

我有一个spark应用程序在本地模式下正确运行。在yarn集群上运行spark-submit时，会出现以下错误：似乎找不到httpclient依赖项。这是我的构造你知道吗？

PySpark：在Yarn集群上运行作业时如何对多个文件使用--files标记

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档