当前位置: 首页 > 知识库问答 >
问题:

PySpark:在Yarn集群上运行作业时如何对多个文件使用--files标记

井嘉胜
2023-03-14

我对Spark和使用python编写使用PySpark的作业是新手。我想在一个yarn集群上运行我的脚本,并通过发送log4j.properties将日志记录级别设置为warn使用--files标记来删除详细的日志记录。我有一个本地csv文件,脚本使用,我需要包括这以及。如何使用--files标记来包含这两个文件?

我正在使用以下命令:

但是我得到以下错误:error:不能从JAR文件加载main类:/opt/spark/conf/./list.csv`

共有1个答案

梁盛
2023-03-14

你可以删除“。”在/为第二个文件...这里我删除了,这是工作的。

/opt/spark/bin/spark-submit --master yarn --deploy-mode cluster --num-executors 50 --executor-cores 2 --executor-memory 2G --files /opt/spark/conf/log4j.properties /list.csv  /read_parquet.py
 类似资料:
  • 我正在使用TOS 7.1和MapR 6.0发行版以及sprak2。2. 流程:主任务- 两份工作1 下面是集群模式的应用程序日志中的错误:线程“main”java中出现异常。lang.NoClassDefFoundError:例程/system/api/TalendJob。 从错误中 请建议。

  • 我是一名spark/纱线新手,在提交纱线集群上的spark作业时遇到exitCode=13。当spark作业在本地模式下运行时,一切正常。 我使用的命令是: Spark错误日志:

  • 我对Spark还是个新手。我试着找,但找不到一个合适的解决办法。我已经在两个盒子(一个主节点和另一个工作节点)上安装了hadoop 2.7.2。我已经通过以下链接来设置集群:http://javadev.org/docs/hadoop/centos/6/installation/multi-node-installation-on-centos-6-non-sucure-mode/I作为root用

  • 我是新来的。我正试图从我的主实例读取一个文件,但我得到了这个错误。经过研究,我发现要么需要将数据加载到hdfs,要么需要跨集群复制。我找不到执行这两个命令的命令。 ----------------------------------------------------------------------------------------------------------------------

  • 所以我现在花了几个小时试图解决这个问题,并希望得到任何帮助。

  • 我有一个spark应用程序在本地模式下正确运行。在yarn集群上运行spark-submit时,会出现以下错误: 似乎找不到httpclient依赖项。这是我的构造 你知道吗?