问题：

添加到Spark作业的JAR路径-spark-submit

胡霖

2023-03-14

我在纱线簇上使用Spark2.1(BTW)。

我正在尝试在纱线集群上传罐子，并使用它们来替代现场（alreading in-place）火花罐子。

我正试图通过Spark-Submit这样做。

spark-submit --jars additional1.jar,additional2.jar \
  --driver-class-path additional1.jar:additional2.jar \
  --conf spark.executor.extraClassPath=additional1.jar:additional2.jar \
  --class MyClass main-application.jar

“--jars”用于在每个节点上上传jar
“--driver-class-path”用于将上载的jar用于驱动程序。
“--conf spark.executor.extraclasspath”用于将上载的jar用于执行程序。

虽然我掌握了spark-submit命令中的“--jars”的文件路径，但是在“--driver-class-path”中使用的上传JAR的文件路径是什么？

该文档说：“jar和文件被复制到executor节点上每个SparkContext的工作目录中。”

spark-submit --jars /a/b/some1.jar,/a/b/c/some2.jar \
  --driver-class-path XXX:YYY \
  --conf spark.executor.extraClassPath=XXX:YYY \
  --class MyClass main-application.jar

当使用spark-submit时，我如何引用“sparkcontext的工作目录”来形成XXX和YYY文件路径？

多谢了。

PS：我试过了

spark-submit --jars /a/b/some1.jar,/a/b/c/some2.jar \
  --driver-class-path some1.jar:some2.jar \
  --conf spark.executor.extraClassPath=some1.jar:some2.jar  \
  --class MyClass main-application.jar

spark-submit --jars /a/b/some1.jar,/a/b/c/some2.jar \
  --driver-class-path ./some1.jar:./some2.jar \
  --conf spark.executor.extraClassPath=./some1.jar:./some2.jar  \
  --class MyClass main-application.jar

共有1个答案

方安怡

2023-03-14

spark-submit默认情况下使用客户端模式。

在客户端模式下，不应将--jars与--driver-class-path结合使用。

--driver-class-path将覆盖原始类路径，而不是预期的预先覆盖它。

类似资料：

将JAR添加到Spark作业-spark-submit

是的...已经讨论了很多了。但是，有很多不明确的地方，提供了一些答案...包括在jars/executor/driver配置或选项中重复jar引用。类路径的影响驱动程序执行程序（用于正在运行的任务）两者一点也不对于任务（对每个执行者）用于远程驱动程序（如果在群集模式下运行）方法方法或或不要忘记，spark-submit的最后一个参数也是一个.jar文件。如果我从文档中猜
将JAR文件添加到Spark作业-Spark提交

真的...已经讨论了很多。然而，有很多模棱两可之处，提供的一些答案。。。包括在JAR/执行器/驱动程序配置或选项中复制JAR引用。应为每个选项澄清以下歧义、不清楚和/或省略的细节：类路径如何受到影响驾驶员执行器（用于正在运行的任务）两者都有一点也不对于任务（给每个执行者）方法方法或，或者别忘了，spack-提交的最后一个参数也是一个. jar文件。我知道在哪里可以找到主
Java 将jars添加到Spark作业-Spark提交

问题内容：但是有很多歧义和提供的一些答案…包括在jars / executor / driver配置或选项中复制jar引用。 How ClassPath is affected Driver Executor (for tasks running) Both not at all Separation character: comma, colon, semicolon If provided
Spark--添加了jar选项jar不工作

我正在尝试使用spark-submit选项添加redshift jar：在Spark 2.1.0上运行命令 spark-submit--类测试--主spark:/xyz.local:7077--executor-cores 4--总-executor-cores 32--executor-memory 6G--驱动程序-memory 4G--驱动程序-cores 2--部署模式集群-jars S
Submit Spark作业未加载spark-cloudant:2.0.0-S_2_11包

那么需要在命令中做哪些更改来加载包呢？此包的详细信息显示在https://mvnrepository.com/artifact/cloudant-labs/spark-cloudant/2.0.0-S2.11中
使用spark submit运行spark作业时的

我试图运行火花作业，基本上加载数据在卡桑德拉表。但它也产生了以下错误。

添加到Spark作业的JAR路径-spark-submit

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档