当前位置: 首页 > 知识库问答 >
问题:

添加到Spark作业的JAR路径-spark-submit

胡霖
2023-03-14

我在纱线簇上使用Spark2.1(BTW)。

我正在尝试在纱线集群上传罐子,并使用它们来替代现场(alreading in-place)火花罐子。

我正试图通过Spark-Submit这样做。

spark-submit --jars additional1.jar,additional2.jar \
  --driver-class-path additional1.jar:additional2.jar \
  --conf spark.executor.extraClassPath=additional1.jar:additional2.jar \
  --class MyClass main-application.jar
  • “--jars”用于在每个节点上上传jar
  • “--driver-class-path”用于将上载的jar用于驱动程序。
  • “--conf spark.executor.extraclasspath”用于将上载的jar用于执行程序。

虽然我掌握了spark-submit命令中的“--jars”的文件路径,但是在“--driver-class-path”中使用的上传JAR的文件路径是什么?

该文档说:“jar和文件被复制到executor节点上每个SparkContext的工作目录中。”

spark-submit --jars /a/b/some1.jar,/a/b/c/some2.jar \
  --driver-class-path XXX:YYY \
  --conf spark.executor.extraClassPath=XXX:YYY \
  --class MyClass main-application.jar

当使用spark-submit时,我如何引用“sparkcontext的工作目录”来形成XXX和YYY文件路径?

多谢了。

PS:我试过了

spark-submit --jars /a/b/some1.jar,/a/b/c/some2.jar \
  --driver-class-path some1.jar:some2.jar \
  --conf spark.executor.extraClassPath=some1.jar:some2.jar  \
  --class MyClass main-application.jar
spark-submit --jars /a/b/some1.jar,/a/b/c/some2.jar \
  --driver-class-path ./some1.jar:./some2.jar \
  --conf spark.executor.extraClassPath=./some1.jar:./some2.jar  \
  --class MyClass main-application.jar

共有1个答案

方安怡
2023-03-14

spark-submit默认情况下使用客户端模式。

在客户端模式下,不应将--jars--driver-class-path结合使用。

--driver-class-path将覆盖原始类路径,而不是预期的预先覆盖它。

 类似资料:
  • 是的...已经讨论了很多了。 但是,有很多不明确的地方,提供了一些答案...包括在jars/executor/driver配置或选项中重复jar引用。 类路径的影响 驱动程序 执行程序(用于正在运行的任务) 两者 一点也不 对于任务(对每个执行者) 用于远程驱动程序(如果在群集模式下运行) 方法 方法 或 或 不要忘记,spark-submit的最后一个参数也是一个.jar文件。 如果我从文档中猜

  • 真的...已经讨论了很多。 然而,有很多模棱两可之处,提供的一些答案。。。包括在JAR/执行器/驱动程序配置或选项中复制JAR引用。 应为每个选项澄清以下歧义、不清楚和/或省略的细节: 类路径如何受到影响 驾驶员 执行器(用于正在运行的任务) 两者都有 一点也不 对于任务(给每个执行者) 方法 方法 或 ,或者 别忘了,spack-提交的最后一个参数也是一个. jar文件。 我知道在哪里可以找到主

  • 问题内容: 但是有很多歧义和提供的一些答案…包括在jars / executor / driver配置或选项中复制jar引用。 How ClassPath is affected Driver Executor (for tasks running) Both not at all Separation character: comma, colon, semicolon If provided

  • 我正在尝试使用spark-submit选项添加redshift jar: 在Spark 2.1.0上运行命令 spark-submit--类测试--主spark:/xyz.local:7077--executor-cores 4--总-executor-cores 32--executor-memory 6G--驱动程序-memory 4G--驱动程序-cores 2--部署模式集群-jars S

  • 那么需要在命令中做哪些更改来加载包呢? 此包的详细信息显示在https://mvnrepository.com/artifact/cloudant-labs/spark-cloudant/2.0.0-S2.11中

  • 我试图运行火花作业,基本上加载数据在卡桑德拉表。但它也产生了以下错误。