当前位置: 首页 > 知识库问答 >
问题:

spark-submit选项列表

张英范
2023-03-14

哪里可以找到spark的所有调优参数的详尽列表(连同它们的sparksubmitOptionParser属性名),这些参数可以通过spark-submit命令传递?

共有1个答案

墨承泽
2023-03-14

虽然@suj1th有价值的输入确实解决了我的问题,但我回答了我自己的问题,直接解决了我的问题。

>

  • 您不需要为给定的spark属性(配置设置)查找sparkSubmitOptionParser的属性名。两者都可以。但是,请注意,这里的用法有一个微妙的区别,如下所示:

    spark-submit--executor-cores 2

    (i)值不需要包含在任何类型的引号中(单个''或双'“)(如果您愿意,您仍然可以)。

    (ii)如果值有空格字符,请将整个内容用双引号括起来,就像 = 一样,如下所示。

    有关可以通过spark-submit传递的所有配置的全面列表,只需运行spark-submit--help

    在SparkConf上显式设置的配置值优先,然后是传递给spark-submit的标志,然后是默认值文件中的值。

    如果您不清楚配置选项来自哪里,可以通过使用--verbose选项运行spark-submit来打印细粒度的调试信息。

    spark文档中的以下两个链接列出了许多配置:

      null

  •  类似资料:
    • 我有一个包含一些模型文件的目录,由于某些原因,我的应用程序必须访问本地文件系统中的这些模型文件。 当然,我知道选项的可以上传文件到每个执行器的工作目录,它确实工作。 但是,我希望保留文件的目录结构,因此我提出了选项,即 但当我实际使用它上传时,我发现纱线只是把它放在那里而没有提取,就像它对

    • 有人能解释一下spark-submit脚本中的和之间的区别吗? 另外,如果依赖项在应用程序中,我是否需要配置?(我这样问是因为我在中更改了版本,而忘记在中更改了它,这使我的应用程序崩溃了)

    • 我在使用以下简单示例时遇到了“ClassNotFound”异常的问题: 在本地模式下,按照文档提交会在第31行生成一个“ClassNotFound”异常,其中ClassToRoundTrip对象被反序列化。奇怪的是,前面28行的使用还可以: 但是,提交给本地开发人员主机仍然会产生相同的问题: 我可以从输出中看到JAR文件正在被执行器提取。 下面是其中一个执行程序的日志:

    • 我试图向spark提交一个jar,但我的jar包含与spark内置jar(snakeyml和其他)冲突的依赖项。 我使用以下命令提交: 但我还是有同样的例外

    • 我正在为Spark Streaming作业构建指标系统,在系统中,指标收集在每个执行程序中,因此需要在每个执行程序中初始化指标源(用于收集指标的类)。 度量源被打包在一个jar中,当提交作业时,jar使用参数'--jars'从本地发送到每个执行器,但是,执行器在jar到达之前开始初始化度量源类,因此,它会抛出类未找到异常。 似乎如果执行者可以等到所有资源都准备好,问题就会得到解决,但我真的不知道该