哪里可以找到spark
的所有调优参数的详尽列表(连同它们的sparksubmitOptionParser
属性名),这些参数可以通过spark-submit
命令传递?
虽然@suj1th有价值的输入确实解决了我的问题,但我回答了我自己的问题,直接解决了我的问题。
>
您不需要为给定的spark
属性(配置设置)查找sparkSubmitOptionParser
的属性名。两者都可以。但是,请注意,这里的用法有一个微妙的区别,如下所示:
spark-submit--executor-cores 2
(i)值不需要包含在任何类型的引号中(单个''
或双'“
)(如果您愿意,您仍然可以)。
(ii)如果值有空格
字符,请将整个内容用双引号“
括起来,就像”
一样,如下所示。
有关可以通过spark-submit
传递的所有配置的全面列表,只需运行spark-submit--help
在SparkConf上显式设置的配置值优先,然后是传递给spark-submit的标志,然后是默认值文件中的值。
如果您不清楚配置选项来自哪里,可以通过使用--verbose选项运行spark-submit来打印细粒度的调试信息。
spark
文档中的以下两个链接列出了许多配置:
我有一个包含一些模型文件的目录,由于某些原因,我的应用程序必须访问本地文件系统中的这些模型文件。 当然,我知道选项的可以上传文件到每个执行器的工作目录,它确实工作。 但是,我希望保留文件的目录结构,因此我提出了选项,即 但当我实际使用它上传时,我发现纱线只是把它放在那里而没有提取,就像它对
有人能解释一下spark-submit脚本中的和之间的区别吗? 另外,如果依赖项在应用程序中,我是否需要配置?(我这样问是因为我在中更改了版本,而忘记在中更改了它,这使我的应用程序崩溃了)
我在使用以下简单示例时遇到了“ClassNotFound”异常的问题: 在本地模式下,按照文档提交会在第31行生成一个“ClassNotFound”异常,其中ClassToRoundTrip对象被反序列化。奇怪的是,前面28行的使用还可以: 但是,提交给本地开发人员主机仍然会产生相同的问题: 我可以从输出中看到JAR文件正在被执行器提取。 下面是其中一个执行程序的日志:
我试图向spark提交一个jar,但我的jar包含与spark内置jar(snakeyml和其他)冲突的依赖项。 我使用以下命令提交: 但我还是有同样的例外
我正在为Spark Streaming作业构建指标系统,在系统中,指标收集在每个执行程序中,因此需要在每个执行程序中初始化指标源(用于收集指标的类)。 度量源被打包在一个jar中,当提交作业时,jar使用参数'--jars'从本地发送到每个执行器,但是,执行器在jar到达之前开始初始化度量源类,因此,它会抛出类未找到异常。 似乎如果执行者可以等到所有资源都准备好,问题就会得到解决,但我真的不知道该