当前位置: 首页 > 知识库问答 >
问题:

为什么dataproc不识别参数:spark。提交部署模式=集群?

燕实
2023-03-14

我提交一个火花作业到dataproc这样:

gcloud dataproc作业提交spark--cluster=$cluster--region=$region--properties spark。罐。packages=com.google.云spark:spark-bigquery-with-dependencies_2.11:0.19.1,spark。提交deployMode=cluster——类路径。到我的主要的类--jars=path。到罐子--“p”一些“arg”-z“一些其他”arg

但我得到了这个错误:

错误:(gcloud.dataproc.jobs.submit.spark)无法识别的参数:spark。提交部署模式=群集

知道为什么吗?提前感谢您的帮助。

这样可以正常工作(不使用群集模式):

GCloud dataproc作业提交火花-集群=$CLUSTER-区域=$REGION-属性<--plhd-0/>=<--plhd-1/>:火花-大查询-dependencies_2.11:0.19.1-类path.to.my.main.class-罐=path.to.jars--"-p"some_arg"-z"some_other_arg"

共有1个答案

壤驷华辉
2023-03-14

看起来在第一个属性和第二个属性之间有一个空间。要么删除它,要么用引号将它们都括起来。

另一种选择是将其替换为

--packages com.google.cloud.spark:spark-bigquery-with-dependencies_2.11:0.19.1 --properties spark.submit.deployMode=cluster
 类似资料:
  • 我在提供spark.yarn时遇到了一个场景。stagingDir(stagingDir)到spark submit(spark提交)开始失败,它没有给出任何关于根本原因的线索,我花了很长时间才弄清楚这是因为spark.yarn(spark.yarn)。stagingDir参数。为什么spark submit在supply此参数? 在此处查看相关问题以获取更多详细信息 失败的命令: 当我移除火花线

  • 1、成倍提高系统承载能力并降低成本 单机遇到资源瓶颈时,要想支持更大的用户量,一般是优化业务和增加服务器配置。然而这么做只能是杯水车薪,成本巨大并且效果非常有限。 GatewayWorker支持分布式部署,你可以利用多台价格低廉的普通服务器,组成一个庞大的服务器集群,成倍的增加系统承载能力,这不管在资金成本上还是人力成本上都是最划算的方案。 2、提高系统稳定性 单机对外提供服务,则风险很大,服务器

  • 我在Google DataProc集群上运行spark作业。但Spark似乎没有使用集群中所有可用的vCore,如下所示 基于这样和这样的其他一些问题,我已经设置了集群以使用来考虑资源分配的vcpus和内存 但当我提交带有自定义spark标志的作业时,看起来YARN不尊重这些自定义参数,默认使用内存作为资源计算的标准 能帮助某人弄清楚这里发生了什么?

  • 我想验证只有当另外两个输入为空时才需要输入。所以我使用required_without_all验证规则。 根据Laravel 5.4文件要求,无需所有: 只有当所有其他指定字段都不存在时,验证中的字段才必须存在且不为空。 然而,我认为我不知道现在是什么意思,因为我认为这意味着输入必须被填充。 当我在用户名为空的情况下运行测试时,无论firstname和lastname输入是否为空,它都会返回以下错

  • 当我使用jsonschemavalidator测试验证时,模式如下: 和输入如下: 验证失败

  • 一、作业提交 1.1 spark-submit Spark 所有模式均使用 spark-submit 命令提交作业,其格式如下: ./bin/spark-submit \ --class <main-class> \ # 应用程序主入口类 --master <master-url> \ # 集群的 Master Url --deploy-mode <deplo