当前位置: 首页 > 知识库问答 >
问题:

如何在没有Spark-Shell的情况下从AWS控制台运行Spark jar文件

吕胤
2023-03-14

我试图在AWS EMR控制台(Amazon Web Services)上运行一个Spark应用程序。我在jar中编译的Scala脚本将SparkConf设置作为参数或字符串:

val sparkConf = new SparkConf()
  .setAppName("WikipediaGraphXPageRank")
  .setMaster(args(1))
  .set("spark.executor.memory","1g")
  .registerKryoClasses(Array(classOf[PRVertex], classOf[PRMessage]))

但是,我不知道如何在上传和设置集群时将Master-URL参数和其他参数传递给jar。明确地说,我知道如果我在运行Spark-Shell,我会用另一种方法来完成,但我是一个Windows用户,根据当前的设置和我所做的工作,在“步骤”中将主URL传递给EMR集群将非常有用。

我不想使用Spark-Shell,我有一个很近的最后期限,并且所有的事情都是这样设置的,考虑到AWS有一个在EMR上运行独立Spark应用程序的指南,我觉得只有将主URL作为参数传递这个小问题应该是可能的。

帮助将不胜感激!

共有1个答案

孙正业
2023-03-14

以下是使用spark-submit via EMR步骤的说明:https://github.com/awslabs/emr-bootstrap-actions/blob/master/spark/examples/spark-submit-via-step.md

 类似资料:
  • 我正在使用Cucumber for BDD、JUnit和Selenium构建一个自动化框架,我们在云中有一个testrail实例用于测试管理,我实现了testrail API以从那里获取所有测试用例,问题是我无法运行这些步骤获取测试用例,因为总是验证第一个功能文件是否存在。 我尝试过结果总是一样的: 在[classpath:features] 0场景0步骤0m0.019s中找不到功能 这是启动该过

  • 文档说这个库运行在GPU上。如果我功能强大的笔记本电脑没有GPU,我还能运行Deeplearning4J吗?

  • 我们是否需要internet连接才能从AWS的实例中使用AWS Java SDK? 从我最初的调查发现,我看到要从Amazon的这个实例运行基于AWS Java SDK的Java程序,该实例需要具有internet连接。 运行AWS Java SDK附带的示例程序AwsConsoleApp,我看到以下错误: [javac]/home/ubuntu/aws-java-sdk-1.8.9.1/samp

  • 我只需要"解除屏蔽"我的终端后...有一些选项或setpup为它? 注意:我的服务正在使用,因此假设不需要在命令行上使用。 PS:我需要保持容器运行,我不需要使用

  • 我有一个Spring boot项目,它有使用kafka进行日志记录的依赖项。我无法摆脱所述依赖项,因为我的逻辑需要来自该依赖项的代码 我已尝试禁用自动配置 我尝试通过bean配置将missingTopicsFatal设置为false 但很明显,设置已经是假的,因为我的应用程序运行时没有失败,只是tomcat不想打开侦听端口 应用程序启动,但spring拒绝打开侦听端口,并继续使用错误进行循环 在本