问题：

在AWS EMR上运行Spark应用程序

吕俊哲

2023-03-14

我试图在AWS EMR上运行一个Spark应用程序。我遵循http://blogs.aws.amazon.com/bigdata/post/tx15ay5c50k70rv/installing-apache-spark-on-an-amazon-emr-cluster的说明

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/rdd/RDD
  at SparkCCF.main(SparkCCF.scala)
  at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
  at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
  at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
  at java.lang.reflect.Method.invoke(Method.java:606)
  at org.apache.hadoop.util.RunJar.main(RunJar.java:212)
Caused by: java.lang.ClassNotFoundException: org.apache.spark.rdd.RDD
  at java.net.URLClassLoader$1.run(URLClassLoader.java:366)
  at java.net.URLClassLoader$1.run(URLClassLoader.java:355)
  at java.security.AccessController.doPrivileged(Native Method)
  at java.net.URLClassLoader.findClass(URLClassLoader.java:354)
  at java.lang.ClassLoader.loadClass(ClassLoader.java:425)
  at java.lang.ClassLoader.loadClass(ClassLoader.java:358)
  ... 6 more

我从S3中加载fat-jar（通过执行“SBT Assembly”获得）和应用程序所需的输入文件。我在Spark-1.1.0版本上构建了我的应用程序。EMR集群在AMI3.2.1和Hadoop2.4上。

我们需要使用“为Hadoop2.4预构建”来构建Spark应用程序还是只使用Spark-1.1.0就可以了？

共有1个答案

柳培

2023-03-14

UC-AMP实验室的说明更好一点。

https://github.com/amplab/spark-EC2#自述文件

类似资料：

使用spark submit运行spark应用程序

我是Spark的新手。我有一个应用程序，通过调用spark shell来运行每个spark sql查询。因此，它将生成一组如下所示的查询，并调用spark shell命令逐个处理这些查询。 Val Query=spark.sql（""SELECT userid as userid，评级为评级，电影为电影从default.movie表""）；现在我想用spark submit而不是spark sh
停止正在运行的Spark应用程序

我正在以独立模式运行Spark群集。我已使用以下选项提交了群集模式下的Spark应用程序：使作业具有容错性。现在我需要保持集群运行但停止应用程序运行。我尝试过的事情：停止集群并重新启动它。但是当我这样做时，应用程序会恢复执行。使用了名为DriverWrapper的守护进程的Kill-9，但之后工作再次恢复。我还删除了临时文件和目录并重新启动了集群，但作业再次恢复。所以正在运行的应用
无法在Mesos集群上使用应用程序jar运行spark-submit

Mesosphere在简化Mesos上运行Spark的过程方面做了很大的工作。我正在使用本指南在Google Cloud Compute上建立一个开发Mesos集群。 https://mesosphere.com/docs/tutorials/run-spark-on-mesos/ 我可以使用运行指南中的示例（查找小于10的数字）。但是，当我试图在本地提交一个与Spark一起正常工作的应用程序时，
在kubernetes上运行spark

我已经安装了火花图表在我的k8s集群掌舵，我有3个豆荚运行1个主和2个执行，但仍然能够提交火花作业...在“提交应用程序”一节https://github.com/bitnami/charts/tree/master/bitnami/spark中提到我们可以使用。/bin/spark-submit--class org.apache.spark.examples.sparkpi--master s
在yarn上运行Spark

配置大部分为Spark on YARN模式提供的配置与其它部署模式提供的配置相同。下面这些是为Spark on YARN模式提供的配置。 Spark属性 Property Name Default Meaning spark.yarn.applicationMaster.waitTries 10 ApplicationMaster等待Spark master的次数以及SparkContext初始
如何终止正在运行的Spark应用程序？

我有一个正在运行的Spark应用程序，它占据了所有核心，而我的其他应用程序将不会被分配任何资源。我做了一些快速的研究，人们建议使用YARN kill或 /bin/spark-class来杀死命令。然而，我使用的是CDH版本， /bin/spark-class根本不存在，YARN kill应用程序也不起作用。有人能和我一起吗？

在AWS EMR上运行Spark应用程序

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档