我在一个VM中安装了Spark1.6(使用gettyimages Docker映像),我想连接到它。
我的Spark应用程序使用Cassandra,如果我使用setmaster(“local[2]”)
运行它,它将运行得非常好。但是,如果我选择setmaster(Spark://localhost:7077)
(localhost在这里是我的Spark master的“地址”),它将崩溃
java.lang.IllegalStateException: unread block data
libraryDependencies ++= Seq(
"com.datastax.spark" %% "spark-cassandra-connector" % "1.6.0-M1"
)
例如,将Spark Cassandra连接器添加到上下文中。但是,当使用sbt时,jar文件并不在我的存储库中。另一方面,addjar(...)
需要jar文件的路径。
解决这个问题的最佳方法是什么?
请查看有关高级依赖关系管理的文档。基本上,您对spark-submit
使用--packages
命令行选项,它可以完成您想要的任务
交互模式 在根目录中运行 sbt 命令不带任何参数将进入交互模式 $ sbt 交互模式有一个命令输入功能(可以用 Tab 补全和历史命令), 例如,当输入 compile 时: > compile 如果再次编译只需按 向上键 + 回车键 如果运行该项目输入 run 如果退出交互模式输入 exit 或用快捷键 Ctrl+D(Unix) 或 Ctrl+Z(Windows) 批量脚本模式 你也可以在批量
本地运行模式 本地运行模式主要用于测试功能是否正确。目前本地运行模式仅支持一个Worker(可以有多个Task)和一个PS。可以通过配置选项angel.deploy.mode来使用本地运行模式,具体的参数配置可参考Angel系统参数 1. 运行环境准备 Java >= 1.8 Angel发布包 angel-\-bin.zip 配置好HADOOP_HOME和JAVA_HOME环境变量,解压Angel
我已经在我的Windows7机器上设置了一个本地spark集群(一个主节点和辅助节点)。我已经创建了一个简单的scala脚本,我用sbt构建了这个脚本,并尝试用Spark-Submit运行这个脚本。请参阅以下资源 Scala代码: 现在,我用sbt构建并打包scala代码,并将其打包到一个JAR中。我的build.sbt文件如下所示 它创建一个jar,我使用spark submit命令提交它,如下
我们已经为spark编写了单元测试,在本地模式下有4个线程。 当一个接一个地启动时,例如通过intellij或sbt testOnly,每个测试都运行良好。 当用sbt测试启动时,它们会出现如下错误 我们使用的是一个带有多个子项目的sbt项目,其定义如下: