使用spark submit运行spark作业时的

东方灵均

2023-03-14

我试图运行火花作业，基本上加载数据在卡桑德拉表。但它也产生了以下错误。

共有1个答案

麹鸿煊

2023-03-14

您的群集中有SCC的混合版本。本地的JAR有一个CassandraRDD的定义，而远程的JAR有一个不同的版本。强烈建议不要将JAR复制到spark worker目录中，因为很容易犯这种错误。使用--packages命令并允许spark分发资源要简单得多。

/home/user/BigData/jars/spark-cassandra-connector_2.11-2.0.0-RC1.jar,/home/user/BigData/jars/spark-cassandra-connector-java_2.10-1.6.0-M1.jar

很可能是罪魁祸首，因为您不仅组合了2个不同版本的连接器，它们也是两个不同版本的Spark。在1.6.0之后，所有的“java”模块都被合并到核心模块中，因此不需要-java工件。此外，RC1并不是连接器的发布版本（版本候选1)，您应该使用2.0.2这是截至本文的最新版本。

类似资料：

Spark作业长时间运行，数据太少

我在Master上运行了一个如下所示的spark代码：我的集群配置：独立/客户机模式下的3个节点（1个主+2个从）我尝试添加一个新的集群，因为上面搜索的关于资源不足的错误，但是这个错误在伸缩时仍然存在。是因为节点中的内存较少吗？？这里有什么建议吗？？
无法使用Cassandra驱动程序运行Spark作业

Build.Gradle 分级。性质例外情况：代码：有人知道怎么修吗？
如何并行运行多个Spark作业？

一个spark有一个oracle查询。所以我必须并行运行多个作业，以便所有查询都将同时激发。如何并行运行多个作业？
Spark 运行模式与作业提交

一、作业提交 1.1 spark-submit Spark 所有模式均使用 spark-submit 命令提交作业，其格式如下： ./bin/spark-submit \ --class <main-class> \ # 应用程序主入口类 --master <master-url> \ # 集群的 Master Url --deploy-mode <deplo
Spark-java多线程与运行单个spark作业

-第一种方法所有的查询都可以存储在一个配置单元表中，我可以编写一个Spark驱动程序来一次读取所有查询，并使用java多线程并行运行所有查询（与HiveContext一起优点：易于维护缺点：可能会占用所有资源，并且对每个查询进行性能优化可能会很困难。使用oozie spark操作单独运行每个查询优点：可以在查询级别进行优化缺点：难以维护。我找不到任何关于第一种方法的文档，说明Spar
运行Spark流作业时出现序列化问题

无法解决以下由）触发的序列化问题。我认为可以解决序列化问题，但事实并非如此。那么，如何使用？我假设变量和是不可序列化的，但是我如何正确地序列化它们，以便代码能够在集群上工作，而不仅仅是在本地工作呢？上面显示的代码抛出错误：

使用spark submit运行spark作业时的

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档