当前位置: 首页 > 知识库问答 >
问题:

使用spark submit运行spark作业时的

东方灵均
2023-03-14

我试图运行火花作业,基本上加载数据在卡桑德拉表。但它也产生了以下错误。

共有1个答案

麹鸿煊
2023-03-14

您的群集中有SCC的混合版本。本地的JAR有一个CassandraRDD的定义,而远程的JAR有一个不同的版本。强烈建议不要将JAR复制到spark worker目录中,因为很容易犯这种错误。使用--packages命令并允许spark分发资源要简单得多。

/home/user/BigData/jars/spark-cassandra-connector_2.11-2.0.0-RC1.jar,/home/user/BigData/jars/spark-cassandra-connector-java_2.10-1.6.0-M1.jar

很可能是罪魁祸首,因为您不仅组合了2个不同版本的连接器,它们也是两个不同版本的Spark。在1.6.0之后,所有的“java”模块都被合并到核心模块中,因此不需要-java工件。此外,RC1并不是连接器的发布版本(版本候选1),您应该使用2.0.2这是截至本文的最新版本。

 类似资料:
  • 我在Master上运行了一个如下所示的spark代码: 我的集群配置:独立/客户机模式下的3个节点(1个主+2个从) 我尝试添加一个新的集群,因为上面搜索的关于资源不足的错误,但是这个错误在伸缩时仍然存在。 是因为节点中的内存较少吗??这里有什么建议吗??

  • Build.Gradle 分级。性质 例外情况: 代码: 有人知道怎么修吗?

  • 一个spark有一个oracle查询。所以我必须并行运行多个作业,以便所有查询都将同时激发。 如何并行运行多个作业?

  • 一、作业提交 1.1 spark-submit Spark 所有模式均使用 spark-submit 命令提交作业,其格式如下: ./bin/spark-submit \ --class <main-class> \ # 应用程序主入口类 --master <master-url> \ # 集群的 Master Url --deploy-mode <deplo

  • -第一种方法 所有的查询都可以存储在一个配置单元表中,我可以编写一个Spark驱动程序来一次读取所有查询,并使用java多线程并行运行所有查询(与HiveContext一起 优点:易于维护 缺点:可能会占用所有资源,并且对每个查询进行性能优化可能会很困难。 使用oozie spark操作单独运行每个查询 优点:可以在查询级别进行优化 缺点:难以维护。 我找不到任何关于第一种方法的文档,说明Spar

  • 无法解决以下由)触发的序列化问题。我认为可以解决序列化问题,但事实并非如此。那么,如何使用? 我假设变量和是不可序列化的,但是我如何正确地序列化它们,以便代码能够在集群上工作,而不仅仅是在本地工作呢? 上面显示的代码抛出错误: