问题：

ApacheSpark-java。lang.NoClassDefFoundError

邰宇

2023-03-14

我有一个基于maven的scala/java混合应用程序，可以提交spar作业。我的应用程序jar“myapp.jar”在lib文件夹中有一些嵌套的jar。其中之一是“common.jar”。我在清单文件中定义了类路径属性，比如类路径：lib/common。jar。Spark executor抛出java。lang.NoClassDefFoundError:com/myapp/common/myclass在客户端模式下提交应用程序时出错。类（com/myapp/common/myclass.Class）和jar（common.jar）在那里，并嵌套在我的主myapp中。罐子Fat jar是使用spring boot maven插件创建的，该插件将其他jar嵌套在父jar的lib文件夹中。我不喜欢创建带阴影的平罐，因为那样会产生其他问题。spark executor jvm可以在这里加载嵌套JAR吗？

EditSpark（jvm类加载器）可以在myapp中找到所有平坦的类。罐子本身。i、 e.com/myapp/abc。类，com/myapp/xyz。班级等等。

EDIT2 spark executor classloader也可以从嵌套jar中找到一些类，但它会在同一个嵌套jar中抛出NoClassDefFoundError和其他一些类！以下是错误：

Caused by: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 4 times, most recent failure: Lost task 0.3 in stage 0.0 (TID 3, host4.local): java.lang.NoClassDefFoundError: com/myapp/common/myclass
    at com.myapp.UserProfileRDD$.parse(UserProfileRDDInit.scala:111)
    at com.myapp.UserProfileRDDInit$$anonfun$generateUserProfileRDD$1.apply(UserProfileRDDInit.scala:87)
    at com.myapp.UserProfileRDDInit$$anonfun$generateUserProfileRDD$1.applyUserProfileRDDInit.scala:87)
    at scala.collection.Iterator$$anon$11.next(Iterator.scala:328)
    at org.apache.spark.storage.MemoryStore.unrollSafely(MemoryStore.scala:249)
    at org.apache.spark.CacheManager.putInBlockManager(CacheManager.scala:172)
    at org.apache.spark.CacheManager.getOrCompute(CacheManager.scala:79)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:242)
    at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:61)
    at org.apache.spark.scheduler.Task.run(Task.scala:64)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:203)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
    at java.lang.Thread.run(Thread.java:744)
Caused by: java.lang.ClassNotFoundException: 
com.myapp.common.myclass
    at java.net.URLClassLoader$1.run(URLClassLoader.java:366)
    at java.net.URLClassLoader$1.run(URLClassLoader.java:355)
    at java.security.AccessController.doPrivileged(Native Method)
    at java.net.URLClassLoader.findClass(URLClassLoader.java:354)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:425)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:358)
    ... 14 more

我提交myapp.jar与斯派克Conf.setJar（字符串[]{"myapp.jar"}），并尝试将其设置在spark.yarn.executor.extraClassPath

编辑3作为解决方法，我提取了myapp。jar和setsparkConf。setJar（String[]{“myapp.jar”，“lib/common.jar”}）手动执行，错误消失了，但显然我必须对所有嵌套的jar执行此操作，这是不可取的。

共有1个答案

柳和怡

2023-03-14

在启动Spark应用程序时，可以使用--jars选项给出以逗号分隔的jar列表。

像这样的东西

spark-submit --jars lib/abc.jar,lib/xyz.jar --class <CLASSNAME> myapp.jar

类似资料：

ApacheSpark-生成配对列表

给定一个包含以下格式数据的大文件（V1，V2，…，VN）我正在尝试使用Spark获得一个类似于下面的配对列表我尝试了针对一个较旧的问题所提到的建议，但我遇到了一些问题。例如，我得到了错误，有人能告诉我哪些地方我可能做得不对，或者有什么更好的方法可以达到同样的效果？非常感谢。
ApacheSpark：成对的RDD示例

我有一个项目的RDD，还有一个函数。收集RDD的两个小样本，然后这两个数组。这很好，但无法扩展。有什么想法吗？谢谢编辑：下面是如何压缩每个分区中具有不同项数的两个示例：关键是，虽然RDD的. zip方法不接受大小不等的分区，但迭代器的. zip方法接受（并丢弃较长迭代器的剩余部分）。
apachespark中的递归方法调用

我正在ApacheSpark上的数据库中构建一个族谱，使用递归搜索来查找数据库中每个人的最终父级（即族谱顶部的人）。假设搜索id时返回的第一个人是正确的家长它给出以下错误 “原因：org.apache.spark.SparkException:RDD转换和操作只能由驱动程序调用，不能在其他转换中调用；例如，
ApacheSpark：用户内存vs Spark内存

我正在构建一个Spark应用程序，我必须在其中缓存大约15GB的CSV文件。我在这里读到了Spark 1.6中引入的新： https://0x0fff.com/spark-memory-management/ 作者在和之间有所不同（火花内存又分为）。正如我所了解的，Spark内存对于执行（洗牌、排序等）和存储（缓存）东西是灵活的——如果一个需要更多内存，它可以从另一个部分使用它（如果尚未完全使用）
在ApacheSpark中广播外部库对象

我试图在火花笔记本的阿帕奇火花中做NLP。对于这个特定的例子，我正在使用库https://opennlp.apache.org创建一个块来提取名词短语。由于数据量的增加，我需要转向分布式计算。问题是我无法广播我的chunker对象。通过阅读文档（只在board上投射数组等简单对象），我尝试了以下方法：但这会引发以下错误：如果我将chunker的初始化封装在函数中，然后在map方法中调用函数，
使用ApacheSpark和kfaka的实时数据库流

我正在用Kafka设计一个spark流媒体应用程序。我有以下几个问题：我正在将数据从RDBMS表流式传输到kafka，并使用Spark consumer来使用消息，并使用Spark-SQL进行处理问题：1。我将数据从表中流式传输到kafka as（键作为表名，值作为JSON记录形式的表数据）——这是正确的体系结构吗？这种数据库流的架构和设计是否正常，我如何解决转换问题中的转换？你好Piyus

ApacheSpark-java。lang.NoClassDefFoundError

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档