问题：

Spark应用程序出现“任务不可序列化”错误？

安轶

2023-03-14

以下代码出现“任务不可序列化”错误？

错误

Exception in thread "main" org.apache.spark.SparkException: Task not serializable
        at org.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:298)
        at org.apache.spark.util.ClosureCleaner$.org$apache$spark$util$ClosureCleaner$$clean(ClosureCleaner.scala:288)
        at org.apache.spark.util.ClosureCleaner$.clean(ClosureCleaner.scala:108)
        at org.apache.spark.SparkContext.clean(SparkContext.scala:2101)
        at org.apache.spark.rdd.RDD$$anonfun$map$1.apply(RDD.scala:370)
        at org.apache.spark.rdd.RDD$$anonfun$map$1.apply(RDD.scala:369)
        at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
        at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112)
        at org.apache.spark.rdd.RDD.withScope(RDD.scala:362)
        at org.apache.spark.rdd.RDD.map(RDD.scala:369)
        at ConnTest$.main(main.scala:41)
        at ConnTest.main(main.scala)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(Unknown Source)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(Unknown Source)
        at java.lang.reflect.Method.invoke(Unknown Source)
        at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:743)
        at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:187)
        at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:212)
        at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:126)
        at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
Caused by: java.io.NotSerializableException: DoWork
Serialization stack:
        - object not serializable (class: DoWork, value: DoWork@655621fd)
        - field (class: ConnTest$$anonfun$2, name: doWork$1, type: class DoWork)
        - object (class ConnTest$$anonfun$2, )
        at org.apache.spark.serializer.SerializationDebugger$.improveException(SerializationDebugger.scala:40)
        at org.apache.spark.serializer.JavaSerializationStream.writeObject(JavaSerializer.scala:46)
        at org.apache.spark.serializer.JavaSerializerInstance.serialize(JavaSerializer.scala:100)
        at org.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:295)
        ... 20 more

代码：

object ConnTest extends App {
  override def main(args: scala.Array[String]): Unit = {
    super.main(args)
    val date = args(0)
    val conf = new SparkConf()
    val sc = new SparkContext(conf.setAppName("Test").setMaster("local[*]"))
    val sqlContext = new org.apache.spark.sql.SQLContext(sc)
    val jdbcSqlConn = "jdbc:sqlserver://......;"

    val listJob = new ItemListJob(sqlContext, jdbcSqlConn)
    val list = listJob.run(date).select("id").rdd.map(r => r(0).asInstanceOf[Int]).collect() 
    // It returns about 3000 rows

    val doWork = new DoWork(sqlContext, jdbcSqlConn)
    val processed = sc.parallelize(list).map(d => {
      doWork.run(d, date)
    })
  }
}

class ItemList(sqlContext: org.apache.spark.sql.SQLContext, jdbcSqlConn: String) {
  def run(date: LocalDate) = {
    sqlContext.read.format("jdbc").options(Map(
      "driver" -> "com.microsoft.sqlserver.jdbc.SQLServerDriver",
      "url" -> jdbcSqlConn,
      "dbtable" -> s"dbo.GetList('$date')"
    )).load()
  }
}

class DoWork(sqlContext: org.apache.spark.sql.SQLContext, jdbcSqlConn: String) {
  def run(id: Int, date: LocalDate) = {
    // ...... read the data from database for id, and create a text file
    val data = sqlContext.read.format("jdbc").options(Map(
      "driver" -> "com.microsoft.sqlserver.jdbc.SQLServerDriver",
      "url" -> jdbcSqlConn,
      "dbtable" -> s"someFunction('$id', $date)"
    )).load()
    // .... create a text file with content of data
    (id, date) 
  }
}

更新：

我将. map（）调用更改为以下内容，

val processed = sc.parallelize(dealList).toDF.map(d => {
  doWork.run(d(0).asInstanceOf[Int], rc)
})

现在我得到了错误的答案

Exception in thread "main" java.lang.UnsupportedOperationException: No Encoder found for java.time.LocalDate
- field (class: "java.time.LocalDate", name: "_2")
- root class: "scala.Tuple2"
        at org.apache.spark.sql.catalyst.ScalaReflection$.org$apache$spark$sql$catalyst$ScalaReflection$$serializerFor(ScalaReflection.scala:602)
        at org.apache.spark.sql.catalyst.ScalaReflection$$anonfun$9.apply(ScalaReflection.scala:596)
        at org.apache.spark.sql.catalyst.ScalaReflection$$anonfun$9.apply(ScalaReflection.scala:587)
        at scala.collection.TraversableLike$$anonfun$flatMap$1.apply(TraversableLike.scala:241)
        at scala.collection.TraversableLike$$anonfun$flatMap$1.apply(TraversableLike.scala:241)
        at scala.collection.immutable.List.foreach(List.scala:381)

共有1个答案

梁修贤

2023-03-14

问题在于以下结论：

val processed = sc.parallelize(list).map(d => {
  doWork.run(d, date)
})

map中的闭包将在executors中运行，因此Spark需要序列化doWork并将其发送给executors<代码>工作必须可序列化。然而我看到DoWork包含sc和sqlContext，所以不能只让DoWork实现可序列化，因为不能在执行器中使用它们。

我猜您可能想将数据存储到DoWork中的数据库中。如果是这样，您可以将RDD转换为DataFrame并通过jdbc方法保存它，例如：

sc.parallelize(list).toDF.write.jdbc(...)

我不能给更多的建议，因为你不提供代码在DoWork.

类似资料：

Spark应用程序得到了“任务不可序列化”的错误？

现在我的错误是
Spark Scala：任务不可序列化错误

这给出的错误如下，任何帮助将是感激的：
Spark Shell：任务不可序列化

我对Spark，Scala和Cassandra都是新手。使用Spark，我试图从MySQL获取一些ID。我可以看到在控制台打印的ID。当我试图在每个提取id上运行相同的函数时它给出与例外相同的例外在阅读spark-shell中的Apache spark：“sparkException：Task not serializable”后，我尝试将@transient添加到RDDs中
Scala Spark-任务不可序列化

null 每当我尝试访问sc时，我会得到以下错误。我在这里做错了什么？
Spark上的Redis：任务不可序列化

问题内容：我们在Spark上使用Redis来缓存键值对，这是代码：但是编译器给了我这样的反馈：有人可以告诉我如何序列化从Redis获得的数据。非常感谢。问题答案：在Spark中，s（如此处）上的函数被序列化并发送给执行程序进行处理。这意味着这些操作中包含的所有元素都应该可序列化。 Redis连接不可序列化，因为它打开了到目标DB的TCP连接，该TCP连接已绑定到创建它的机器。解决方案是
使用Spark的奇怪“任务不可序列化”

在我的程序中，我有一个返回一些RDD的方法，我们称它为，它接受一个不可序列化的参数，并让RDD的类型为（我真正的RDD是元组类型，但只包含基元类型）。当我尝试这样的事情时：我得到的。当我用替换（即某个常数）时，它会运行。从序列化跟踪中，它试图序列化，并在那里阻塞，但我仔细检查了我的方法，这个对象从未出现在RDD中。当我试图直接收集的输出时，即我也没有问题。该方法使用获取（本地）值序列

Spark应用程序出现“任务不可序列化”错误？

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档