问题：

在Spark中使用自定义项时出现任务序列化错误

楚望

2023-03-14

当我创建如上图所示的UDF函数时，我得到任务序列化错误。只有在使用spark-submit在集群部署模式下运行代码时，才会出现此错误。然而，它在Spark-Shell中运行良好。

import org.apache.spark.sql.expressions.Window
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._
import scala.collection.mutable.WrappedArray

def mfnURL(arr: WrappedArray[String]): String = {
  val filterArr = arr.filterNot(_ == null)
  if (filterArr.length == 0)
    return null
  else {
    filterArr.groupBy(identity).maxBy(_._2.size)._1
  }
}

val mfnURLUDF = udf(mfnURL _)

def windowSpec = Window.partitionBy("nodeId", "url", "typology")                                                     
val result = df.withColumn("count", count("url").over(windowSpec))
  .orderBy($"count".desc)                                                                                            
  .groupBy("nodeId","typology")                                                                                      
  .agg(
  first("url"),
  mfnURLUDF(collect_list("source_url")),
  min("minTimestamp"),
  max("maxTimestamp")
)

我尝试添加spark.udf.register（“mfnURLUDF”，mfnURLUDF)，但没有解决问题。

共有1个答案

柳梓

2023-03-14

您还可以尝试通过以下方式创建udf：

val mfnURL = udf { arr: WrappedArray[String] =>
  val filterArr = arr.filterNot(_ == null)
  if (filterArr.length == 0)
    return null
  else {
    filterArr.groupBy(identity).maxBy(_._2.size)._1
  }
}

类似资料：

在Spark Scala中使用自定义数据帧类时任务不可序列化

我在Scala/Spark（1.5）和齐柏林飞艇上遇到了一个奇怪的问题：如果我运行以下Scala/Spark代码，它将正常运行：但是，在声明了此处建议的自定义数据帧类型之后使用它的例子如下：这次运行成功。现在如果我再次运行下面的代码（同上）我收到了错误信息： rdd:org。阿帕奇。火花rdd。RDD[Int]=ParallelCollectionRDD[8]位于parallelize
Spark应用程序出现“任务不可序列化”错误？

以下代码出现“任务不可序列化”错误？错误代码：更新：我将调用更改为以下内容，现在我得到了错误的答案
使用自定义序列化方法序列化泛型对象时出现JsonMappingException

我在序列化Jackson中的泛型对象时遇到问题。我已经找到了一个解决方法，但我仍然不知道为什么我原来的解决方案不起作用。以下是我的设置：以下是我当前用于序列化方法的代码：以下是应该起作用但不起作用的：对于第二种情况，我得到了以下例外：这是什么原因？从ClassB中的类型规范可以清楚地看出，列表中只能使用ParamClass，不能使用BaseParamClass。我错过什么了吗？
Spark Scala：任务不可序列化错误

这给出的错误如下，任何帮助将是感激的：
JSON Jackson-使用自定义序列化器序列化多态类时出现异常

我目前正在将一些代码从Jackson1.x迁移到Jackson2.5json映射器，遇到了一个1.x中没有的问题。这是设置（参见下面的代码）：接口IPET 类Dog实现IPET IPET使用@jsonTypeInfo和@jsonSubtypes进行注释类Human具有一个类型为IPet的属性，该属性使用@JSONSerialize(using=CustompetSerializer.clas
无法在Spark上序列化任务

我有一个这样的转变： Pageview是一种：Pageview。JAVA 我在Spark上注册了这样的课程：异常线程"main"org.apache.spark.SparkExctive：任务不能在org.apache.spark.util.ClosureCleaner$. ensureSerializable（ClosureCleaner.scala:166）在org.apache.spark

在Spark中使用自定义项时出现任务序列化错误

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档