问题:
假设我的映射器可以是内部调用其他类并创建对象并在内部执行其他操作的函数(def)。(或者它们甚至可以是扩展(Foo)=>
Bar并在其apply方法中进行处理的类-但现在让我们忽略这种情况)
Spark仅支持Java序列化闭包。有什么办法吗?我们可以用某些东西代替闭包来做我想做的事吗?我们可以使用Hadoop轻松完成此类工作。这件事使Spark对我几乎无法使用。不能期望所有第三方库都具有所有扩展可序列化的类!
可能的解决方案:
像这样的事情似乎有用吗:https
:
//github.com/amplab/shark/blob/master/src/main/scala/shark/execution/serialization/KryoSerializationWrapper.scala
看起来包装似乎是答案,但我不知道具体如何。
我自己想办法了!
您只需要在通过闭包之前对对象进行序列化,然后再进行反序列化即可。即使您的课程不是可序列化的,这种方法也行得通,因为它在后台使用了Kryo。您只需要一些咖喱。;)
这是我如何做的一个例子:
def genMapper(kryoWrapper: KryoSerializationWrapper[(Foo => Bar)])
(foo: Foo) : Bar = {
kryoWrapper.value.apply(foo)
}
val mapper = genMapper(KryoSerializationWrapper(new Blah(abc))) _
rdd.flatMap(mapper).collectAsMap()
object Blah(abc: ABC) extends (Foo => Bar) {
def apply(foo: Foo) : Bar = { //This is the real function }
}
随意使Blah变得很复杂,包括类,伴随对象,嵌套类,对多个3rd party库的引用。
KryoSerializationWrapper指的是:https
:
//github.com/amplab/shark/blob/master/src/main/scala/shark/execution/serialization/KryoSerializationWrapper.scala
看看这个问题:Scala Spark-任务不可序列化:java.io.NotSerializableExceptionon。当调用函数外部闭包只对类不是对象。 问题: 假设我的映射器可以是函数(def),在内部调用其他类,创建对象,并在内部执行不同的操作。(或者它们甚至可以是扩展的类(Foo)= Spark仅支持闭包的Java序列化。有办法解决这个问题吗?我们可以用某物代替闭包来做我想做的事情吗?
在闭包外调用函数时出现奇怪行为: 当函数在一个对象中时,一切都在运行 当函数位于类get中时: 任务不可序列化:java。伊奥。NotSerializableException:测试 问题是我需要我的代码在一个类中,而不是一个对象。知道为什么会发生这种情况吗?Scala对象是序列化的吗?)? 这是一个工作代码示例: 这是一个不起作用的例子:
我有代码: 年级4.5.1对此警告为 但是link没有给我任何可以替换它的提示,因为我不能仅仅设置任务依赖项,比如dependsOn或FinalizdBy--它不是从其他任务调用的,而是从构建的末尾调用的。
我有一个行的RDD,我想基于闭包进行过滤。最终,我想将闭包作为参数传递给正在进行过滤器的方法,但我已经简化了它,我可以用这样简单的东西重现错误。 我尝试将fn放入一个case对象中,这个对象扩展了一个可序列化的特性,在调用过滤器的方法的内部和外部定义了fn。我正在努力弄清楚我需要做什么,而不会出现这些错误。我知道在堆栈溢出上已经有很多关于这个的问题,我一直在寻找一个合适的答案,但我找不到。 更新:
我对Spark,Scala和Cassandra都是新手。使用Spark,我试图从MySQL获取一些ID。 我可以看到在控制台打印的ID。 当我试图在每个提取id上运行相同的函数时 它给出与例外相同的例外 在阅读spark-shell中的Apache spark:“sparkException:Task not serializable”后,我尝试将@transient添加到RDDs中
null 每当我尝试访问sc时,我会得到以下错误。我在这里做错了什么?