问题：

Spark 2.0数据集与数据帧

强志学

2023-03-14

null

为什么要使用UDF/UADF而不是map（假设map保留在数据集表示中）？

共有1个答案

顾斌

2023-03-14

df.select（“foo”）和df.select（$“foo”）之间的区别是签名。前者至少使用一个字符串,后者使用零个或多个列。除此之外没有任何实际区别。

mydataset.map（foo.someval)类型检查，但由于任何dataset操作都使用对象的rdd操作，并且与dataframe操作相比，会产生很大的开销。我们来看一个简单的例子：

case class FooBar(foo: Int, bar: String)
val ds = Seq(FooBar(1, "x")).toDS
ds.map(_.foo).explain

== Physical Plan ==
*SerializeFromObject [input[0, int, true] AS value#123]
+- *MapElements <function1>, obj#122: int
   +- *DeserializeToObject newInstance(class $line67.$read$$iw$$iw$FooBar), obj#121: $line67.$read$$iw$$iw$FooBar
      +- LocalTableScan [foo#117, bar#118]

如您所见，此执行计划要求访问所有字段，并且必须deserializeObject。

不是。通常，其他方法不是语法糖，并且生成一个显著不同的执行计划。例如：

ds.select($"foo").explain

== Physical Plan ==
LocalTableScan [foo#117]

如果没有map语句，我怎么可能df.select（“foo”）类型安全？

没有这样的选择。虽然类型化列允许您将静态数据集转换为另一个静态类型化数据集:

ds.select($"bar".as[Int])

没有类型安全。还有一些其他尝试包括类型安全优化操作，比如类型化聚合，但是这个实验API。

这完全取决于你。Spark中的每个分布式数据结构都有自己的优点和缺点（例如，请参见Spark UDAF将ArrayType作为bufferSchema的性能问题）。

就我个人而言，我认为静态类型的dataset是最不有用的：

不提供与dataset[Row]相同的优化范围（尽管它们共享存储格式和某些执行计划优化，但它不能完全受益于代码生成或离堆存储），也不能访问dataframe的所有分析功能。

ds.groupBy("foo").agg(sum($"bar") as "bar").as[FooBar].filter(x => true).where($"foo" === 1).explain

== Physical Plan ==
*Filter (foo#133 = 1)
+- *Filter <function1>.apply
   +- *HashAggregate(keys=[foo#133], functions=[sum(cast(bar#134 as double))])
      +- Exchange hashpartitioning(foo#133, 200)
         +- *HashAggregate(keys=[foo#133], functions=[partial_sum(cast(bar#134 as double))])
            +- LocalTableScan [foo#133, bar#134]

ds.groupBy("foo").agg(sum($"bar") as "bar").as[FooBar].where($"foo" === 1).explain

== Physical Plan ==
*HashAggregate(keys=[foo#133], functions=[sum(cast(bar#134 as double))])
+- Exchange hashpartitioning(foo#133, 200)
   +- *HashAggregate(keys=[foo#133], functions=[partial_sum(cast(bar#134 as double))])
      +- *Filter (foo#133 = 1)
         +- LocalTableScan [foo#133, bar#134]

这会影响谓词下推或投影下推等功能。

它不像RDDS那样灵活，只有一小部分本机支持的类型。

Spark 2.0数据集与数据帧

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档