问题：

如何将数据聚合到范围（存储桶大小）中？

尉迟兴修

2023-03-14

我有一张桌子，比如

+---------------+------+
|id             | value|
+---------------+------+
|               1|118.0|
|               2|109.0|
|               3|113.0|
|               4| 82.0|
|               5| 60.0|
|               6|111.0|
|               7|107.0|
|               8| 84.0|
|               9| 91.0|
|              10|118.0|
+---------------+------+

as 希望将值聚合或将值条柱到 0，10，20，30，40 的范围内,...80，90，100，110，120如何在SQL或更具体的spark sql中执行此操作？

目前我有一个侧视图，但这看起来相当笨拙/低效。

分位数离散化并不是我真正想要的，而是这个范围的CUT。

https://github.com/collectivemedia/spark-ext/blob/master/sparkext-mllib/src/main/scala/org/apache/spark/ml/feature/Binning.scala 将执行动态条柱，但我宁愿需要这个指定的范围。

共有2个答案

西门伟

2023-03-14

尝试使用此“分组依据”

SELECT id, (value DIV 10)*10 FROM table_name ;

以下将使用Scala的数据集API：

df.select(('value divide 10).cast("int")*10)

华季萌

2023-03-14

一般情况下，可以使用org . Apache . spark . ml . feature . bucket izer执行静态宁滨:

val df = Seq(
  (1, 118.0), (2, 109.0), (3, 113.0), (4, 82.0), (5, 60.0),
  (6, 111.0), (7, 107.0), (8,  84.0), (9, 91.0), (10, 118.0)
).toDF("id", "value")

val splits = (0 to 12).map(_ * 10.0).toArray

import org.apache.spark.ml.feature.Bucketizer
val bucketizer = new Bucketizer()
  .setInputCol("value")
  .setOutputCol("bucket")
  .setSplits(splits)

val bucketed = bucketizer.transform(df)

val solution = bucketed.groupBy($"bucket").agg(count($"id") as "count")

结果：

scala> solution.show
+------+-----+
|bucket|count|
+------+-----+
|   8.0|    2|
|  11.0|    4|
|  10.0|    2|
|   6.0|    1|
|   9.0|    1|
+------+-----+

当值位于定义的箱之外时，桶化器会抛出错误。可以将分割点定义为Double.NegativeInfinity或Double.PositiveInfinity来捕获异常值。

＜code＞Bucketizer＜/code＞设计用于通过执行右bucket的二进制搜索来有效地处理任意拆分。对于像您这样的普通垃圾箱，您可以简单地执行以下操作：

val binned = df.withColumn("bucket", (($"value" - bin_min) / bin_width) cast "int")

其中< code>bin_min和< code>bin_width分别是最小bin的左区间和bin宽度。

如何将数据聚合到范围（存储桶大小）中？

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档