问题：

火花：删除所有重复的行

戚学

2023-03-14

我有一个数据集DS，如下所示：

ds.show():

id1 | id2 | id3 | value  |
1   | 1   | 2   | tom    |
1   | 1   | 2   | tim    |
1   | 3   | 2   | tom    |
1   | 3   | 2   | tom    |
2   | 1   | 2   | mary   |

id1 | id2 | id3 | value  |
1   | 3   | 2   | tom    |
2   | 1   | 2   | mary   |

ds.groupBy(id1,id2,id3).distinct()

但不管用。

共有1个答案

锺离辰沛

2023-03-14

您可以将窗口函数与过滤器一起用于计数

val df = Seq(
  (1, 1, 2, "tom"),
  (1, 1, 2, "tim"),
  (1, 3, 2, "tom"),
  (2, 1, 2, "mary")
).toDF("id1", "id2", "id3", "value")

val window = Window.partitionBy("id1", "id2", "id3")

df.withColumn("count", count("value").over(window))
  .filter($"count" < 2)
  .drop("count")
  .show(false)

产出：

+---+---+---+-----+
|id1|id2|id3|value|
+---+---+---+-----+
|1  |3  |2  |tom  |
|2  |1  |2  |mary |
+---+---+---+-----+

类似资料：

删除除MySQL中所有重复行以外的所有重复行？[重复]

问题内容：这个问题已经在这里有了答案：在MySQL中删除重复的行（25个答案） 3个月前关闭。如何从MySQL表中删除所有重复数据？例如，具有以下数据：我会使用，如果它是一个查询。我该怎么做才能只删除重复项并仅保留每个记录一个？问题答案：编辑者警告：此解决方案的计算效率低下，可能会降低大型表的连接。注意：您需要首先在表的测试副本上执行此操作！完成此操作后，我发现，除
删除除一行以外的所有重复值

问题内容：我有三列的表：，和有重复的字段。我想删除所有具有相同的行为别人，除了对最近更新的一个。因此，如果表包含这些行：然后，我只想保留这些行：您如何在SQL中做到这一点？我想象会从具有重复值的行中删除单个random（？）行，但是如何使其除最近更新的行之外的所有行删除呢？问题答案：您可以使用左联接来执行此操作：这意味着对于每一行，它会寻找更新日期最近的另一行，如果有更新日
在Excel-VBA中删除所有重复的行

我需要删除所有行而不留下任何唯一记录。如果存在重复，则删除所有匹配的行。Criteria是C列，如果C列中存在任何重复记录，则删除整行（包括unique）。
删除每个值相同的所有行[重复]

我想通过删除所有具有相同值的行，但无法获取。
删除除MySQL中的一个以外的所有重复行？

问题内容：如何从MySQL表中删除所有重复数据？例如，具有以下数据：我会使用，如果它是一个查询。我该怎么做才能只删除重复项并仅保留每个记录一个？问题答案：编辑者警告：此解决方案的计算效率低下，可能会降低大型表的连接。注意：您需要首先在表的测试副本上执行此操作！完成此操作后，我发现，除非也包含，否则它将删除表中的每一行。如果要使行的值保持最低，请执行以下操作：如果要保留最
使用火花从csv文件中删除所有特殊字符

如何使用java spark从spark数据帧中删除csv文件中的所有特殊字符例如：以下是包含空格和特殊字符的csv文件内容 o/p我需要提前感谢

火花：删除所有重复的行

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档