问题：

在pyspark RDD中保存删除的重复项

范楚

2023-03-14

从这里开始，根据RDD/Spark DataFrame中的特定列从行中删除重复项，我们学习了如何根据一些特定变量删除重复的观察。如果我想以RDD的形式保存这些重复的观察结果，我该怎么做？我想RDD.substract()如果RDD包含数十亿个观察值可能效率不高。那么除了使用rdd.substract()之外，还有其他方法吗？

共有1个答案

索曾琪

2023-03-14

如果需要两个数据集，一个只有不同的值，另一个有重复的值，则应该使用减法。那将提供一个准确的结果。如果您只需要重复项，您可以使用sql来获得它。

df.createOrReplaceTempView('mydf')
df2 = spark.sql("select *,row_number() over(partition by <<list of columns used to identify duplicates>> order by <<any column/s not used to identify duplicates>>) as row_num from mydf having row_num>1").drop('row_num')

类似资料：

从tar存档中删除重复项

我正在尝试创建多个文本文件的存档。有时这些文件会更新，当这些文件更新时，我使用 tar 中的选项将这些文件附加到存档中。假设我们有两个文件，test1.txt和test2.txt.这些文件被添加到存档test.tar. 用焦油我得到的如预期：现在，如果我更新test2.txt，并使用< code > tar-f test.tar-u test 2 . txt 将其添加到存档中。我希望运行
在MySQL中删除重复项

问题内容：我有这样的桌子我想执行一个查询，以除去所有最新的重复项。我希望你有个主意吗？例如，查询后的表必须是这样的问题答案：语法可能需要调整，但是应该做到这一点。此外，您可能希望将子查询预查询到其自己的表FIRST中，然后对该结果集运行DELETE FROM。
删除重复字符，保留顺序[重复]

我试图编写一个代码，它接收并删除该中的重复字符。例如。如果，则应返回。到目前为止，我的代码只返回与给定的相同的tekst…
在MySQL中删除重复的行

问题内容：我有一个包含以下字段的表：现在，我需要删除具有same的行。一种方法是使用以下SQL以及脚本（）：运行此查询后，我可以使用服务器端脚本删除重复项。但是，我想知道是否只能使用SQL查询来完成。问题答案：一种简单的方法是在3列上添加索引。在编写语句时，请包含关键字。像这样：这将删除所有重复的行。作为一项额外的好处，重复的将来会出错。和往常一样，您可能需要在运行类似内容之前进行
在Access中删除SQL中的重复项

问题内容：我有一个表，该表由id（key），符号，方向，范围，价格，百分比列组成。我想删除符号，方向，价格和百分比相同且范围最小的数据。我将如何完成？我一直在尝试改变这种说法：使某些东西起作用。问题答案：这是 aw 表的样本数据。根据您的描述，我认为您想丢弃值分别为2、3和5的行。确定的每个组合的最小范围值，，，和。 qryMinRanges ： …给出以下结果集：确定这些最小范围中的
删除重复项而不删除重复项

请注意，在转向您之前，我已经浏览了各种帖子。事实上，我尝试实现中提供的解决方案：基于“notin”条件从数据帧中删除行我的问题如下。让我们假设我有一个巨大的数据帧，我想删除重复的数据帧。我很清楚我可以使用drop_duplicates，因为这是最快的最简单的方法。然而，我们的老师希望我们创建一个包含重复项ID的列表，然后根据这些值是否包含在上述列表中删除它们。现在，让我们看看输出：因此，我得

在pyspark RDD中保存删除的重复项

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档