问题：

使用dplyr删除重复行

杨志强

2023-03-14

set.seed(123)
df = data.frame(x=sample(0:1,10,replace=T),y=sample(0:1,10,replace=T),z=1:10)
> df
   x y  z
1  0 1  1
2  1 0  2
3  0 1  3
4  1 1  4
5  1 0  5
6  0 1  6
7  1 0  7
8  1 0  8
9  1 0  9
10 0 1 10

df[!duplicated(df[,1:2]),]
  x y z
1 0 1 1
2 1 0 2
4 1 1 4

共有1个答案

艾宁

2023-03-14

注意:dplyr现在包含用于此目的的distinct函数。

原答案如下：

library(dplyr)
set.seed(123)
df <- data.frame(
  x = sample(0:1, 10, replace = T),
  y = sample(0:1, 10, replace = T),
  z = 1:10
)

一种方法是分组，然后只保留第一行：

df %>% group_by(x, y) %>% filter(row_number(z) == 1)

## Source: local data frame [3 x 3]
## Groups: x, y
## 
##   x y z
## 1 0 1 1
## 2 1 0 2
## 3 1 1 4

df %>% group_by(x, y) %>% slice(from = 1, to = 1)

df %>% unique(x, y)

类似资料：

使用dplyr（R）[重复]删除包含字符串的值

我当前的代码只删除具有“未分配”确切值的值，而我希望它删除任何包含“未分配”的值。这是我的密码我希望从中删除任何“未分配”值的列称为taxon。谢谢！
使用ant删除重复文件？

问题内容：有没有一种方法可以使用ant删除重复文件？具体来说，如果我在两个不同的输出目录中具有相同的文件名，则要从第二个目录中删除它。问题答案：我想我想出了一个解决方案。
删除重复项而不删除重复项

请注意，在转向您之前，我已经浏览了各种帖子。事实上，我尝试实现中提供的解决方案：基于“notin”条件从数据帧中删除行我的问题如下。让我们假设我有一个巨大的数据帧，我想删除重复的数据帧。我很清楚我可以使用drop_duplicates，因为这是最快的最简单的方法。然而，我们的老师希望我们创建一个包含重复项ID的列表，然后根据这些值是否包含在上述列表中删除它们。现在，让我们看看输出：因此，我得
R dplyr：删除多列

我有一个dataframe和要删除dataframe中的列列表。让我们使用数据集作为示例。我希望删除和，只使用剩余的列。如何使用或从包中执行此操作？ drop.cols中的错误：参数类型无效我觉得我错过了一些明显的东西，因为这些看起来像是一个相当有用的操作，应该已经存在了。在Github上，有人发布了一个类似的问题，Hadley说要使用“负面索引”。那是（我想）我试过的，但没有效果。有什么建议吗
删除重复的行

问题内容：我有一张看起来像这样的桌子表格1 ID，名称如何编写查询以删除所有具有重复名称的行，但保留具有较低ID的行？问题答案：如果您使用的是SQL Server 2005或更高版本：如果使用SQL Server 2000及更低版本
pandas 删除重复

本文向大家介绍pandas 删除重复，包括了pandas 删除重复的使用技巧和注意事项，需要的朋友参考一下示例用途drop_duplicates：当您不想获取数据框的副本，而要修改现有的数据框时：

使用dplyr删除重复行

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档