当前位置: 首页 > 知识库问答 >
问题:

使用dplyr删除重复行

杨志强
2023-03-14
set.seed(123)
df = data.frame(x=sample(0:1,10,replace=T),y=sample(0:1,10,replace=T),z=1:10)
> df
   x y  z
1  0 1  1
2  1 0  2
3  0 1  3
4  1 1  4
5  1 0  5
6  0 1  6
7  1 0  7
8  1 0  8
9  1 0  9
10 0 1 10
df[!duplicated(df[,1:2]),]
  x y z
1 0 1 1
2 1 0 2
4 1 1 4

共有1个答案

艾宁
2023-03-14

注意:dplyr现在包含用于此目的的distinct函数。

原答案如下:

library(dplyr)
set.seed(123)
df <- data.frame(
  x = sample(0:1, 10, replace = T),
  y = sample(0:1, 10, replace = T),
  z = 1:10
)

一种方法是分组,然后只保留第一行:

df %>% group_by(x, y) %>% filter(row_number(z) == 1)

## Source: local data frame [3 x 3]
## Groups: x, y
## 
##   x y z
## 1 0 1 1
## 2 1 0 2
## 3 1 1 4
df %>% group_by(x, y) %>% slice(from = 1, to = 1)
df %>% unique(x, y)
 类似资料:
  • 我当前的代码只删除具有“未分配”确切值的值,而我希望它删除任何包含“未分配”的值。 这是我的密码 我希望从中删除任何“未分配”值的列称为taxon。 谢谢!

  • 请注意,在转向您之前,我已经浏览了各种帖子。事实上,我尝试实现中提供的解决方案:基于“notin”条件从数据帧中删除行 我的问题如下。让我们假设我有一个巨大的数据帧,我想删除重复的数据帧。我很清楚我可以使用drop_duplicates,因为这是最快的最简单的方法。然而,我们的老师希望我们创建一个包含重复项ID的列表,然后根据这些值是否包含在上述列表中删除它们。 现在,让我们看看输出: 因此,我得

  • 问题内容: 有没有一种方法可以使用ant删除重复文件?具体来说,如果我在两个不同的输出目录中具有相同的文件名,则要从第二个目录中删除它。 问题答案: 我想我想出了一个解决方案。

  • 我有一个dataframe和要删除dataframe中的列列表。让我们使用数据集作为示例。我希望删除和,只使用剩余的列。如何使用或从包中执行此操作? drop.cols中的错误:参数类型无效 我觉得我错过了一些明显的东西,因为这些看起来像是一个相当有用的操作,应该已经存在了。在Github上,有人发布了一个类似的问题,Hadley说要使用“负面索引”。那是(我想)我试过的,但没有效果。有什么建议吗

  • 问题内容: 我有一张看起来像这样的桌子 表格1 ID,名称 如何编写查询以删除所有具有重复名称的行,但保留具有较低ID的行? 问题答案: 如果您使用的是SQL Server 2005或更高版本: 如果使用SQL Server 2000及更低版本

  • 本文向大家介绍pandas 删除重复,包括了pandas 删除重复的使用技巧和注意事项,需要的朋友参考一下 示例 用途drop_duplicates: 当您不想获取数据框的副本,而要修改现有的数据框时: