当前位置: 首页 > 知识库问答 >
问题:

基于对一列或多列进行分组来计算日期之间的差异

郜玉石
2023-03-14

我的数据集示例如下:

| id |       Date | Buyer    |
|:--:|-----------:|----------|
|  9 | 11/29/2018 | Jenny    |
|  9 | 11/29/2018 | Jenny    |
|  9 | 11/29/2018 | Jenny    |
| 4  | 5/30/2018  | Chang    |
| 4  | 7/4/2018   | Chang    |
| 4  | 8/17/2018  | Chang    |
| 5  | 5/25/2018  | Chunfei  |
| 5  | 2/13/2019  | Chunfei  |
| 5  | 2/16/2019  | Chunfei  |
| 5  | 2/16/2019  | Chunfei  |
| 5  | 2/23/2019  | Chunfei  |
| 5  | 2/25/2019  | Chunfei  |
| 8  | 2/28/2019  | Chunfei  |
| 8  | 2/28/2019  | Chunfei  |

我对这个数据集有两个问题:

    < li >我需要计算日期之间的差异,但此差异将基于“买方”和“id”分组来计算,这意味着,买方“Jenny”和Id“9”的日期差异将是一个组,Id为“4”的买方“Chang”将是另一个组,Id为“5”的买方“Chunfei”将是另一个组,Id为“8”的“Chunfei”将是另一个组。因此,输出将是:
| id |       Date | Buyer_id | Diff |
|:--:|-----------:|----------|------|
|  9 | 11/29/2018 | Jenny    | NA   |
|  9 | 11/29/2018 | Jenny    | 0    |
|  9 | 11/29/2018 | Jenny    | 0    |
| 4  | 5/30/2018  | Chang    | NA   |
| 4  | 7/4/2018   | Chang    | 35   |
| 4  | 8/17/2018  | Chang    | 44   |
| 5  | 5/25/2018  | Chunfei  | NA   |
| 5  | 2/13/2019  | Chunfei  | 264  |
| 5  | 2/16/2019  | Chunfei  | 3    |
| 5  | 2/16/2019  | Chunfei  | 0    |
| 5  | 2/23/2019  | Chunfei  | 7    |
| 5  | 2/25/2019  | Chunfei  | 2    |
| 8  | 2/28/2019  | Chunfei  | NA   |
| 8  | 2/28/2019  | Chunfei  | 0    |

问题是我不明白为什么group_by不起作用。下面的代码减去连续的行,而不是为同一个买家和id分组,然后减去。

df=data.frame(id=c("9","9","9","4","4","4","5","5","5","5","5","5","8","8"), 
              Date=c("11/29/2018","11/29/2018","11/29/2018","5/30/2018","7/4/2018", 
                      "8/17/2018","5/25/2018","2/13/2019","2/16/2019","2/16/2019","2/23/2019",
                      "2/25/2019","2/28/2019","2/28/2019"),Buyer=c("Jenny","Jenny","Jenny",
                      "Chang","Chang","Chang","Chunfei","Chunfei","Chunfei","Chunfei","Chunfei",
                      "Chunfei","Chunfei","Chunfei"))
df$id=as.numeric(as.character(df$id))
df$Date=as.Date(df$Date, "%m/%d/%Y")
df$Buyer=as.character(df$Buyer)

df1=df %>% group_by(Buyer,id) %>%
  mutate(diff=as.numeric(difftime(Date,lag(Date),units='days')))

我们可以在最终输出中屏蔽“diff”列,它应该如下所示:

| id |    Date    | Buyer_id |
|----|:----------:|---------:|
| 9  | 11/29/2018 |    Jenny |
| 9  | 11/29/2018 |    Jenny |
| 9  | 11/29/2018 |    Jenny |
| 5  | 2/13/2019  | Chunfei  |
| 5  | 2/16/2019  | Chunfei  |
| 5  | 2/16/2019  | Chunfei  |
| 5  | 2/23/2019  | Chunfei  |
| 5  | 2/25/2019  | Chunfei  |
| 8  | 2/28/2019  | Chunfei  |
| 8  | 2/28/2019  | Chunfei  |

共有1个答案

孙玺
2023-03-14

我们可以使用< code>diff减去< code>Date并选择至少有一个值小于5天的组。

library(dplyr)

df %>%
  group_by(id, Buyer) %>%
  filter(any(diff(Date) <= 5))

#      id Date       Buyer  
#   <dbl> <date>     <chr>  
# 1     9 2018-11-29 Jenny  
# 2     9 2018-11-29 Jenny  
# 3     9 2018-11-29 Jenny  
# 4     5 2018-05-25 Chunfei
# 5     5 2019-02-13 Chunfei
# 6     5 2019-02-16 Chunfei
# 7     5 2019-02-16 Chunfei
# 8     5 2019-02-23 Chunfei
# 9     5 2019-02-25 Chunfei
#10     8 2019-02-28 Chunfei
#11     8 2019-02-28 Chunfei

重读这个问题后,我想你可能不会< code>filter整个组,而只是那些有5天差异的行。我们可以得到< code>diff值小于5的索引,并选择它以前的索引。

df %>%
  group_by(id, Buyer) %>%
  mutate(diff = c(NA, diff(Date))) %>%
  slice({i1 <- which(diff <= 5); unique(c(i1, i1-1))}) %>%
  select(-diff)

#      id Date       Buyer  
#   <dbl> <date>     <chr>  
# 1     5 2019-02-16 Chunfei
# 2     5 2019-02-16 Chunfei
# 3     5 2019-02-25 Chunfei
# 4     5 2019-02-13 Chunfei
# 5     5 2019-02-23 Chunfei
# 6     8 2019-02-28 Chunfei
# 7     8 2019-02-28 Chunfei
# 8     9 2018-11-29 Jenny  
# 9     9 2018-11-29 Jenny  
#10     9 2018-11-29 Jenny  

数据

df <- structure(list(id = c(9, 9, 9, 4, 4, 4, 5, 5, 5, 5, 5, 5, 8, 
8), Date = structure(c(17864, 17864, 17864, 17681, 17716, 17760, 
17676, 17940, 17943, 17943, 17950, 17952, 17955, 17955), class = "Date"), 
Buyer = c("Jenny", "Jenny", "Jenny", "Chang", "Chang", "Chang", 
"Chunfei", "Chunfei", "Chunfei", "Chunfei", "Chunfei", "Chunfei", 
"Chunfei", "Chunfei")), row.names = c(NA, -14L), class = "data.frame")
 类似资料:
  • 问题内容: 在我的代码中,日期之间的差异是错误的,因为它应该是38天而不是8天。我该如何解决? 问题答案: 问题出在变量中。月以Capital M表示。 尝试更改为: 有关更多信息,请参见此javadoc。 编辑: 这是代码,如果您想以注释的方式打印差异: 希望对您有所帮助!

  • 问题内容: 我有一个表,其中包含开始时间(在示例中使用数字以使其保持简单)以及事件的持续时间。 我想确定“块”及其开始时间和结束时间。 每当前一行的结束时间(开始时间+持续时间)(按开始时间排序)与当前行的开始时间之间的差值为时,应开始一个新的“块”。 这是我的测试数据,包括在注释中尝试进行图形解释的尝试: 第一个块开始于,结束于。由于与下一行的区别是,开始另一个块,终止于。 我可以使用来识别块的

  • 问题内容: 如何对日期和/或日期时间对象列表进行排序?接受的答案在这里是不是为我工作: 问题答案: 你得到,因为它运行 在原地 ,这意味着它不返回任何东西,但修改列表本身。您只需要呼叫而无需再次分配。 有一个内置函数,该函数返回列表的排序版本-也会执行您想要的操作。

  • 我正在处理一些数据,并希望将某个列的最大值按不同的列分组。但是,我想根据另一列从最大计算中排除某些行。 示例: 我想得到Col3的最大值,按Col1分组,同时排除Col2中包含“Other”的任何行。因此,“A”的Col3的最大值应该是5,而不是17。 我能够使用:但是,对于a,这将给我一个17的值。 通过查看其他线程,我尝试使用: 这似乎让我接近了(它将数据按Col1分组,并根据Col2删除了行

  • 我的桌子有这样的结构 如何在mysql中获取上述数据的两个日期之间的事件(日期比较与年份无关)。例如,如果start_date是2014-05-01,结束日期是2014-05-20,则输出应该是 更新:如果同一个人的结婚日期和出生日期都在提供的日期范围内,则输出应包含该人的两列 (抱歉我的英语不好)

  • 问题内容: 我在-type字段中将上次登录时间存储在MySQL中。当用户登录时,我想获取上次登录时间与当前时间(我使用)之间的时差。 我该如何计算? 问题答案: 使用MySQL函数。例如,您可以使用: 在您的情况下,函数的第三个参数将是当前登录时间()。第二个参数是上次登录时间,该时间已在数据库中。