当前位置: 首页 > 知识库问答 >
问题:

将组id分配给时间序列中的连续唯一值序列

万俟浩
2023-03-14

我正在处理一个大的时间序列,其中一列包含四个不同的传感器,一列包含测量值。我需要为属于同一时间的测量分配一个 id。问题是,每个设备的测量时间略有不同,因此我不能简单地按时间戳对它们进行分组。在按时间排序的数据框中,应分组的测量值可以通过唯一设备 ID 序列进行识别。这里的问题是,一次 4 台设备记录一个值,另一次 3 台设备记录一个值。我的数据如下所示。

       timestamp                  device   measurement
    1  2019-08-27 07:29:20.671313 sdr_03   49.868820
    2  2019-08-27 07:29:20.932043 sdr_02   54.160831
    3  2019-08-27 07:29:21.839312 sdr_03   48.974476
    4  2019-08-27 07:29:21.850454 sdr_02   50.808674
    5  2019-08-27 08:57:01.990833 sdr_03   50.533058
    6  2019-08-27 08:57:02.022798 sdr_04   51.143322
    7  2019-08-27 09:16:56.454308 sdr_02   57.447151
    8  2019-08-27 09:16:56.482433 sdr_04   50.012745
    9  2019-08-27 09:16:56.761776 sdr_01   71.500305
    10 2019-08-27 09:16:57.305510 sdr_02   56.851177
    11 2019-08-27 09:16:57.333628 sdr_04   60.390141
    12 2019-08-27 09:16:57.612972 sdr_01   73.470345

您可以通过以下方式复制:

my_data<-data.frame(timestamp = c("2019-08-27 07:29:20.671313","2019-08-27 07:29:20.932043","2019-08-27 07:29:21.839312",
                                       "2019-08-27 07:29:21.850454", "2019-08-27 08:57:01.990833","2019-08-27 08:57:02.022798",
                                       "2019-08-27 09:16:56.454308", "2019-08-27 09:16:56.482433", "2019-08-27 09:16:56.761776",
                                       "2019-08-27 09:16:57.305510" ,"2019-08-27 09:16:57.333628", "2019-08-27 09:16:57.612972"),
               device=c("sdr_03", "sdr_02", "sdr_03", "sdr_02", "sdr_03" ,"sdr_04", "sdr_02", "sdr_04" ,"sdr_01", "sdr_02" ,"sdr_04",
                        "sdr_01"),
               measurement=c(49.868820, 54.160831, 48.974476, 50.808674, 50.533058, 51.143322,57.447151,50.012745, 71.500305,56.851177,
                             60.390141, 73.470345)
               )

我需要为连续的行分配相同的值,只要列设备的前几行中的任何元素都没有再次出现

             timestamp        device   measurement match_id
1  2019-08-27 07:29:20.671313 sdr_03   49.868820        1
2  2019-08-27 07:29:20.932043 sdr_02   54.160831        1
3  2019-08-27 07:29:21.839312 sdr_03   48.974476        2
4  2019-08-27 07:29:21.850454 sdr_02   50.808674        2
5  2019-08-27 08:57:01.990833 sdr_03   50.533058        3
6  2019-08-27 08:57:02.022798 sdr_04   51.143322        3
7  2019-08-27 09:16:56.454308 sdr_02   57.447151        3
8  2019-08-27 09:16:56.482433 sdr_04   50.012745        4
9  2019-08-27 09:16:56.761776 sdr_01   71.500305        4
10 2019-08-27 09:16:57.305510 sdr_02   56.851177        4
11 2019-08-27 09:16:57.333628 sdr_04   60.390141        5
12 2019-08-27 09:16:57.612972 sdr_01   73.470345        5

您可以从以下网址获得:

my_data<-data.frame(timestamp = c("2019-08-27 07:29:20.671313","2019-08-27 07:29:20.932043","2019-08-27 07:29:21.839312",
                                   "2019-08-27 07:29:21.850454", "2019-08-27 08:57:01.990833","2019-08-27 08:57:02.022798",
                                   "2019-08-27 09:16:56.454308", "2019-08-27 09:16:56.482433", "2019-08-27 09:16:56.761776",
                                   "2019-08-27 09:16:57.305510" ,"2019-08-27 09:16:57.333628", "2019-08-27 09:16:57.612972"),
           device=c("sdr_03", "sdr_02", "sdr_03", "sdr_02", "sdr_03" ,"sdr_04", "sdr_02", "sdr_04" ,"sdr_01", "sdr_02" ,"sdr_04",
                    "sdr_01"),
           measurement=c(49.868820, 54.160831, 48.974476, 50.808674, 50.533058, 51.143322,57.447151,50.012745, 71.500305,56.851177,
                         60.390141, 73.470345),match_id=c(1,1,2,2,3,3,3,4,4,4,5,5) )

我已经寻找答案三天了。任何帮助都非常感谢。

Allan Cameron ons dplyr解决方案会产生稍后在数据框中重新出现的匹配id——参见第1,2,6,9行。一次记录的设备可能少于4个,因此总是期望每次测量有相同数量的记录设备的解决方案将不起作用。

# A tibble: 12 x 4
# Groups:   device [4]
   timestamp                  device measurement new_id
   <dttm>                     <fct>        <dbl>  <int>
 1 2019-08-27 07:29:20.671313 sdr_03        49.9      1
 2 2019-08-27 07:29:20.932043 sdr_02        54.2      1
 3 2019-08-27 07:29:21.839312 sdr_03        49.0      2
 4 2019-08-27 07:29:21.850454 sdr_02        50.8      2
 5 2019-08-27 08:57:01.990833 sdr_03        50.5      3
 6 2019-08-27 08:57:02.022798 sdr_04        51.1      1
 7 2019-08-27 09:16:56.454308 sdr_02        57.4      3
 8 2019-08-27 09:16:56.482433 sdr_04        50.0      2
 9 2019-08-27 09:16:56.761775 sdr_01        71.5      1
10 2019-08-27 09:16:57.305510 sdr_02        56.9      4
11 2019-08-27 09:16:57.333627 sdr_04        60.4      3
12 2019-08-27 09:16:57.612972 sdr_01        73.5      2

而Sotos解决方案导致比唯一设备存在更多的连续匹配ID。例如第5-9行

# A tibble: 12 x 4
   timestamp           device measurement new_id
   <chr>               <fct>        <dbl>  <int>
 1 2019-08-27 07:29:20 sdr_03        49.9      1
 2 2019-08-27 07:29:20 sdr_02        54.2      1
 3 2019-08-27 07:29:21 sdr_03        49.0      2
 4 2019-08-27 07:29:21 sdr_02        50.8      2
 5 2019-08-27 08:57:01 sdr_03        50.5      3
 6 2019-08-27 08:57:02 sdr_04        51.1      3
 7 2019-08-27 09:16:56 sdr_02        57.4      3
 8 2019-08-27 09:16:56 sdr_04        50.0      3
 9 2019-08-27 09:16:56 sdr_01        71.5      3
10 2019-08-27 09:16:57 sdr_02        56.9      4
11 2019-08-27 09:16:57 sdr_04        60.4      4
12 2019-08-27 09:16:57 sdr_01        73.5      4

如果测量之间的时间差

共有3个答案

朱通
2023-03-14

我认为需要一个递归函数。基本上,每当在前一个组中找到设备时,您都需要启动一个新组。这是Rcpp中的一个实现:

library(Rcpp)
cppFunction("
IntegerVector dev_not_in_prev_grp(IntegerVector device, int ndev) {
    int i, j, k, sz = device.size();
    std::vector<bool> exists(ndev);
    IntegerVector res(sz);

    for (k=0; k<ndev; k++) 
        exists[k] = false;

    for (i=0; i<sz; i++) {
        if (exists[device[i]-1]) {
            res[i] = 1;

            for (k=0; k<ndev; k++) 
                exists[k] = false;
        } 
        exists[device[i]-1] = true;
    }

    return(res);
}
")

用法:

ndev <- 4L
devmap <- setNames(1L:ndev, sprintf("sdr_%02d", 1L:ndev))    
cumsum(dev_not_in_prev_grp(devmap[my_data$device], ndev)) + 1L

输出:

[1] 1 1 2 2 3 3 3 4 4 4 5 5
松烨烨
2023-03-14

这难道不能做得更简单吗?

library(dplyr)

df               %>% 
group_by(device) %>% 
mutate(new_id = seq_len(length(device)), timestamp = as.POSIXct(timestamp))

#> # A tibble: 12 x 4
#> # Groups:   device [4]
#>    timestamp           device measurement new_id
#>    <dttm>              <fct>        <dbl>  <int>
#>  1 2019-08-27 09:48:54 sdr_02        80.2      1
#>  2 2019-08-27 09:48:54 sdr_01        71.7      1
#>  3 2019-08-27 09:48:54 sdr_04        74.2      1
#>  4 2019-08-27 09:48:54 sdr_03        62.6      1
#>  5 2019-08-27 09:48:55 sdr_02        77.1      2
#>  6 2019-08-27 09:48:55 sdr_01        69.2      2
#>  7 2019-08-27 09:48:55 sdr_03        62.1      2
#>  8 2019-08-27 09:48:55 sdr_02        77.1      3
#>  9 2019-08-27 09:48:55 sdr_01        54.6      3
#> 10 2019-08-27 09:48:55 sdr_03        64.3      3
#> 11 2019-08-27 09:48:56 sdr_02        66.5      4
#> 12 2019-08-27 09:48:56 sdr_01        71.7      4


更新

根据OP的评论,最好的方法似乎是定义一个函数,该函数保持所遇到的设备的运行计数,并在出现重复时递增。

# Code                                     # Pseudocode
# =======================================  # ===================================
group_instances <- function(my_labels)     #
{                                          #
  my_labels <- as.character(my_labels)     # (Ensure we use a character vector)
                                           #
  result    <- numeric(length(my_labels))  # Create a numeric result vector
  matches   <- as.character(my_labels[1])  # Create tally of encountered devices
                                           #
  for(i in seq_along(my_labels)[-1])       # For each device record after the first
  {                                        #
    if(my_labels[i] %in% matches)          # If we have this device in our tally
    {                                      #
      matches   <- my_labels[i]            # Reset our tally of devices
      result[i] <- result[i - 1] + 1       # and increment our ID
    }                                      #
    else                                   # Otherwise
    {                                      #
      matches <- c(matches, my_labels[i])  # Add it to our tally of devices
      result[i] <- result[i - 1]           # and copy the ID from the row above
    }                                      #
  }                                        #
  return(result + 1)                       # Our IDs started at zero, so add one
}

现在我们可以做

my_data %>% mutate(ID = as.factor(group_instances(device)))
#>                     timestamp device measurement ID
#> 1  2019-08-27 07:29:20.671313 sdr_03    49.86882  1
#> 2  2019-08-27 07:29:20.932043 sdr_02    54.16083  1
#> 3  2019-08-27 07:29:21.839312 sdr_03    48.97448  2
#> 4  2019-08-27 07:29:21.850454 sdr_02    50.80867  2
#> 5  2019-08-27 08:57:01.990833 sdr_03    50.53306  3
#> 6  2019-08-27 08:57:02.022798 sdr_04    51.14332  3
#> 7  2019-08-27 09:16:56.454308 sdr_02    57.44715  3
#> 8  2019-08-27 09:16:56.482433 sdr_04    50.01275  4
#> 9  2019-08-27 09:16:56.761776 sdr_01    71.50030  4
#> 10 2019-08-27 09:16:57.305510 sdr_02    56.85118  4
#> 11 2019-08-27 09:16:57.333628 sdr_04    60.39014  5
#> 12 2019-08-27 09:16:57.612972 sdr_01    73.47034  5
孟智志
2023-03-14

我很确定我真的想多了,但这是一个可行的解决方案

library(dplyr)

data %>% 
 mutate(timestamp = format(timestamp, '%Y-%m-%d %H:%M:%S')) %>%
 group_by(timestamp) %>% 
 mutate(new = data.table::rleid(duplicated(device))) %>% 
 group_by(timestamp, new) %>% 
 mutate(new1 = row_number() + new) %>% 
 ungroup() %>% 
 mutate(new_id = cumsum(c(TRUE, diff(new1) < 0))) %>% 
 select(-c(new, new1))

这就给出了,

# A tibble: 12 x 4
   timestamp           device measurement new_id
   <fct>               <fct>        <dbl>  <int>
 1 2019-08-27 09:48:54 sdr_02        80.2      1
 2 2019-08-27 09:48:54 sdr_01        71.7      1
 3 2019-08-27 09:48:54 sdr_04        74.2      1
 4 2019-08-27 09:48:54 sdr_03        62.6      1
 5 2019-08-27 09:48:55 sdr_02        77.1      2
 6 2019-08-27 09:48:55 sdr_01        69.2      2
 7 2019-08-27 09:48:55 sdr_03        62.1      2
 8 2019-08-27 09:48:55 sdr_02        77.1      3
 9 2019-08-27 09:48:55 sdr_01        54.6      3
10 2019-08-27 09:48:55 sdr_03        64.3      3
11 2019-08-27 09:48:56 sdr_02        66.5      4
12 2019-08-27 09:48:56 sdr_01        71.7      4
 类似资料:
  • 我试图将几个连续的行分组(并赋予它们相同的值),同时将一些行留空(当不满足某个条件时)。 我的数据是位置(xy坐标)、测量日期/时间以及测量之间的时间跨度。有些简化,它们看起来是这样的: 我想为在4小时内测量的每个位置序列分配一个值,并使我的数据看起来像这样: 我尝试了几种带有循环“for”加上“ifelse”条件的算法,例如: 没有任何运气。我知道我的尝试是不正确的,但是我的编程技能非常基础,我

  • 我试图在Oracle 11g中运行一个sql查询,它将下面给定的数据集转换为下一个数据集。 这样做的逻辑是start date1和end date1将是连续的。另外start_date2和end date2需要是连续的。如果在某些时候end date2与下一个start date2不匹配,那么需要添加一个具有相同id并且具有enddate2作为下一个start date1的新行。 非常感谢您的帮助

  • 我想在按“prop”分组后,根据“井”的值生成列well_rep。 类似于cur_group_id,但是数字在不同的组中从1开始?

  • 这是我拥有的数据帧的简化版本: 在这个 df 中,row.names 是唯一的 ID(我知道它打破了整洁数据的规则)。 在示例中,我们可以看到行id1和行id2是重复的。 我想做的是确定它们是重复的,并为这些重复项分配一个唯一的组名称。但请注意,将有多行彼此重复。 我希望的产出是: 有什么想法吗? 编辑: 我的原始数据示例:

  • 问题内容: 我想知道是否有任何巧妙的方法可以使用新的Stream API将值序列“分组”。 例如,将一系列整数分成整数组,其中每个组都是一个升序的数字序列: 问题答案: 不幸的是,Stream API并不是非常适合解决涉及Stream元素的依赖操作的问题,例如此元素。 但是,您可以为此使用StreamEx库: 这将分组为所有连续的整数,其中第二个等于应用于第一个的函数。最后,将此流收集到中。

  • 给定一个有N个元素的数组A,我想在A的所有可能的连续子序列中找到最小元素的总和。我知道如果N很小,我们可以寻找所有可能的子序列,但是当N高达10^5时,找到这个总和的最佳方法是什么? 示例:设 N=3 且 A[1,2,3] 则 ans 为 10,作为可能的连续子序列 {(1),(2),(3),(1,2),(1,2,3),(2,3)} 因此最小元素之和 = 1 2 3 1 1 2 = 10