问题：

如何使用Dplyr的摘要和哪个（）来查找最小/最大值

曾华翰

2023-03-14

我有以下数据:

Name <- c("Sam", "Sarah", "Jim", "Fred", "James", "Sally", "Andrew", "John", "Mairin", "Kate", "Sasha", "Ray", "Ed")
Age <- c(22,12,31,35,58,82,17,34,12,24,44,67,43)
Group <- c("A", "B", "B", "B", "B", "C", "C", "D", "D", "D", "D", "D", "D") 
data <- data.frame(Name, Age, Group)

我想用dplyr

（1）按“组”对数据进行分组（2）显示每个组中的最小和最大年龄（3）显示具有最小和最大年纪的人的姓名

以下代码执行此操作：

data %>% group_by(Group) %>%
     summarize(minAge = min(Age), minAgeName = Name[which(Age == min(Age))], 
               maxAge = max(Age), maxAgeName = Name[which(Age == max(Age))])

效果很好：

  Group minAge minAgeName maxAge maxAgeName
1     A     22        Sam     22        Sam
2     B     12      Sarah     58      James
3     C     17     Andrew     82      Sally
4     D     12     Mairin     67        Ray

但是，如果有多个最小值或最大值，我会遇到一个问题:

Name <- c("Sam", "Sarah", "Jim", "Fred", "James", "Sally", "Andrew", "John", "Mairin", "Kate", "Sasha", "Ray", "Ed")
Age <- c(22,31,31,35,58,82,17,34,12,24,44,67,43)
Group <- c("A", "B", "B", "B", "B", "C", "C", "D", "D", "D", "D", "D", "D") 
data <- data.frame(Name, Age, Group)

> data %>% group_by(Group) %>%
+   summarize(minAge = min(Age), minAgeName = Name[which(Age == min(Age))], 
+             maxAge = max(Age), maxAgeName = Name[which(Age == max(Age))])
Error: expecting a single value

我正在寻找两种解决方案：

（1）显示最小值或最大值并不重要，只显示一个名称（即找到的第一个值）（2）如果有“关系”，则显示所有最小值和最大值

如果这不清楚，请让我知道，提前感谢！

共有3个答案

芮雪风

2023-03-14

以下是一些 data.table 方法，第一个是从 @akrun 借来的：

setDT(data)

# show one, wide format
data[,c(min=.SD[which.min(Age)],max=.SD[which.max(Age)]),by=Group]
   # Group min.Name min.Age max.Name max.Age
# 1:     A      Sam      22      Sam      22
# 2:     B    Sarah      31    James      58
# 3:     C   Andrew      17    Sally      82
# 4:     D   Mairin      12      Ray      67

# show all, long format
data[,{
  mina=min(Age)
  maxa=max(Age)
  rbind(
    data.table(minmax="min",Age=mina,Name=Name[which(Age==mina)]),
    data.table(minmax="max",Age=maxa,Name=Name[which(Age==maxa)])
)},by=Group]
   # Group minmax Age   Name
# 1:     A    min  22    Sam
# 2:     A    max  22    Sam
# 3:     B    min  31  Sarah
# 4:     B    min  31    Jim
# 5:     B    max  58  James
# 6:     C    min  17 Andrew
# 7:     C    max  82  Sally
# 8:     D    min  12 Mairin
# 9:     D    max  67    Ray

我认为长格式是最好的，因为它允许您使用minmax进行过滤，但代码非常复杂且效率低下。

这里有一些可以说不太好的方法：

# show all, wide format (with a list column)
data[,{
  mina=min(Age)
  maxa=max(Age)
  list(
    minAge=mina,
    maxAge=maxa,
    minNames=list(Name[Age==mina]),
    maxNames=list(Name[Age==maxa]))
},by=Group]
   # Group minAge maxAge  minNames maxNames
# 1:     A     22     22       Sam      Sam
# 2:     B     31     58 Sarah,Jim    James
# 3:     C     17     82    Andrew    Sally
# 4:     D     12     67    Mairin      Ray


# show all, wide format (with a string column)
# (just look at @shadow's answer)

汪志业

2023-03-14

实际上，我建议将数据保持为“长”格式。以下是我的做法：

library(dplyr)

存在联系时保留所有值：

data %>%
  group_by(Group) %>%
  arrange(Age) %>%  ## optional
  filter(Age %in% range(Age))
# Source: local data frame [8 x 3]
# Groups: Group
# 
#     Name Age Group
# 1    Sam  22     A
# 2  Sarah  31     B
# 3    Jim  31     B
# 4  James  58     B
# 5 Andrew  17     C
# 6  Sally  82     C
# 7 Mairin  12     D
# 8    Ray  67     D

存在连接时仅保留一个值：

data %>%
  group_by(Group) %>%
  arrange(Age) %>%
  slice(if (length(Age) == 1) 1 else c(1, n())) ## maybe overkill?
# Source: local data frame [7 x 3]
# Groups: Group
# 
#     Name Age Group
# 1    Sam  22     A
# 2  Sarah  31     B
# 3  James  58     B
# 4 Andrew  17     C
# 5  Sally  82     C
# 6 Mairin  12     D
# 7    Ray  67     D

如果你真的想要一个“广泛”的数据集，基本概念是使用“tidyr”收集和spreaddata：

library(dplyr)
library(tidyr)

data %>%
  group_by(Group) %>%
  arrange(Age) %>%
  slice(c(1, n())) %>%
  mutate(minmax = c("min", "max")) %>%
  gather(var, val, Name:Age) %>%
  unite(key, minmax, var) %>%
  spread(key, val)
# Source: local data frame [4 x 5]
# 
#   Group max_Age max_Name min_Age min_Name
# 1     A      22      Sam      22      Sam
# 2     B      58    James      31    Sarah
# 3     C      82    Sally      17   Andrew
# 4     D      67      Ray      12   Mairin

尽管你想要什么样的领带还不清楚。

淳于嘉树

2023-03-14

可以使用which.min和which.max获取第一个值。

data %>% group_by(Group) %>%
  summarize(minAge = min(Age), minAgeName = Name[which.min(Age)], 
            maxAge = max(Age), maxAgeName = Name[which.max(Age)])

要获取所有值，请使用例如粘贴适当的折叠参数。

data %>% group_by(Group) %>%
  summarize(minAge = min(Age), minAgeName = paste(Name[which(Age == min(Age))], collapse = ", "), 
            maxAge = max(Age), maxAgeName = paste(Name[which(Age == max(Age))], collapse = ", "))

类似资料：

使用Java查找文件中的最大和最小数字

作为这个问题的一部分，我需要找到：数字的数量（计数）数字之和(sum) 数字的平均值（平均值）哪些数字是偶数（偶数）哪些数字是奇数（赔率）我尝试在while循环中执行此操作：其思想是，当while循环迭代时，它会将它通过的数字与最大值进行比较，并将它在计数中找到的最大值与最大值进行匹配，如果它找到的数字大于最大值，则成为新的最大值。对最小的也是同样的想法。但它并不起作用。我该怎么办？
1.4 查找最大或最小的 N 个元素

问题怎样从一个集合中获得最大或者最小的 N 个元素列表？解决方案 heapq 模块有两个函数：nlargest() 和 nsmallest() 可以完美解决这个问题。 import heapq nums = [1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2] print(heapq.nlargest(3, nums)) # Prints [42, 37, 23] p
从每列中查找最小值和最大值

我试图找到矩阵中每列的最小值和最大值，但我当前的代码运行不正确。我试图把最小值放在一个新矩阵的第一行，最大值放在下一行，并对每一列这样做。任何帮助都将不胜感激，谢谢！
找数组的最大值和最小值

主要内容：普通算法,分治算法程序中，我们经常使用数组（列表）存储给定的线性序列（例如 {1,2,3,4}），那么如何查找数组（序列）中的最大值或者最小值呢？查找数组（序列）中最大值或最小值的算法有很多，接下来我们以 {3,7,2,1} 序列为例讲解两种查找最值的算法，一种是普通算法，另一种是借助分治算法解决。普通算法普通算法的解决思路是：创建两个变量 max 和 min 分别记录数组中的最大值和最小值，它们的初始值都
数据表中的行和、平均值、最小值、最大值（如dplyr）？

还有其他关于datatable上的行运算符的帖子。它们要么太简单，要么解决了特定的场景我这里的问题更一般。有一个使用dplyr的解决方案。我已经尝试过了，但没有找到一个使用数据的等效解决方案。表语法。你能推荐一个优雅的数据吗。与dplyr版本复制相同结果的表解决方案？编辑1：真实数据集上建议解决方案的基准总结（10MB，73000行，24个数字列上的统计数据）。基准结果是主观的。然而，经过的时
JavaScript 查找最小或最大元素

本文向大家介绍JavaScript 查找最小或最大元素，包括了JavaScript 查找最小或最大元素的使用技巧和注意事项，需要的朋友参考一下示例如果您的数组或类似数组的对象是numeric，也就是说，如果它的所有元素都是数字，则可以使用Math.min.apply或作为第一个参数Math.max.apply传递null，而将数组作为第二个参数传递。 6 在ES6中，可以使用...运算符扩展数

如何使用Dplyr的摘要和哪个（）来查找最小/最大值

共有3个答案

相关问答

相关文章

相关阅读

相关工具

相关文档