当前位置：首页 > 面试题库 >

Pandas在每个组中获得最高的n条记录

易奇希

2023-03-14

问题内容：

假设我有这样的pandas DataFrame：

>>> df = pd.DataFrame({'id':[1,1,1,2,2,2,2,3,4],'value':[1,2,3,1,2,3,4,1,1]})
>>> df
   id  value
0   1      1
1   1      2
2   1      3
3   2      1
4   2      2
5   2      3
6   2      4
7   3      1
8   4      1

我想获得一个新的DataFrame，其中每个ID的前2个记录如下：

   id  value
0   1      1
1   1      2
3   2      1
4   2      2
7   3      1
8   4      1

我可以对分组依据中的记录进行编号：

>>> dfN = df.groupby('id').apply(lambda x:x['value'].reset_index()).reset_index()
>>> dfN
   id  level_1  index  value
0   1        0      0      1
1   1        1      1      2
2   1        2      2      3
3   2        0      3      1
4   2        1      4      2
5   2        2      5      3
6   2        3      6      4
7   3        0      7      1
8   4        0      8      1
>>> dfN[dfN['level_1'] <= 1][['id', 'value']]
   id  value
0   1      1
1   1      2
3   2      1
4   2      2
7   3      1
8   4      1

但是，有没有更有效/更优雅的方法来做到这一点？还有一种更优雅的方法来对每个组中的数字进行记录（例如SQL窗口函数row_number（））。

问题答案：

你试过了吗 df.groupby('id').head(2)

Ouput生成：

>>> df.groupby('id').head(2)
       id  value
id             
1  0   1      1
   1   1      2 
2  3   2      1
   4   2      2
3  7   3      1
4  8   4      1

（请记住，根据数据，你可能需要先进行订购/排序）

编辑：如发问者所述，用于df.groupby(‘id’).head(2).reset_index(drop=True)去除多义词并展平结果。

>>> df.groupby('id').head(2).reset_index(drop=True)
    id  value
0   1      1
1   1      2
2   2      1
3   2      2
4   3      1
5   4      1

类似资料：

获取最高/最小的记录每组

问题内容：怎么做？该问题的原标题是“ 在带有子查询的复杂查询中使用等级（@Rank：= @Rank + 1）-可以吗？ ”，因为我一直在寻找使用等级的解决方案，但是现在我看到Bill所发布的解决方案是好多了。原始问题：我正在尝试组成一个查询，该查询将从给定定义顺序的每个组中获取最后一条记录：表达式通常用于等级，但对我来说，在2个子查询中使用时，它看起来可疑，但仅初始化一次。这样行吗？其
如何使用Pandas获得每个组相对于条件行的每n天斜率？

我有以下数据帧（示例）：我想计算每组n行相对于条件行的斜率（指示符==true）。这意味着它应该返回一个列“斜率”，其中斜率在条件行之前和之后，该行的斜率应该为0。除此之外，我想返回一个名为“id”的列，它实际上是表示条件行之前（负）或之后（正）斜率的值的组id。这是所需的输出：以下是A组的一些解释：第0,1和2行是斜率为（x=[-3，-2，-1]， y=[2,1,1]）=-0.5的条件行（
从每个组中选择前n条记录

问题内容：我试图从看起来像这样的数据库表结果中选择前2条记录我试过这个查询但是有些主题，例如失踪的地方，我什至尝试了以下链接的建议如何选择每个组的前N行？但是我为每个受检者得到两个以上我究竟做错了什么？问题答案：您可以使用相关的子查询：该查询通过串联三列来构造单列主键。如果您有真正的主键（如），则可以用代替。 SQL Fiddle中的示例。
获取每组分组结果的前n条记录

问题内容：以下是最简单的示例，尽管任何解决方案都应能够扩展到需要n个顶级结果的地方：给定下面的表格，其中包含“人员”，“组”和“年龄”列，您将如何获得每个组中年龄最大的2个人？（组内的关系不应产生更多结果，而应按字母顺序给出前两个）所需的结果集：注意：这个问题建立在先前的问题上- 获取每组分组的SQL结果的最大值的记录 -用于从每组中获取一个顶行，并且从@Bohemian那里收到
在T-SQL中按每N条记录分组

问题内容：我在数据库上有一些性能测试结果，我要做的是将每1000条记录分组（以前按日期升序排列），然后将结果与 AVG 进行汇总。我实际上正在寻找标准的SQL解决方案，但是任何T-SQL特定的结果也值得赞赏。查询如下所示：问题答案：这样的事情应该会让您入门。如果您可以提供实际的架构，我可以进行适当的更新。
everyNth - 获得数组中的每个第 n 个元素

返回数组中的每个第 n 个元素。使用 Array.filter() 创建一个包含给定数组的每个第 n 个元素的新数组。 const everyNth = (arr, nth) => arr.filter((e, i) => i % nth === nth - 1); everyNth([1, 2, 3, 4, 5, 6], 2); // [ 2, 4, 6 ]

相关阅读

获得每个组的最佳结果（在Oracle中）如何在SQL Server 2008中获取每个组的第一条记录和最后一条记录？检索每个组中的最后一条记录-MySQL 如何获得在每个学科中获得最高分的学生的名字？获取每个组的第一条记录的列表

相关文章

指针数组（数组每个元素都是指针）实习感受和一些记得的面经（已经一个月）#记录一下秋招最差的体验#Vim获得帮助 n个结点的二叉树种类

相关问答

pyspark-分组并选择N个最高值如何在Java中获得两个n维数组的总和？获取每组分组SQL结果的最大值记录从n个排序数组中获得k个最小值的时间复杂度？如何从数组中获得前N个元素

相关工具

Pandas N-blog Sklearn-pandas pandas-profiling Pandas AI

相关文档

每周一个 Python 3 模块中文版 Python Pandas 中文教程获得场景视频云点播文档获得场景视频云直播文档获得场景视频云课堂文档