当前位置：首页 > 面试题库 >

在熊猫分组之后对每个组进行采样

宗苗宣

2023-03-14

问题内容：

我知道必须在某些地方回答此问题，但我找不到它。

问题：groupby操作后对每个组进行采样。

import pandas as pd

df = pd.DataFrame({'a': [1,2,3,4,5,6,7],
                   'b': [1,1,1,0,0,0,0]})

grouped = df.groupby('b')

# now sample from each group, e.g., I want 30% of each group

问题答案：

应用lambda并sample使用param调用frac：

In [2]:
df = pd.DataFrame({'a': [1,2,3,4,5,6,7],
                   'b': [1,1,1,0,0,0,0]})

grouped = df.groupby('b')
grouped.apply(lambda x: x.sample(frac=0.3))

Out[2]:
     a  b
b        
0 6  7  0
1 2  3  1

类似资料：

对熊猫分组操作进行排序

问题内容：如何对pandas groupby操作应用排序？下面的命令返回一个错误，指出“布尔”对象不可调用问题答案：通常，排序是在groupby键上执行的，并且您发现您无法调用groupby对象，您可以做的是调用并传递函数并将列作为kwarg参数传递：另外，您可以在分组之前对df进行排序：更新资料对于不建议使用的版本，请参见docs，现在应使用：在这里在评论中添加@xgdgsc的答案
熊猫分组后并行应用

问题内容：我曾经在之后进行并行化，例如：但是，有没有人想出如何并行化返回DataFrame的函数？如预期，此代码对于失败。问题答案：尽管确实应该将其内置到熊猫中，但这似乎可行
熊猫：分别对每一列进行排序

问题内容：我的数据框看起来像这样，只是更大了。首先，我尝试对每个列进行单独排序。我试过玩类似的东西：但是最终只会出错。如何分别对每一列进行排序，以得到类似以下内容的结果：其次，我希望将列中的行连接起来在用’‘替换np.nan之后，我可以将所有内容与上面的行结合起来，但是结果一起被粉碎（’AB’），并且需要额外的步骤来清理（变成’A：B’之类）。问题答案：这是一种方法：但是，您所做的有
熊猫groupby：每组前3个值

问题内容：在 pandas groupby上发布了一个新的更通用的问题：每个组中的前3个值并存储在DataFrame中，并且在那里已经找到了可行的解决方案。在此示例中，我创建了一个数据帧，其中的一些随机数据间隔为5分钟。我想创建一个数据框（ df分组），其中列出了每小时的 3个最高值。即：从这一系列价值我非常接近解决方案，但我找不到最后一步的正确语法。我到现在为止（）的结果是：我想从
在每个组熊猫数据框中对列进行排序并选择前n行

问题内容：我有一个这样的数据框：我要然后然后为每个pidx 然后是每个组的前2名。我正在寻找的结果是这样的：我试过的是：这似乎可行，但我不知道如果处理庞大的数据集，这是否是正确的方法。我还能使用什么其他最佳方法来获得这种结果？问题答案：有两种解决方案： 1.和合计： 2.和合计：时间：
在熊猫中分配组的第一行

我想分配一个组的第一行。输入：我尝试了：但是我只得到第一排。我想要这样的输出:

在熊猫分组之后对每个组进行采样

相关阅读

相关文章

相关问答

相关工具

相关文档