当前位置：首页 > 面试题库 >

熊猫分层抽样

归翔

2023-03-14

问题内容：

我查看了Sklearn分层抽样文档，pandas文档以及基于列的Pandas分层抽样和sklearn分层抽样，但它们没有解决此问题。

我正在寻找一种快速的pandas / sklearn / numpy方法从数据集中生成大小为n的分层样本。但是，对于少于指定采样数的行，应采用所有条目。

谢谢！:)

问题答案：

使用min经过数样本时。考虑数据框df

df = pd.DataFrame(dict(
        A=[1, 1, 1, 2, 2, 2, 2, 3, 4, 4],
        B=range(10)
    ))

df.groupby('A', group_keys=False).apply(lambda x: x.sample(min(len(x), 2)))

   A  B
1  1  1
2  1  2
3  2  3
6  2  6
7  3  7
9  4  9
8  4  8

类似资料：

熊猫：多层列名称

问题内容：支持多级列名：此功能非常有用，因为它允许“水平”地将同一数据框的多个版本附加到区分实例的列名称的第一级（在我的示例中）。想象一下我已经有一个这样的数据框：有没有一种好方法可以向列名添加另一个级别，类似于行索引：问题答案：无需创建元组列表采用：结果数据框： 2014年1月25日起提出要求
熊猫分组和总和

我正在使用此数据框：我想通过名称和水果将其聚合，得到每个名称的水果总数。我试着按名字和水果分组，但如何得到水果的总数呢。
熊猫SettingWithCopyWarning

问题内容： Python 3.4和Pandas 0.15.0 df是一个数据框，而col1是一列。使用下面的代码，我正在检查是否存在值10，并将此类值替换为1000。这是另一个例子。这次，我将基于索引更改col2中的值。这两种都会产生以下警告：最后，这会产生类似的警告，并带有以下建议：我不确定我是否理解警告中指出的讨论。编写这三行代码的更好方法是什么？请注意，该操作有效。问题答案：
熊猫：SettingWithCopyWarning

问题内容：我想将大于任意数（在这种情况下为100）的值替换为（因为如此大的值表示实验失败）。以前，我使用它来替换不需要的值：但是，出现以下错误：从这个StackExchange问题来看，有时似乎可以忽略此警告，但是我不能很好地跟踪讨论，无法确定这是否适用于我的情况。警告基本上是让我知道我将覆盖我的某些值吗？编辑：据我所知，一切都按其应有的方式进行。作为后续措施，我的替换值方法是否非标
大熊猫

我有一个数据帧，如：所以我想通过两个“for循环”添加一些列，如：新的类似数据帧的图片：我的代码不起作用：如何编写代码来获得像第二张图片这样的数据帧？
分层抽样的适用范围

本文向大家介绍分层抽样的适用范围相关面试题，主要包含被问及分层抽样的适用范围时的应答技巧和注意事项，需要的朋友参考一下参考回答：分层抽样利用事先掌握的信息,充分考虑了保持样本结构和总体结构的一致性,当总体由差异明显的几部分组成的时候,适合用分层抽样。
分组/分类年龄列在Python熊猫

我有一个数据框，上面写着有一列 <代码> 我想对这些年龄段进行分组，并创建一个类似这样的新专栏如何使用Pandas库实现这一点。我试过这样做但这样做我得到了这个警告 /Users/Anand/miniconda3/envs/learn/lib/python3.7/site packages/ipykernel_launcher.py:3:SettingWithCopyWarning:试图在数
熊猫分组后并行应用

问题内容：我曾经在之后进行并行化，例如：但是，有没有人想出如何并行化返回DataFrame的函数？如预期，此代码对于失败。问题答案：尽管确实应该将其内置到熊猫中，但这似乎可行

熊猫分层抽样

相关阅读

相关文章

相关问答

相关工具

相关文档