当前位置: 首页 > 知识库问答 >
问题:

熊猫-如何随机化数据帧的行[重复]

桂嘉年
2023-03-14

我试图通过保持行之间的一致性来随机化我的行,但会混淆行的顺序,从而随机化从属变量。我有以下数据帧:

df
   columnOne columnTwo dependentVariable
0  TAG       321511    0
1  ID        1111      0
2  ID        2222      0
3  system    1         0
4  TAG       252524    0
5  ID        3333      0
6  ID        4444      0
7  ID        5555      1
8  ID        6666      1 
9  TAG       343536    1
10 Local     22        1 
11 ID        7777      1

并将行随机化:

df
   columnOne columnTwo dependentVariable
0  TAG       321511    0
8  ID        6666      1
1  ID        1111      0
2  ID        2222      0
9  TAG       343536    1
3  system    1         0
10 Local     22        1
4  TAG       252524    0
11 ID        7777      1
5  ID        3333      0
6  ID        4444      0
7  ID        5555      1

然后执行重置索引,如

 df = df.reset_index(drop=True)  

期望输出:

df
   columnOne columnTwo dependentVariable
0  TAG       321511    0
1  ID        6666      1
2  ID        1111      0
3  ID        2222      0
4  TAG       343536    1
5  system    1         0
6  Local     22        1
7  TAG       252524    0
8  ID        7777      1
9  ID        3333      0
10 ID        4444      0
11 ID        5555      1    

共有1个答案

丌官承
2023-03-14

如果索引是一个数字,则可以将其洗牌:

df = pd.DataFrame(['A','B','C','D','E','F','G','H','I','j'],columns = ['Data'])

arr = np.arange(len(df))
out = np.random.permutation(arr) # random shuffle

df.ix[out]
 类似资料:
  • 假设熊猫数据帧如下所示: 如何将第三行(如row3)提取为pd数据帧?换句话说,row3.shape应该是(1,5),row3.head()应该是:

  • 我想过滤熊猫DataFrame,它从DataFrame中过滤掉除值中声明的行之外的所有其他列。我如何才能做到这一点并获得预期输出。 预期输出:

  • 这似乎是非常基本的知识,但我还是卡住了,尽管我有一些数据处理的理论背景(通过其他软件)。值得一提的是,我是蟒蛇和熊猫图书馆的新手。 我的任务是将系列名称列的值作为单独的列(从长到宽转换)。我花了很长时间尝试不同的方法,但只有错误。 例如: 我犯了一个错误: ...很多短信...通过值的长度是2487175,索引暗示2 有谁能指导我完成这个过程吗?谢谢 它用于代码“mydata=mydata”。pi

  • 问题内容: 有没有一种方法可以从Pandas的DataFrame中选择随机行。 在R中,使用汽车包装,有一个有用的功能,它类似于head,但在此示例中,从x中随机选择10行。 我也看过切片文档,似乎没有什么等效的。 现在使用版本20。有一个示例方法。 问题答案: 像这样吗 注: 由于熊猫v0.20.0的, 已被弃用,赞成基于标签索引。

  • 我有一个熊猫数据框,看起来像这样。 我想确定猫和蝙蝠是重复的相同值,因此想删除一条记录,只保留第一条记录。所得到的数据帧应该只具有。

  • 我试图用python中的pandas和numpy创建一个空的数据帧,这样一个数据帧就充满了NaN,但每次它似乎都充满了值。为什么会发生这种情况,我如何使一个空的? 这是我已经尝试过的: 我使用的方法是基于关于制作空数据框的问题的答案,在这些问题中,它们声明它们应该工作。但是我没有得到想要的结果。那么如何创建一个空数据框呢?