我试图通过保持行之间的一致性来随机化我的行,但会混淆行的顺序,从而随机化从属变量。我有以下数据帧:
df
columnOne columnTwo dependentVariable
0 TAG 321511 0
1 ID 1111 0
2 ID 2222 0
3 system 1 0
4 TAG 252524 0
5 ID 3333 0
6 ID 4444 0
7 ID 5555 1
8 ID 6666 1
9 TAG 343536 1
10 Local 22 1
11 ID 7777 1
并将行随机化:
df
columnOne columnTwo dependentVariable
0 TAG 321511 0
8 ID 6666 1
1 ID 1111 0
2 ID 2222 0
9 TAG 343536 1
3 system 1 0
10 Local 22 1
4 TAG 252524 0
11 ID 7777 1
5 ID 3333 0
6 ID 4444 0
7 ID 5555 1
然后执行重置索引,如
df = df.reset_index(drop=True)
期望输出:
df
columnOne columnTwo dependentVariable
0 TAG 321511 0
1 ID 6666 1
2 ID 1111 0
3 ID 2222 0
4 TAG 343536 1
5 system 1 0
6 Local 22 1
7 TAG 252524 0
8 ID 7777 1
9 ID 3333 0
10 ID 4444 0
11 ID 5555 1
如果索引是一个数字,则可以将其洗牌:
df = pd.DataFrame(['A','B','C','D','E','F','G','H','I','j'],columns = ['Data'])
arr = np.arange(len(df))
out = np.random.permutation(arr) # random shuffle
df.ix[out]
假设熊猫数据帧如下所示: 如何将第三行(如row3)提取为pd数据帧?换句话说,row3.shape应该是(1,5),row3.head()应该是:
我想过滤熊猫DataFrame,它从DataFrame中过滤掉除值中声明的行之外的所有其他列。我如何才能做到这一点并获得预期输出。 预期输出:
这似乎是非常基本的知识,但我还是卡住了,尽管我有一些数据处理的理论背景(通过其他软件)。值得一提的是,我是蟒蛇和熊猫图书馆的新手。 我的任务是将系列名称列的值作为单独的列(从长到宽转换)。我花了很长时间尝试不同的方法,但只有错误。 例如: 我犯了一个错误: ...很多短信...通过值的长度是2487175,索引暗示2 有谁能指导我完成这个过程吗?谢谢 它用于代码“mydata=mydata”。pi
问题内容: 有没有一种方法可以从Pandas的DataFrame中选择随机行。 在R中,使用汽车包装,有一个有用的功能,它类似于head,但在此示例中,从x中随机选择10行。 我也看过切片文档,似乎没有什么等效的。 现在使用版本20。有一个示例方法。 问题答案: 像这样吗 注: 由于熊猫v0.20.0的, 已被弃用,赞成基于标签索引。
我有一个熊猫数据框,看起来像这样。 我想确定猫和蝙蝠是重复的相同值,因此想删除一条记录,只保留第一条记录。所得到的数据帧应该只具有。
我试图用python中的pandas和numpy创建一个空的数据帧,这样一个数据帧就充满了NaN,但每次它似乎都充满了值。为什么会发生这种情况,我如何使一个空的? 这是我已经尝试过的: 我使用的方法是基于关于制作空数据框的问题的答案,在这些问题中,它们声明它们应该工作。但是我没有得到想要的结果。那么如何创建一个空数据框呢?