问题：

计算每个数据帧行中的发生次数，然后创建最频繁的列

杨轶

2023-03-14

我试图比较一个数据帧（500000x3）行中的三个浮点值，我希望这三个值是相同的，或者至少是其中的两个。我想在假设它们并非完全不同的情况下选择出现最多的值。我目前尝试的玩具示例如下所示：

mydf
   a  b  c
0  1  1  2
1  3  3  3
2  1  3  3
3  4  5  4
3  4  5  5



mydft = mydf.transpose()
    counts=[]
    for col in mydft:
        counts.append(mydft[col].value_counts())

然后我考虑循环计数，并为每个计数选择最高值，但这非常缓慢，而且感觉不舒服。我也试过：

truth = mydf['a'] == mydf['b']

为了保持计算结果为真的行，并对那些不为真的行做一些处理，但我在真实的行中有1000个NaN值，显然NaN==NaN是False。有什么建议吗？

共有2个答案

孙胜泫

2023-03-14

这是我从@coldspeed中学到的一个快速方法

dummies = pd.get_dummies(df.astype(str)).groupby(by=lambda x: x.split('_')[1], axis=1).sum()

df['new'] = dummies.idxmax(1)

   a  b  c new
0  1  1  2   1
1  3  3  3   3
2  1  3  3   3
3  4  5  4   4
3  4  5  5   5

说明：

我们可以使用pd.get\u dummies对每列中的项目进行一次热编码，因为get\u dummies不会接受数字，所以我们必须将它们转换为字符串。

pd.get_dummies(df.astype(str))

   a_1  a_3  a_4  b_1  b_3  b_5  c_2  c_3  c_4  c_5
0    1    0    0    1    0    0    1    0    0    0
1    0    1    0    0    1    0    0    1    0    0
2    1    0    0    0    1    0    0    1    0    0
3    0    0    1    0    0    1    0    0    1    0
3    0    0    1    0    0    1    0    0    0    1

现在，如果你只将列中的数字分组并求和，我们可以得到每行的值计数。也就是说

   1  2  3  4  5
0  2  1  0  0  0
1  0  0  3  0  0
2  1  0  2  0  0
3  0  0  0  2  1
3  0  0  0  1  2

在一个热编码上使用idxmax（axis=1）将获得列名，这是行中所需的最大重复数。

0    1
1    3
2    3
3    4
3    5
dtype: object

编辑：

如果数据帧中有字符串，则选择速度比任何东西都快的get_dummies，如果有数字，则必须选择scipy模式或pandas模式

陶原

2023-03-14

我们可以用模式...

from scipy import stats


value,count=stats.mode(df.values,axis=1)
value
Out[180]: 
array([[1],
       [3],
       [3],
       [4],
       [5]], dtype=int64)


count
Out[181]: 
array([[2],
       [3],
       [2],
       [2],
       [2]])

分配回来后

df['new']=value
df
Out[183]: 
   a  b  c  new
0  1  1  2    1
1  3  3  3    3
2  1  3  3    3
3  4  5  4    4
3  4  5  5    5

计算每个数据帧行中的发生次数，然后创建最频繁的列

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档