当前位置: 首页 > 知识库问答 >
问题:

使用熊猫识别重复的一行程序?[重复]

寇桐
2023-03-14

在准备数据分析师面试问题时,我发现“使用熊猫在“一行”中找到所有重复的电子邮件(不是唯一的电子邮件)。”

我最好的不是一行,而是三行:

# initialize dataframe 
import pandas as pd
d = {'email':['a','b','c','a','b']}
df= pd.DataFrame(d)

# select emails having duplicate entries
results = pd.DataFrame(df.value_counts())
results.columns = ['count']
results[results['count'] > 1]

>>>
    count
email   
b   2
a   2

后一个注释后面的第二个代码块是否可以压缩成一行代码,避免使用临时变量< code>results?

共有1个答案

爱琪
2023-03-14

只需使用< code >复制的:

>>> df[df.duplicated()]
  email
3     a
4     b

或者如果你想要一个列表:

>>> df[df["email"].duplicated()]["email"].tolist()
['a', 'b']
 类似资料:
  • 我对Python是新手。我有以下代码:

  • 我有1个数据帧,我想选择所有没有重复的行 我的df: 我的输出应该是: 我正在使用熊猫数据框 有什么建议吗?

  • 试图弄清楚为什么下面的函数返回可怕的...这是我的函数,它打算通过引用修改数据框。 不符合要求的行是

  • 我正在尝试按“百分比”对数据帧的内容进行排序。那种似乎不起作用。 代码-在此处输入图像描述

  • 我有一个数据框架,其中有一列用于分组和问题答案列: 我想将问题的列移到行中,这样所需的数据框将如下所示: ...依此类推,直到最后一行: 最好的方法是什么?

  • 我有以下代码: 我要做的是检查文件是否在当前目录中。如果找不到,则创建该文件。 如果找到该文件,则在中下载spy ticker数据,并将该数据附加到中,并将其保存在csv文件中。 问题 我如何摆脱列,为什么会出现该列?