当前位置: 首页 > 编程笔记 >

pandas 选择重复

丁韬
2023-03-14
本文向大家介绍pandas 选择重复,包括了pandas 选择重复的使用技巧和注意事项,需要的朋友参考一下

示例

如果需要将值设置0为column B,则在columnA中的重复数据中,首先使用创建掩码Series.duplicated,然后使用DataFrame.ix或Series.mask:

In [224]: df = pd.DataFrame({'A':[1,2,3,3,2],
     ...:                    'B':[1,7,3,0,8]})

In [225]: mask = df.A.duplicated(keep=False)

In [226]: mask
Out[226]: 
0    False
1     True
2     True
3     True
4     True
Name: A, dtype: bool

In [227]: df.ix[mask, 'B'] = 0

In [228]: df['C'] = df.A.mask(mask, 0)

In [229]: df
Out[229]: 
   A  B  C
0  1  1  1
1  2  0  0
2  3  0  0
3  3  0  0
4  2  0  0

如果需要反面罩使用~:

In [230]: df['C'] = df.A.mask(~mask, 0)

In [231]: df
Out[231]: 
   A  B  C
0  1  1  0
1  2  0  2
2  3  0  3
3  3  0  3
4  2  0  2
           

 类似资料:
  • 我需要选择满足以下条件的行: 如果(X为真,Z为假)(X为假,Z为真),则将True作为值赋给新列。 我试过这个: 但是我得到了以下错误: ValueError:序列的真值不明确。使用a.empty、a.bool()、a.item()、a.any()或a.all()。 我尝试使用任何(),如下所示

  • 问题内容: 我想知道Pandas DataFrames中是否有一种优雅而简捷的方式来按数据类型(dtype)选择列。即从DataFrame中仅选择int64列。 详细来说, 先谢谢您的帮助 问题答案: df.loc[:, df.dtypes == np.float64]

  • 我想调用一个函数时,选择的任何选项。类似于这样: 但不知何故不起作用。有人能帮忙吗。 请注意 我不想捕获更改事件,如果我选择已经选择选项,则不会触发更改事件

  • 随机抽样,是统计学中常用的一种方法,它可以帮助我们从大量的数据中快速地构建出一组数据分析模型。在 Pandas 中,如果想要对数据集进行随机抽样,需要使用 sample() 函数。 sample() 函数的语法格式如下: 参数说明如下表所示: 参数名称 参数说明 n 表示要抽取的行数。 frac 表示抽取的比例,比如 frac=0.5,代表抽取总体数据的50%。 replace 布尔值参数,表示是

  • 问题内容: 在该文档是 非常 简洁http://pandas.pydata.org/pandas- docs/stable/generated/pandas.DataFrame.query.html 。我也无法通过网络搜索找到投影的示例。 因此,我尝试仅提供列名:这给出了语法错误。同样地键入内容,然后键入列名称。那么..该怎么做? 问题答案: 玩弄了一会儿,并通过阅读后的源代码的,我不能想出一个办