当前位置：首页 > 面试题库 >

在pandas中跨列替换重复值

邢心水

2023-03-14

问题内容：

我有这样一个简单的数据框：

df = [    {'col1' : 'A', 'col2': 'B', 'col3':   'C', 'col4':'0'},
          {'col1' : 'M', 'col2':   '0', 'col3': 'M', 'col4':'0'},
          {'col1' : 'B', 'col2':  'B', 'col3':  '0', 'col4':'B'},
          {'col1' : 'X', 'col2':  '0', 'col3':  'Y', 'col4':'0'}
          ]
df = pd.DataFrame(df)
df = df[['col1', 'col2', 'col3', 'col4']]
df

看起来像这样：

| col1 | col2 | col3 | col4 |
|------|------|------|------|
| A    | B    | C    | 0    |
| M    | 0    | M    | 0    |
| B    | B    | 0    | B    |
| X    | 0    | Y    | 0    |

我只想在行之间用字符“ 0”替换重复的字符。归结为保留我们遇到的第一个重复值，如下所示：

| col1 | col2 | col3 | col4 |
|------|------|------|------|
| A    | B    | C    | 0    |
| M    | 0    | 0    | 0    |
| B    | 0    | 0    | 0    |
| X    | 0    | Y    | 0    |

这看起来很简单，但是我被卡住了。任何朝着正确方向前进的人都会受到感激。

问题答案：

您可以使用该duplicated方法返回一个布尔索引器，该索引器确定元素是否重复：

In [214]: pd.Series(['M', '0', 'M', '0']).duplicated()
Out[214]:
0    False
1    False
2     True
3     True
dtype: bool

然后，您可以通过在数据框的各行之间映射此掩码并使用where其进行替换来创建掩码：

is_duplicate = df.apply(pd.Series.duplicated, axis=1)
df.where(~is_duplicate, 0)

  col1 col2 col3 col4
0    A    B    C    0
1    M    0    0    0
2    B    0    0    0
3    X    0    Y    0

类似资料：

组合替换pandas列中的字符串[重复]

我有以下形式的数据帧：我想替换几个字符串，但其中一些字符串之后会有相同的输出。所以现在我用的是：这将导致预期的结果：但是命令行变得有些混乱，有没有更聪明的方法来做到这一点？类似于：如果我尝试，这个逻辑：正则表达式匹配两个单词中的一个
用pandas中的empty_rows替换pandas dataframe中的NAN[重复]

我有下表(df)：我想用empty_row替换dataframe中的NaNs。我该怎么做？我怎么解决这个？
在字符串[重复]中替换"by\"

如何使用bash将字符串中的替换为？例如： txt文件包含如下文本：这必须转化为：我试过了但这不管用。这是怎么回事？
如何在pandas（python）[复制]中用其他值替换NAN

例如，我想把'NAN'换成'dog'和'cat'。像从1-30'楠'应该换成'dog'，从40-100'应该换成'cat'。我应该怎么做
在pandas中有效使用替换

问题内容：我希望在python3中以有效的方式使用该功能。我拥有的代码可以完成任务，但是速度太慢，因为我正在处理大型数据集。因此，只要有折衷，我的工作重点就是效率而不是优雅。这是我想做的玩具：这使如我所愿，但是花费的时间太长了。最快的方法是什么？编辑：这是比该问题更集中和明确的问题，其解决方案与此类似。问题答案：用于执行查找：为了避免没有有效密钥的情况，您可以通过您还可以使用回答有
tidyverse中跨多列的字符串替换

我的数据帧所有值都是字符串。同学们，我想用空格代替非空格。我知道但是有没有一种(tidyverse风格的)更普遍的方式来做到这一点呢？大约也就是说，我正在寻找一种可以很好地扩展的解决方案。提前致谢。

相关阅读

有效地将一列中的值替换为另一列Pandas DataFrame 在pandas数据框中分组重复的列ID 有条件替换 Pandas python pandas删除重复的列如何用NaN替换pandas中的值？

相关文章

页面替换算法 Tableau替换数据源 Java字符串的替换 Java字符串替换实例 JavaScript算法系列--无连续重复字符的最长子串

相关问答

在Pandas中添加一列函数[重复]在Pandas DataFrame Python中添加新列[重复]Pandas DataFrame列到列表[重复]如何在Pandas数据帧的列中用零替换NaN值？python pandas删除重复列

相关工具

Pandas Sklearn-pandas pandas-profiling Pandas AI 跨平台伙食管理软件

相关文档

Python Pandas 中文教程 Pandas Cookbook 秘籍 Pandas 官方教程 Pandas 函数手册十分钟搞定 pandas