当前位置：首页 > 面试题库 >

将熊猫数据框与关键重复项合并

曹普松

2023-03-14

问题内容：

我有2个数据框，两个数据框都有一个可能有重复的键列，但这些数据框大多具有相同的重复键。我想将这些数据帧合并到该键上，但是以这样的方式，当两个数据帧具有相同的重复项时，这些重复项将分别合并。另外，如果一个数据框比另一个数据框具有更多的重复键，我希望将其值填充为NaN。例如：

df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K2', 'K2', 'K3'],
                    'A':   ['A0', 'A1', 'A2', 'A3', 'A4', 'A5']}, 
                   columns=['key', 'A'])
df2 = pd.DataFrame({'B':   ['B0', 'B1', 'B2', 'B3', 'B4', 'B5', 'B6'],
                    'key': ['K0', 'K1', 'K2', 'K2', 'K3', 'K3', 'K4']}, 
                   columns=['key', 'B'])

  key   A
0  K0  A0
1  K1  A1
2  K2  A2
3  K2  A3
4  K2  A4
5  K3  A5

  key   B
0  K0  B0
1  K1  B1
2  K2  B2
3  K2  B3
4  K3  B4
5  K3  B5
6  K4  B6

我正在尝试获得以下输出

   key    A   B
0   K0   A0  B0
1   K1   A1  B1
2   K2   A2  B2
3   K2   A3  B3
6   K2   A4  NaN
8   K3   A5  B4
9   K3  NaN  B5
10  K4  NaN  B6

因此，基本上，我想将重复的K2键视为K2_1，K2_2 …，然后在数据帧上进行how =’outer’合并。有什么想法我可以做到这一点吗？

问题答案：

再快一点

%%cython
# using cython in jupyter notebook
# in another cell run `%load_ext Cython`
from collections import defaultdict
import numpy as np

def cg(x):
    cnt = defaultdict(lambda: 0)

    for j in x.tolist():
        cnt[j] += 1
        yield cnt[j]


def fastcount(x):
    return [i for i in cg(x)]

df1['cc'] = fastcount(df1.key.values)
df2['cc'] = fastcount(df2.key.values)

df1.merge(df2, how='outer').drop('cc', 1)

更快的答案；不可扩展

def fastcount(x):
    unq, inv = np.unique(x, return_inverse=1)
    m = np.arange(len(unq))[:, None] == inv
    return (m.cumsum(1) * m).sum(0)

df1['cc'] = fastcount(df1.key.values)
df2['cc'] = fastcount(df2.key.values)

df1.merge(df2, how='outer').drop('cc', 1)

旧答案

df1['cc'] = df1.groupby('key').cumcount()
df2['cc'] = df2.groupby('key').cumcount()

df1.merge(df2, how='outer').drop('cc', 1)

在此处输入图片说明

类似资料：

合并熊猫数据帧与关键副本

我有两个数据帧，都有一个键列，可能有重复项，但数据帧大部分都有相同的重复键。我希望在该键上合并这些数据帧，但这样做的方式是，当两者具有相同的副本时，这些副本将分别合并。此外，如果一个数据帧的键的副本比另一个多，我希望它的值填充为NaN。例如：我正在尝试获得以下输出所以基本上，我想把复制的K2键当作K2_1，K2_2。。。然后在数据帧上进行how='outer'合并。你知道我怎样才能做到这一点吗
熊猫-从数据框中完全删除重复项[重复]

我想从熊猫数据框中完全删除重复的项目。例如，我有数据框：我要做的是在列中查找唯一的值，并删除所有重复的项。。因此，最终产品将如下所示（注意已消失）：谢谢。
熊猫：重塑数据框架

我有一个数据框架，目前看起来是这样的，数据框架1 我需要创建一个像这样的数据帧。数据框架2 我需要从数据帧1列的值填充数据帧2的列。图片显示了示例。对此应该有什么算法和过程？这是示例数据集
如何在熊猫数据框中找到重复数据？[重复]

我的任务是突出显示熊猫数据框中的所有电子邮件副本。是否有一个函数用于此操作，或者有一种方法可以删除所有非重复项，从而为我留下一个很好的列表，列出数据集中的所有重复项？该表由六列组成：我想摆脱最后一列，因为最后一封邮件不是重复的。
如何在熊猫数据框枢轴？[重复]

我有一个csv格式的表格，看起来像这样。我想转置该表，以便指示符名称列中的值是新列，我希望最终结果是这样的：我尝试过使用熊猫数据框架，但没有多大成功。你有没有想过如何做到这一点？谢谢
熊猫数据框，按值复制

问题内容：我注意到程序中存在一个错误，发生该错误的原因是因为熊猫似乎是通过引用熊猫数据框而不是通过值进行复制。我知道不可变对象将始终通过引用传递，但pandas数据帧不是不可变的，因此我不明白为什么它通过引用传递。谁能提供一些信息？谢谢！安德鲁问题答案： Python中的所有函数都是“按引用传递”，没有“按值传递”。如果要显式复制pandas对象，请尝试。

相关阅读

熊猫将数据框列写入csv 熊猫：重塑数据将熊猫数据框转换为序列堆叠数据框列（熊猫）大熊猫：在多列上合并（合并）两个数据框

相关文章

熊猫优选交互设计师面经数据与数据结构 Tableau数据混合 Tableau数据聚合与数据源数据连接

相关问答

总结一个熊猫数据框，单列[重复]熊猫数据框使用列作为行[重复]检查熊猫中的重复数据[重复]将熊猫数据帧转换为Numpy ndarray[重复]将标量转换为熊猫数据帧[重复]

相关工具

熊猫Flash播放器数据库处理框架公共集合框架包蓝牙接收与发送数据丁丁主数据查重工具

相关文档

JS 数据结构与算法 JavaScript 算法与数据结构数据结构与算法 / leetcode / lintcode 题解纸上谈兵：算法与数据结构 Oracle 备份与恢复