问题：

合并熊猫数据帧与关键副本

松俊美

2023-03-14

我有两个数据帧，都有一个键列，可能有重复项，但数据帧大部分都有相同的重复键。我希望在该键上合并这些数据帧，但这样做的方式是，当两者具有相同的副本时，这些副本将分别合并。此外，如果一个数据帧的键的副本比另一个多，我希望它的值填充为NaN。例如：

df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K2', 'K2', 'K3'],
                    'A':   ['A0', 'A1', 'A2', 'A3', 'A4', 'A5']}, 
                   columns=['key', 'A'])
df2 = pd.DataFrame({'B':   ['B0', 'B1', 'B2', 'B3', 'B4', 'B5', 'B6'],
                    'key': ['K0', 'K1', 'K2', 'K2', 'K3', 'K3', 'K4']}, 
                   columns=['key', 'B'])

  key   A
0  K0  A0
1  K1  A1
2  K2  A2
3  K2  A3
4  K2  A4
5  K3  A5

  key   B
0  K0  B0
1  K1  B1
2  K2  B2
3  K2  B3
4  K3  B4
5  K3  B5
6  K4  B6

我正在尝试获得以下输出

   key    A   B
0   K0   A0  B0
1   K1   A1  B1
2   K2   A2  B2
3   K2   A3  B3
6   K2   A4  NaN
8   K3   A5  B4
9   K3  NaN  B5
10  K4  NaN  B6

所以基本上，我想把复制的K2键当作K2_1，K2_2。。。然后在数据帧上进行how='outer'合并。你知道我怎样才能做到这一点吗？

共有1个答案

闾丘才哲

2023-03-14

再快一点

%%cython
# using cython in jupyter notebook
# in another cell run `%load_ext Cython`
from collections import defaultdict
import numpy as np

def cg(x):
    cnt = defaultdict(lambda: 0)

    for j in x.tolist():
        cnt[j] += 1
        yield cnt[j]


def fastcount(x):
    return [i for i in cg(x)]

df1['cc'] = fastcount(df1.key.values)
df2['cc'] = fastcount(df2.key.values)

df1.merge(df2, how='outer').drop('cc', 1)

更快的回答；不可伸缩

def fastcount(x):
    unq, inv = np.unique(x, return_inverse=1)
    m = np.arange(len(unq))[:, None] == inv
    return (m.cumsum(1) * m).sum(0)

df1['cc'] = fastcount(df1.key.values)
df2['cc'] = fastcount(df2.key.values)

df1.merge(df2, how='outer').drop('cc', 1)

老答案

df1['cc'] = df1.groupby('key').cumcount()
df2['cc'] = df2.groupby('key').cumcount()

df1.merge(df2, how='outer').drop('cc', 1)

类似资料：

将熊猫数据框与关键重复项合并

问题内容：我有2个数据框，两个数据框都有一个可能有重复的键列，但这些数据框大多具有相同的重复键。我想将这些数据帧合并到该键上，但是以这样的方式，当两个数据帧具有相同的重复项时，这些重复项将分别合并。另外，如果一个数据框比另一个数据框具有更多的重复键，我希望将其值填充为NaN。例如：我正在尝试获得以下输出因此，基本上，我想将重复的K2键视为K2_1，K2_2 …，然后在数据帧上进行how =’
如何合并 pyspark 和熊猫数据帧

我有一个非常大的 pyspark 数据帧和一个较小的熊猫数据帧，我读入如下：这两个数据帧都包含标记为“A”和“B”的列。我想创建另一个 pyspark 数据帧，其中只有 df1 中的那些行，其中“A”和“B”列中的条目出现在中同名的列中。也就是说，使用 df2 的列“A”和“B”过滤 df1。通常我认为这将是一个连接（通过实现），但是如何将熊猫数据帧与 pyspark 数据帧连接起来？我负
熊猫：子索引数据帧：副本与视图

假设我有一个数据帧我从我的数据子集创建另一个数据帧：是否保存了中这些元素的副本？有没有办法创建该数据的？如果是这样，如果我尝试修改此视图中的数据会发生什么情况？Pandas是否提供任何类型的写时拷贝机制？
熊猫按条件顺序合并数据帧

假设我有2个数据帧： DF1： Col1 | Col2 | Col3 XCN000370/17-18C|XCN0003711718C|0003971718 DF2 Col1 | Col2 | Col3 XCN0003711718C|XCN0003711718C|0003971718 我希望它们像这样合并：首次匹配Col1（DF1）和Col1（DF2）在保持不匹配的情况下，将Col1（DF1）与
如何在熊猫中合并“（df1＆not df2）”数据帧？

问题内容：我有2个带有通用列/键（x，y）的熊猫数据框df1和df2。我想对键（x，y）进行“（df1＆not df2）”合并，这意味着我希望我的代码返回仅包含df1中而不包含df2中包含（x，y）行的数据框。 SAS具有等效功能谁能优雅地在熊猫中复制相同的功能？如果我们可以在merge（）中指定how =“ left-right”，那就太好了。问题答案：我刚刚升级到10天前发布的版本0
熊猫数据帧绘图

我有这个熊猫数据框这就给了我：我该怎么办做一个新的人物，将标题添加到图"标题这里" 以某种方式创建一个映射，这样标签不是29,30等，而是“29周”，“30周”等。将图表的较大版本保存到我的计算机（例如10 x 10英寸）这件事我已经琢磨了一个小时了！

合并熊猫数据帧与关键副本

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档