问题：

基于其他数据帧中的列值在熊猫数据帧中创建列

陆伟

2023-03-14

我有两个熊猫数据框

import pandas as pd 
import numpy as np
import datetime

data = {'group'      :["A","A","B","B"],
        'val': ["AA","AB","B1","B2"],
        'cal1'     :[4,5,7,6],
        'cal2'     :[10,100,100,10]
       } 

df1 = pd.DataFrame(data) 
df1

    group   val    cal1   cal2
0   A       AA     4      10
1   A       AB     5      100
2   B       B1     7      100
3   B       B2     6      10

data = {'group'      :["A","A","A","B","B","B","B", "B", "B", "B"],
        'flag' : [1,0,0,1,0,0,0, 1, 0, 0],
        'var1': [1,2,3,7,8,9,10, 15, 20, 30]
       } 

# Create DataFrame 
df2 = pd.DataFrame(data) 
df2

    group   flag    var1
0   A       1       1
1   A       0       2
2   A       0       3
3   B       1       7
4   B       0       8
5   B       0       9
6   B       0       10
7   B       1       15
8   B       0       20
9   B       0       30

Step 1: CReate columns in df2(with suffix "_new") based on unique "val" in df1 like below:

unique_val = df1['val'].unique().tolist()
new_cols = [t + '_new' for t in unique_val]
for i in new_cols:
    df2[i] = 0
df2
    group   flag    var1    AA_new  AB_new  B1_new  B2_new
0   A       1        1       0      0       0        0
1   A       0        2       0      0       0        0
2   A       0        3       0      0       0        0
3   B       1        7       0      0       0        0
4   B       0        8       0      0       0        0
5   B       0        9       0      0       0        0
6   B       0        10      0      0       0        0
7   B       1        15      0      0       0        0
8   B       0        20      0      0       0        0
9   B       0        30      0      0       0        0

步骤2：对于flag=1的行，AA_new将计算为var1（来自df2）*组“A”和val“AA”的df1的'cal1'值*组“A”和val“AA”的df1的'cal2'值，类似地，AB_new将计算为var1（来自df2）*组“A”和val“AB”的df1的'cal1'值*组“A”和val“AB”的df1的'cal2'值

我的预期输出如下所示：

    group   flag    var1    AA_new  AB_new  B1_new   B2_new
0   A       1       1       40.0    500.0   0.0      0.0
1   A       0       2       0.0     0.0     0.0      0.0
2   A       0       3       0.0     0.0     0.0      0.0
3   B       1       7       0.0     0.0     4900.0   420.0
4   B       0       8       0.0     0.0     0.0      0.0
5   B       0       9       0.0     0.0     0.0      0.0
6   B       0       10      0.0     0.0     0.0      0.0
7   B       1       15      0.0     0.0     10500.0  900.0
8   B       0       20      0.0     0.0     0.0      0.0
9   B       0       30      0.0     0.0     0.0      0.0

以下基于其他stackflow问题的解决方案部分有效：

df2.assign(**df1.assign(mul_cal = df1['cal1'].mul(df1['cal2']))
                .pivot_table(columns='val',
                             values='mul_cal',
                             index = ['group', df2.index])
                .add_suffix('_new')
                .groupby(level=0)
               .apply(lambda x: x.bfill().ffill()) 
                .reset_index(level='group',drop='group')
                .fillna(0)
                .mul(df2['var1'], axis=0)
                .where(df2['flag'].eq(1), 0)
)

共有1个答案

潘宸

2023-03-14

柔性柱

如果您希望在df1中添加更多行时可以这样做，您可以这样做。

combinations = df1.groupby(['group','val'])['cal3'].sum().reset_index()

for index_, row_ in combinations.iterrows():
    for index, row in df2.iterrows():
        if row['flag'] == 1:
            if row['group'] == row_['group']:
                df2.loc[index, row_['val'] + '_new'] = row['var1'] * df1[(df1['group'] == row_['group']) & (df1['val'] == row_['val'])]['cal3'].values[0]

硬代码

您可以使用iteration to dataframe并在每次迭代中更改其特定列，您可以这样做（但您需要首先将新列添加到df1中）。

df1['cal3'] = df1['cal1'] * df1['cal2']

for index, row in df2.iterrows():
    if row['flag'] == 1:
        if row['group'] == 'A':
            df2.loc[index, 'AA_new'] = row['var1'] * df1[(df1['group'] == 'A') & (df1['val'] == 'AA')]['cal3'].values[0]
            df2.loc[index, 'AB_new'] = row['var1'] * df1[(df1['group'] == 'A') & (df1['val'] == 'AB')]['cal3'].values[0]

        elif row['group'] == 'B':
            df2.loc[index, 'B1_new'] = row['var1'] * df1[(df1['group'] == 'B') & (df1['val'] == 'B1')]['cal3'].values[0]
            df2.loc[index, 'B2_new'] = row['var1'] * df1[(df1['group'] == 'B') & (df1['val'] == 'B2')]['cal3'].values[0]

这是我得到的结果。

类似资料：

基于其他列中的值在Python3（熊猫）数据帧中创建新列

我有一个pandas dataframe，需要根据dataframe中其他列的值创建新列。这是数据帧人城市国家国家美国伊利诺伊州芝加哥美国亚利桑那州凤凰城B酒店 C美国加利福尼亚州圣地亚哥我想根据state中的值创建两个新列创建新列df[“城北”]=df[“城市”]其中state=“伊利诺伊” 创建新列df[“城市南部”]=df[“城市”]，其中州不等于“伊利诺伊州” 我试过了但是不等
基于列值删除熊猫中的数据帧行

我有以下数据帧：我需要删除等于的行。最有效的方法是什么？
根据列值[duplicate]在熊猫中创建类似矩阵的数据帧

我有一个事件日志数据框，每行是一个事件（如查看项目），其中包含列，，以及用户分配项目的。我想创建一个表示所有用户-项目交互的数据框：表示为二维矩阵，每个（i，j）表示用户i和项目j的分数（下图截图）。如果用户尚未看到该产品，则分配NaN。我试过用循环做这件事，但正如预期的那样，运行时间太长：有没有更快的方法？根据评论中的要求，我的数据帧的头部<代码>事件类型与上述分数类似。
从词典中创建熊猫数据帧

我有一本字典的形式：例如，我想转换成熊猫数据帧与列1的用户名和其他列的电影评级，即：但是，一些用户没有对电影进行评分，因此这些电影不包括在该用户键（）的值（）中。在这种情况下，只需用NaN填充条目就好了。现在，我迭代键，填充列表，然后使用此列表创建数据帧：但这只给了我一个用户的数据框，这些用户对片场中的所有电影都进行了评分。我的目标是通过迭代电影标签（而不是上面显示的暴力方法）来追加到
基于列的最大值删除熊猫数据帧行

我有这样一个数据帧：我如何摆脱第四行，因为它有sq_resid的最大值？注意：最大值将从一个数据集更改到另一个数据集，所以仅仅删除第4行是不够的。我已经尝试了一些方法，比如我可以删除像下面这样留下数据帧的最大值，但是无法删除整行。
熊猫从循环创建数据帧

我正在尝试制作一个数据帧，以便可以轻松地将其发送到CSV，否则我必须手动执行此过程。。我希望这是我的最终输出。每个人都有一个月和年的组合，从2014年1月1日开始，一直到2016年1月12日：到目前为止的代码：当我尝试循环创建数据帧时，它要么不工作，要么出现索引错误（因为不匹配列表），我不知所措。我已经做了一点很好的搜索，并找到了以下一些类似的链接，但我不能反向工程的工作，以适应我的情况。

基于其他数据帧中的列值在熊猫数据帧中创建列

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档