将值类型为list的列展平，同时在Pandas中相应地复制另一列的值

东方涛

2023-03-14

问题内容：

亲爱的大熊猫专家：

我正在尝试实现一个函数来展平具有类型为list的元素的数据框的列，我想要该列具有类型为list的元素的数据框的每一行，除要展平的指定列之外的所有列都将是重复，而指定的列将具有列表中的值之一。

以下说明了我的要求：

input = DataFrame({'A': [1, 2], 'B': [['a', 'b'], 'c']})
     A   B
0    1   [a, b]
1    2   c

expected = DataFrame({'A': [1, 1, 2], 'B': ['a', 'b', 'c']}, index=[0, 0, 1])

     A   B
0    1   a
0    1   b
1    2   c

我觉得可能有一个优雅的解决方案/概念，但是我很挣扎。

这是我的尝试，目前还不行。

def flattenColumn(df, column):
    '''column is a string of the column's name.
    for each value of the column's element (which might be a list), duplicate the rest of columns at the correspdonding row with the (each) value.
    '''
    def duplicate_if_needed(row):
        return concat([concat([row.drop(column, axis = 1), DataFrame({column: each})], axis = 1) for each in row[column][0]])
    return df.groupby(df.index).transform(duplicate_if_needed)

认识到alko的帮助，这是我对该解决方案的简单概括，以处理一个数据帧中的多于2列的问题：

def flattenColumn(input, column):
    '''
    column is a string of the column's name.
    for each value of the column's element (which might be a list),
    duplicate the rest of columns at the corresponding row with the (each) value.
    '''
    column_flat = pandas.DataFrame(
        [
            [i, c_flattened]
            for i, y in input[column].apply(list).iteritems()
            for c_flattened in y
        ],
        columns=['I', column]
    )
    column_flat = column_flat.set_index('I')
    return (
        input.drop(column, 1)
             .merge(column_flat, left_index=True, right_index=True)
    )

目前唯一的限制是列的顺序已更改，列展平将在最右边，而不是在其原始位置。进行修复应该是可行的。

问题答案：

我猜想平坦列表列表的简单方法是纯python代码，因为此对象类型不太适合熊猫或numpy。所以你可以用例如

>>> b_flat = pd.DataFrame([[i, x] 
...               for i, y in input['B'].apply(list).iteritems() 
...                    for x in y], columns=list('IB'))
>>> b_flat = b_flat.set_index('I')

将B列展平，您可以将其合并回去：

>>> input[['A']].merge(b_flat, left_index=True, right_index=True)
   A  B
0  1  a
0  1  b
1  2  c

[3 rows x 2 columns]

如果希望按照预期结果重新创建索引，则可以添加.reset_index(drop=True)到最后一个命令。

将值类型为list的列展平，同时在Pandas中相应地复制另一列的值

相关阅读

相关文章

相关问答

相关工具

相关文档