ValueError：值的长度与索引的长度不匹配熊猫DataFrame.unique（）

澹台文博

2023-03-14

问题内容：

我正在尝试获取新的数据集，或将当前数据集列的值更改为其唯一值。这是我尝试获得的示例：

   A B
 -----
0| 1 1
1| 2 5
2| 1 5
3| 7 9
4| 7 9
5| 8 9

Wanted Result    Not Wanted Result
       A B            A B
     -----          -----
    0| 1 1         0| 1 1
    1| 2 5         1| 2 5
    2| 7 9         2| 
    3| 8           3| 7 9
                   4|
                   5| 8

我不太在乎索引，但这似乎是问题所在。到目前为止，我的代码非常简单，我尝试了两种方法，一种是使用新的dataFrame，另一种是不使用。

#With New DataFrame
 def UniqueResults(dataframe):
    df = pd.DataFrame()
    for col in dataframe:
        S=pd.Series(dataframe[col].unique())
        df[col]=S.values
    return df

#Without new DataFrame
def UniqueResults(dataframe):
    for col in dataframe:
        dataframe[col]=dataframe[col].unique()
    return dataframe

两次都出现错误“值的长度与索引的长度不匹配”。

问题答案：

当您尝试向数据帧分配不同长度的numpy数组列表时，会出现此错误，并且可以按以下方式重现该错误：

四行数据框：

df = pd.DataFrame({'A': [1,2,3,4]})

现在尝试为其分配两个元素的列表/数组：

df['B'] = [3,4]   # or df['B'] = np.array([3,4])

两种错误都出来了：

ValueError：值的长度与索引的长度不匹配

因为数据框有四行，但是列表和数组只有两个元素。

解决方法 （谨慎使用）：将列表/数组转换为熊猫系列，然后在进行分配时，系列中的缺失索引将被 NaN 填充：

df['B'] = pd.Series([3,4])

df
#   A     B
#0  1   3.0
#1  2   4.0
#2  3   NaN          # NaN because the value at index 2 and 3 doesn't exist in the Series
#3  4   NaN

对于您的特定问题，如果您不关心索引或列之间的值的对应关系，则可以在删除重复项后为每个列重置索引：

df.apply(lambda col: col.drop_duplicates().reset_index(drop=True))

#   A     B
#0  1   1.0
#1  2   5.0
#2  7   9.0
#3  8   NaN

ValueError：值的长度与索引的长度不匹配熊猫DataFrame.unique（）

相关阅读

相关文章

相关问答

相关工具

相关文档

ValueError：值的长度与索引的长度不匹配 熊猫DataFrame.unique（）

相关阅读

相关文章

相关问答

相关工具

相关文档

ValueError：值的长度与索引的长度不匹配熊猫DataFrame.unique（）