问题：

Pandas DataFrame列到列表[重复]

冉昊

2023-03-14

我从一个列中提取数据的子集，基于满足另一个列中的条件。

我可以得到正确的值，但它在pandas.core.frame.DataFrame中。如何将其转换为列表？

import pandas as pd

tst = pd.read_csv('C:\\SomeCSV.csv')

lookupValue = tst['SomeCol'] == "SomeValue"
ID = tst[lookupValue][['SomeCol']]
#How To convert ID to a list

共有3个答案

东方森

2023-03-14

您可以使用熊猫。Series.tolist

例如：

import pandas as pd
df = pd.DataFrame({'a':[1,2,3], 'b':[4,5,6]})

运行：

>>> df['a'].tolist()

你会得到

>>> [1, 2, 3]

韦鸣

2023-03-14

我想澄清几件事：

正如其他答案所指出的，最简单的方法是使用pandas.Series.tolist（）。我不知道为什么得票最多的答案是使用pandas.Series.values.tolist（），因为据我所知，它增加了语法/混乱，但没有额外的好处。
tst[lookupValue][['SomeCol']]是一个数据帧（如问题中所述），而不是一个系列（如问题注释中所述）。这是因为tst[lookupValue]是一个数据帧，使用['SomeCol']]对其进行切片会要求列列表（该列表恰好长度为1），从而返回一个数据帧。如果删除额外的一组括号，如在tst[lookupValue]['SomeCol']中所述，那么您只需要这一列，而不是一列列表，这样您就可以得到一个序列。
您需要一个系列来使用pandas.series.tolist（），因此在本例中，您肯定应该跳过第二组括号。仅供参考，如果您最终得到的是一列数据帧，而这种情况很难避免，您可以使用pandas.dataframe.squence（）将其转换为一个系列。
tst[lookupValue]['SomeCol']通过链式切片获取特定列的子集。它切片一次以获得只剩下特定行的数据帧，然后再次切片以获得特定列。您可以在这里进行操作，因为您只是阅读，而不是写作，但是正确的方法是tst.loc[lookupValue，'SomeCol']（返回一个系列）。
使用#4中的语法，您可以合理地在一行中完成所有操作：ID=tst.loc[tst['SomeCol']=='SomeValue'，'SomeCol'].tolist（）

演示代码：

import pandas as pd
df = pd.DataFrame({'colA':[1,2,1],
                   'colB':[4,5,6]})
filter_value = 1

print "df"
print df
print type(df)

rows_to_keep = df['colA'] == filter_value
print "\ndf['colA'] == filter_value"
print rows_to_keep
print type(rows_to_keep)

result = df[rows_to_keep]['colB']
print "\ndf[rows_to_keep]['colB']"
print result
print type(result)

result = df[rows_to_keep][['colB']]
print "\ndf[rows_to_keep][['colB']]"
print result
print type(result)

result = df[rows_to_keep][['colB']].squeeze()
print "\ndf[rows_to_keep][['colB']].squeeze()"
print result
print type(result)

result = df.loc[rows_to_keep, 'colB']
print "\ndf.loc[rows_to_keep, 'colB']"
print result
print type(result)

result = df.loc[df['colA'] == filter_value, 'colB']
print "\ndf.loc[df['colA'] == filter_value, 'colB']"
print result
print type(result)

ID = df.loc[rows_to_keep, 'colB'].tolist()
print "\ndf.loc[rows_to_keep, 'colB'].tolist()"
print ID
print type(ID)

ID = df.loc[df['colA'] == filter_value, 'colB'].tohtml" target="_blank">list()
print "\ndf.loc[df['colA'] == filter_value, 'colB'].tolist()"
print ID
print type(ID)

结果:

df
   colA  colB
0     1     4
1     2     5
2     1     6
<class 'pandas.core.frame.DataFrame'>

df['colA'] == filter_value
0     True
1    False
2     True
Name: colA, dtype: bool
<class 'pandas.core.series.Series'>

df[rows_to_keep]['colB']
0    4
2    6
Name: colB, dtype: int64
<class 'pandas.core.series.Series'>

df[rows_to_keep][['colB']]
   colB
0     4
2     6
<class 'pandas.core.frame.DataFrame'>

df[rows_to_keep][['colB']].squeeze()
0    4
2    6
Name: colB, dtype: int64
<class 'pandas.core.series.Series'>

df.loc[rows_to_keep, 'colB']
0    4
2    6
Name: colB, dtype: int64
<class 'pandas.core.series.Series'>

df.loc[df['colA'] == filter_value, 'colB']
0    4
2    6
Name: colB, dtype: int64
<class 'pandas.core.series.Series'>

df.loc[rows_to_keep, 'colB'].tolist()
[4, 6]
<type 'list'>

df.loc[df['colA'] == filter_value, 'colB'].tolist()
[4, 6]
<type 'list'>

督坚白

2023-03-14

您可以使用Series.to_list方法。

例如：

import pandas as pd

df = pd.DataFrame({'a': [1, 3, 5, 7, 4, 5, 6, 4, 7, 8, 9],
                   'b': [3, 5, 6, 2, 4, 6, 7, 8, 7, 8, 9]})

print(df['a'].to_list())

输出：

[1, 3, 5, 7, 4, 5, 6, 4, 7, 8, 9]

要删除重复项，您可以执行以下操作之一：

>>> df['a'].drop_duplicates().to_list()
[1, 3, 5, 7, 4, 6, 8, 9]
>>> list(set(df['a'])) # as pointed out by EdChum
[1, 3, 4, 5, 6, 7, 8, 9]

Pandas DataFrame列到列表[重复]

共有3个答案

相关问答

相关文章

相关阅读

相关工具

相关文档