了解pandas数据框索引

百里阳平

2023-03-14

问题内容：

摘要：这不起作用：

df[df.key==1]['D'] = 1

但是这样做：

df.D[df.key==1] = 1

为什么？

再生产：

In [1]: import pandas as pd

In [2]: from numpy.random import randn

In [4]: df = pd.DataFrame(randn(6,3),columns=list('ABC'))

In [5]: df
Out[5]: 
          A         B         C
0  1.438161 -0.210454 -1.983704
1 -0.283780 -0.371773  0.017580
2  0.552564 -0.610548  0.257276
3  1.931332  0.649179 -1.349062
4  1.656010 -1.373263  1.333079
5  0.944862 -0.657849  1.526811

In [6]: df['D']=0.0

In [7]: df['key']=3*[1]+3*[2]

In [8]: df
Out[8]: 
          A         B         C  D  key
0  1.438161 -0.210454 -1.983704  0    1
1 -0.283780 -0.371773  0.017580  0    1
2  0.552564 -0.610548  0.257276  0    1
3  1.931332  0.649179 -1.349062  0    2
4  1.656010 -1.373263  1.333079  0    2
5  0.944862 -0.657849  1.526811  0    2

这不起作用：

In [9]: df[df.key==1]['D'] = 1

In [10]: df
Out[10]: 
          A         B         C  D  key
0  1.438161 -0.210454 -1.983704  0    1
1 -0.283780 -0.371773  0.017580  0    1
2  0.552564 -0.610548  0.257276  0    1
3  1.931332  0.649179 -1.349062  0    2
4  1.656010 -1.373263  1.333079  0    2
5  0.944862 -0.657849  1.526811  0    2

但是这样做：

In [11]: df.D[df.key==1] = 3.4

In [12]: df
Out[12]: 
          A         B         C    D  key
0  1.438161 -0.210454 -1.983704  3.4    1
1 -0.283780 -0.371773  0.017580  3.4    1
2  0.552564 -0.610548  0.257276  3.4    1
3  1.931332  0.649179 -1.349062  0.0    2
4  1.656010 -1.373263  1.333079  0.0    2
5  0.944862 -0.657849  1.526811  0.0    2

链接到笔记本

我的问题是：

为什么只有第二种方式起作用？我似乎看不到选择/索引逻辑的差异。

版本是0.10.0

编辑：这不应该再这样了。从0.11版开始，提供.loc。参见此处：http : //pandas.pydata.org/pandas-
docs/stable/indexing.html

问题答案：

大熊猫文档说：

返回视图与副本

关于何时返回数据视图的规则完全取决于NumPy。每当索引操作涉及标签数组或布尔向量时，结果将是副本。使用单个标签/标量索引和切片，例如df.ix
[3：6]或df.ix [:,’A’]，将返回视图。

在df[df.key==1]['D']您首先进行布尔切片（导致 Dataframe 的副本），然后选择列[‘D’]。

在中df.D[df.key==1] = 3.4，您首先选择一列，然后对所得 Series 进行布尔切片。

尽管我必须承认这有点违反直觉，但这似乎有所不同。

编辑
：区别是由Dougal标识的，请参阅他的评论：对于版本1，将在为__getitem__布尔切片调用方法时进行复制。对于版本2，仅__setitem__访问该方法-
因此不返回副本而是仅进行分配。

了解pandas数据框索引

相关阅读

相关文章

相关问答

相关工具

相关文档