使用groupby后在Pandas中计算np.diff会导致意外结果

上官培

2023-03-14

问题内容：

我有一个数据框，并且我试图向其添加一列顺序差异。我发现了一种我非常喜欢的方法（并且对于我的用例而言，它具有很好的概括性）。但是我一路上注意到一件奇怪的事。你能帮我弄清楚吗？

以下是一些具有正确结构的数据：

import pandas as pd
import numpy as np
import random
from itertools import product

random.seed(1)       # so you can play along at home
np.random.seed(2)    # ditto

# make a list of dates for a few periods
dates = pd.date_range(start='2013-10-01', periods=4).to_native_types()
# make a list of tickers
tickers = ['ticker_%d' % i for i in range(3)]
# make a list of all the possible (date, ticker) tuples
pairs = list(product(dates, tickers))
# put them in a random order
random.shuffle(pairs)
# exclude a few possible pairs
pairs = pairs[:-3]
# make some data for all of our selected (date, ticker) tuples
values = np.random.rand(len(pairs))

mydates, mytickers = zip(*pairs)
data = pd.DataFrame({'date': mydates, 'ticker': mytickers, 'value':values})

好，很好。这给了我这样的框架：

     date        ticker      value
0    2013-10-03  ticker_2    0.435995
1    2013-10-04  ticker_2    0.025926
2    2013-10-02  ticker_1    0.549662
3    2013-10-01  ticker_0    0.435322
4    2013-10-02  ticker_2    0.420368
5    2013-10-03  ticker_0    0.330335
6    2013-10-04  ticker_1    0.204649
7    2013-10-02  ticker_0    0.619271
8    2013-10-01  ticker_2    0.299655

我的目标是向此数据框添加一个新列，其中将包含顺序更改。数据需要这样做，但是排序和差异需要“逐行代码”完成，以便另一个代码中的间隔不会导致给定代码的NA。我想做到这一点而不会以任何其他方式干扰数据框（即，我不希望根据进行区分的必要性对结果数据框进行重新排序）。以下代码有效：

data1 = data.copy() #let's leave the original data alone for later experiments
data1.sort(['ticker', 'date'], inplace=True)
data1['diffs'] = data1.groupby(['ticker'])['value'].transform(lambda x: x.diff())
data1.sort_index(inplace=True)
data1

并返回：

     date        ticker      value       diffs
0    2013-10-03  ticker_2    0.435995    0.015627
1    2013-10-04  ticker_2    0.025926   -0.410069
2    2013-10-02  ticker_1    0.549662    NaN
3    2013-10-01  ticker_0    0.435322    NaN
4    2013-10-02  ticker_2    0.420368    0.120713
5    2013-10-03  ticker_0    0.330335   -0.288936
6    2013-10-04  ticker_1    0.204649   -0.345014
7    2013-10-02  ticker_0    0.619271    0.183949
8    2013-10-01  ticker_2    0.299655    NaN

到现在为止还挺好。如果我将上面的中间行替换为此处显示的更简洁的代码，则一切仍然有效：

data2 = data.copy()
data2.sort(['ticker', 'date'], inplace=True)
data2['diffs'] = data2.groupby('ticker')['value'].diff()
data2.sort_index(inplace=True)
data2

快速检查表明，实际上data1等于data2。但是，如果我这样做：

data3 = data.copy()
data3.sort(['ticker', 'date'], inplace=True)
data3['diffs'] = data3.groupby('ticker')['value'].transform(np.diff)
data3.sort_index(inplace=True)
data3

我得到一个奇怪的结果：

     date        ticker     value       diffs
0    2013-10-03  ticker_2    0.435995    0
1    2013-10-04  ticker_2    0.025926   NaN
2    2013-10-02  ticker_1    0.549662   NaN
3    2013-10-01  ticker_0    0.435322   NaN
4    2013-10-02  ticker_2    0.420368   NaN
5    2013-10-03  ticker_0    0.330335    0
6    2013-10-04  ticker_1    0.204649   NaN
7    2013-10-02  ticker_0    0.619271   NaN
8    2013-10-01  ticker_2    0.299655    0

这里发生了什么？当您.diff在Pandas对象上调用方法时，它不仅在调用np.diff吗？我知道类上有一个diff方法DataFrame，但是如果没有我以前用来工作transform的lambda函数语法，我无法弄清楚如何将其传递给它data1。我想念什么吗？为什么diffs色谱柱是data3螺旋形的？我如何diff在transform不编写A的情况下调用Pandas方法lambda？

问题答案：

好容易重现的例子！更多问题应该是这样！

只需传递一个lambda进行转换（这等同于直接传递函数对象，例如直接传递np.diff（或Series.diff）。因此，这等效于data1 / data2

In [32]: data3['diffs'] = data3.groupby('ticker')['value'].transform(Series.diff)

In [34]: data3.sort_index(inplace=True)

In [25]: data3
Out[25]: 
         date    ticker     value     diffs
0  2013-10-03  ticker_2  0.435995  0.015627
1  2013-10-04  ticker_2  0.025926 -0.410069
2  2013-10-02  ticker_1  0.549662       NaN
3  2013-10-01  ticker_0  0.435322       NaN
4  2013-10-02  ticker_2  0.420368  0.120713
5  2013-10-03  ticker_0  0.330335 -0.288936
6  2013-10-04  ticker_1  0.204649 -0.345014
7  2013-10-02  ticker_0  0.619271  0.183949
8  2013-10-01  ticker_2  0.299655       NaN

[9 rows x 4 columns]

我相信这np.diff不会遵循numpy自己的unfunc准则来处理数组输入（从而尝试各种方法来强制输入并发送输出，例如__array__，__array_wrap__基于输出的输入）。我不太确定为什么，请在此处查看更多信息。因此，最重要的np.diff是无法正确处理索引并自行计算（在这种情况下是错误的）。

Pandas有很多方法，它们不仅仅调用numpy函数，主要是因为它们处理不同的dtypes，处理nans，并且在这种情况下，处理“特殊”差异。例如，您可以将时间频率传递给datelike-
index，在此它可以计算实际求差n的数量。

使用groupby后在Pandas中计算np.diff会导致意外结果

相关阅读

相关文章

相关问答

相关工具

相关文档