创建一个Pandas数据框，其中包含跨越日期范围的项目数

邵羽

2023-03-14

问题内容：

我有一个DF，它有两个感兴趣的日期，看起来像：

LIST_DATE     END_DATE
2000-04-18    2000-05-17 00:00:00
2000-05-18    2000-09-18 00:00:00
2000-04-18    2001-06-07 00:00:00

我按月创建了一个期间索引表“ montot”，该表目前仅具有月和年索引

<class 'pandas.tseries.period.PeriodIndex'>
freq: M
[1999-01, ..., 2013-07]

我想要做的是对第二个表中的每个月“
montot”计数在该时间段内的第一个表中的项目（可能是按月激活的列表），然后将该字段添加到表中…因此例如，第一个表中的第一项将在第4个月中计数为1，第5个月为一次，而第二项将在第5个月至第9个月中计数为1，依此类推。将每月总计记录在新表/字段中。所以我有一张桌子

Month    active
1/1999     5
2/1999     8

等等。尚不知道如何使用Pandas / Python进行处理…

问题答案：

这是一种实现方法，首先value_counts是每个日期列中的句点
（使用to_periodTimestamp方法）：

In [11]: p = pd.PeriodIndex(freq='m', start='2000-1', periods=18)

In [12]: starts = df['LIST_DATE'].apply(lambda t: t.to_period(freq='m')).value_counts()

In [13]: ends = df['END_DATE'].apply(lambda t: t.to_period(freq='m')).value_counts()

通过PeriodIndex重新为这些索引编制索引，填写NaN（以便您可以减去），并从累积结束数中选择累积开始数，以使您当前处于活动状态：

In [14]: starts.reindex(p).fillna(0).cumsum() - ends.reindex(p).fillna(0).cumsum()
Out[14]: 
2000-01    0
2000-02    0
2000-03    0
2000-04    2
2000-05    2
2000-06    2
2000-07    2
2000-08    2
2000-09    1
2000-10    1
2000-11    1
2000-12    1
2001-01    1
2001-02    1
2001-03    1
2001-04    1
2001-05    1
2001-06    0
Freq: M, dtype: float64

最后一个替代步骤是创建一个DataFrame（最初跟踪更改，因此开始为正，结束为负）：

In [21]: current = pd.DataFrame({'starts': starts, 'ends': -ends}, p)

In [22]: current
Out[22]:
         ends  starts
2000-01   NaN     NaN
2000-02   NaN     NaN
2000-03   NaN     NaN
2000-04   NaN       2
2000-05    -1       1
2000-06   NaN     NaN
2000-07   NaN     NaN
2000-08   NaN     NaN
2000-09    -1     NaN
2000-10   NaN     NaN
2000-11   NaN     NaN
2000-12   NaN     NaN
2001-01   NaN     NaN
2001-02   NaN     NaN
2001-03   NaN     NaN
2001-04   NaN     NaN
2001-05   NaN     NaN
2001-06    -1     NaN

In [23]: current.fillna(0)
Out[23]:
         ends  starts
2000-01     0       0
2000-02     0       0
2000-03     0       0
2000-04     0       2
2000-05    -1       1
2000-06     0       0
2000-07     0       0
2000-08     0       0
2000-09    -1       0
2000-10     0       0
2000-11     0       0
2000-12     0       0
2001-01     0       0
2001-02     0       0
2001-03     0       0
2001-04     0       0
2001-05     0       0
2001-06    -1       0

累计跟踪开始和结束时的运行总计：

In [24]: current.fillna(0).cumsum()
Out[24]:
         ends  starts
2000-01     0       0
2000-02     0       0
2000-03     0       0
2000-04     0       2
2000-05    -1       3
2000-06    -1       3
2000-07    -1       3
2000-08    -1       3
2000-09    -2       3
2000-10    -2       3
2000-11    -2       3
2000-12    -2       3
2001-01    -2       3
2001-02    -2       3
2001-03    -2       3
2001-04    -2       3
2001-05    -2       3
2001-06    -3       3

将这些列加在一起，得出当前处于活动状态的列，结果与上面相同：

In [25]: current.fillna(0).cumsum().sum(1)

创建一个Pandas数据框，其中包含跨越日期范围的项目数

相关阅读

相关文章

相关问答

相关工具

相关文档