通过pandas数据框按pandas ID中的两个日期之间的行数进行计数

易衡

2023-03-14

问题内容：

我有以下测试DataFrame：

import random
from datetime import timedelta
import pandas as pd
import datetime

#create test range of dates
rng=pd.date_range(datetime.date(2015,1,1),datetime.date(2015,7,31))
rnglist=rng.tolist()
testpts = range(100,121)
#create test dataframe
d={'jid':[i for i in range(100,121)], 'cid':[random.randint(1,2) for _ in testpts],
    'stdt':[rnglist[random.randint(0,len(rng))] for _ in testpts]}
df=pd.DataFrame(d)
df['enddt'] = df['stdt']+timedelta(days=random.randint(2,32))

它给出了如下所示的数据框，其中包含公司ID列“ cid”，唯一ID列“ jid”，开始日期“ stdt”和enddt“ enddt”。

   cid  jid       stdt      enddt
0    1  100 2015-07-06 2015-07-13
1    1  101 2015-07-15 2015-07-22
2    2  102 2015-07-12 2015-07-19
3    2  103 2015-07-07 2015-07-14
4    2  104 2015-07-14 2015-07-21
5    1  105 2015-07-11 2015-07-18
6    1  106 2015-07-12 2015-07-19
7    2  107 2015-07-01 2015-07-08
8    2  108 2015-07-10 2015-07-17
9    2  109 2015-07-09 2015-07-16

我需要做的是：
计算min（stdt）和max（enddt）之间每个date（newdate）的cid发生的jid数目，其中newdate在stdt和enddt之间。

结果数据集应为每个cid具有一个数据帧，该数据帧的日期范围（新日期）在每个cid的min（stdt）和max（enddt）之间，并且该数字的计数（cnt）
jid表示newdate在min（stdt）和max（enddt）之间。得到的DataFrame应该看起来像（这仅是使用上述数据的1 cid）：

cid newdate cnt
1   2015-07-06  1
1   2015-07-07  1
1   2015-07-08  1
1   2015-07-09  1
1   2015-07-10  1
1   2015-07-11  2
1   2015-07-12  3
1   2015-07-13  3
1   2015-07-14  2
1   2015-07-15  3
1   2015-07-16  3
1   2015-07-17  3
1   2015-07-18  3
1   2015-07-19  2
1   2015-07-20  1
1   2015-07-21  1
1   2015-07-22  1

我相信应该有一种方法可以使用pandas groupby（groupby cid）和某种形式的lambda（？）以Python方式创建此新数据框。

我目前正在运行一个循环，为每个cid（将cid行从主df中切出），在循环中确定相关的日期范围（每个cid帧的最小stdt和max
enddt，然后确定每个新日期（范围为minate） -maxdate），它计算jid的数目，其中newdate在每个jid的stdt和enddt之间。

但是，从资源和时间的角度来看，这是非常昂贵的。数以千计的jid花费了整整一天的时间。我希望这里有一个简单的熊猫解决方案。

问题答案：

对于这些问题，我通常的处理方法是围绕更改累加器的事件进行思考。我们看到的每个新的“ stdt”都会使计数增加+1；我们看到的每个“
enddt”都加-1。（第二天加-1，至少如果我解释您的方式“在两者之间”。某些时候，我认为我们应该禁止过于含糊地使用该词。）

IOW，如果我们将您的框架变成类似

>>> df.head()
    cid  jid  change       date
0     1  100       1 2015-01-06
1     1  101       1 2015-01-07
21    1  100      -1 2015-01-16
22    1  101      -1 2015-01-17
17    1  117       1 2015-03-01

那么我们想要的只是change（经过适当的重组后）的累积总和。例如，类似

df["enddt"] += timedelta(days=1)
df = pd.melt(df, id_vars=["cid", "jid"], var_name="change", value_name="date")
df["change"] = df["change"].replace({"stdt": 1, "enddt": -1})
df = df.sort(["cid", "date"])

df = df.groupby(["cid", "date"],as_index=False)["change"].sum()
df["count"] = df.groupby("cid")["change"].cumsum()

new_time = pd.date_range(df.date.min(), df.date.max())

df_parts = []
for cid, group in df.groupby("cid"):
    full_count = group[["date", "count"]].set_index("date")
    full_count = full_count.reindex(new_time)
    full_count = full_count.ffill().fillna(0)
    full_count["cid"] = cid
    df_parts.append(full_count)

df_new = pd.concat(df_parts)

这给了我类似的东西

>>> df_new.head(15)
            count  cid
2015-01-03      0    1
2015-01-04      0    1
2015-01-05      0    1
2015-01-06      1    1
2015-01-07      2    1
2015-01-08      2    1
2015-01-09      2    1
2015-01-10      2    1
2015-01-11      2    1
2015-01-12      2    1
2015-01-13      2    1
2015-01-14      2    1
2015-01-15      2    1
2015-01-16      1    1
2015-01-17      0    1

关于您的期望可能存在一对一的差异；您可能对如何jid在同一时间窗口中处理多个重叠的s有不同的想法（此处将它们计为2）；但是即使必须微调细节，处理事件的基本思想也应被证明是有用的。

通过pandas数据框按pandas ID中的两个日期之间的行数进行计数

相关阅读

相关文章

相关问答

相关工具

相关文档