当前位置: 首页 > 面试题库 >

熊猫MultiIndex DataFrame.rolling偏移量

宇文俊风
2023-03-14
问题内容

为什么在rolling多索引DataFrame时不能使用偏移量? 例如,使用:

rng = pd.date_range('2017-01-03', periods=20, freq='8D')
i = pd.MultiIndex.from_product([['A','B','C'], rng], names=['Name','Date'])
df = pd.DataFrame(np.random.randn(60), i, columns=['Vals'])

如果我尝试使用偏移量进行分组和滚动,则会显示“ ValueError:窗口必须为整数 ”:

df['Avg'] = df.groupby(['Name'])['Vals'].rolling('30D').mean() # << Why doesn't this work?

并不是说以下这些变体可以满足我的需求,但是请注意对int作品进行分组和滚动:

df['Avg'] = df.groupby(['Name'])['Vals'].rolling(4).mean()

我可以在DataFrame的单索引子集上使用偏移量滚动:

d = df.loc['A']
d['Avg'] = d['Vals'].rolling('30D').mean()

如果确实不可能在多索引DataFrame上进行偏移滚动,那么将零应用于每个0级索引项的最有效的解决方法是什么?


问题答案:

为了使用像“
30D”这样的偏移量,您需要一个简单的日期索引。在这种情况下,最简单的实现方法是使用,将“名称”移出索引reset_index(level='Name'),而只将“日期”作为索引:

df['Avg'] = df.reset_index(level='Name').groupby(['Name'])['Vals'].rolling('30D').mean()


 类似资料:
  • 问题内容: 我感到困惑的是,大熊猫如何用这些行超出日期时间对象的范围: 这是设置的日期时间,并且是格式的日期信息。 此逻辑似乎适用于模拟数据(没有错误,日期有意义),因此目前我无法重现,但由于以下错误导致我的整个数据失败: 问题答案: 由于熊猫以纳秒分辨率表示时间戳,因此可以使用64位整数表示的时间跨度限制为大约584年 而且您的值超出此范围2262-05-01 00:00:00,因此发生出站错误

  • 问题内容: Python 3.4和Pandas 0.15.0 df是一个数据框,而col1是一列。使用下面的代码,我正在检查是否存在值10,并将此类值替换为1000。 这是另一个例子。这次,我将基于索引更改col2中的值。 这两种都会产生以下警告: 最后, 这会产生类似的警告,并带有以下建议: 我不确定我是否理解警告中指出的讨论。编写这三行代码的更好方法是什么? 请注意,该操作有效。 问题答案:

  • 问题内容: 我想将 大于任意数(在这种情况下为100)的值替换为(因为如此大的值表示实验失败)。以前,我使用它来替换不需要的值: 但是,出现以下错误: 从这个StackExchange问​​题来看,有时似乎可以忽略此警告,但是我不能很好地跟踪讨论,无法确定这是否适用于我的情况。警告基本上是让我知道我将覆盖我的某些值吗? 编辑:据我所知,一切都按其应有的方式进行。作为后续措施,我的替换值方法是否非标

  • 我有一个数据帧,如: 所以我想通过两个“for循环”添加一些列,如: 新的类似数据帧的图片: 我的代码不起作用: 如何编写代码来获得像第二张图片这样的数据帧?

  • 问题内容: 我刚刚发现了json_normalize函数,该函数在获取JSON对象并给我一个熊猫Dataframe时效果很好。现在,我想要反向操作,该操作采用相同的Dataframe并给我一个与原始json具有相同结构的json(或类似json的字典,我可以轻松地将其转换为json)。 这是一个示例:https : //hackersandslackers.com/json-into-pandas

  • 问题内容: 在下面,male_trips是一个大熊猫数据帧,station是一个小熊猫数据帧。对于每个车站ID,我想知道有多少次男性旅行。以下工作可以完成,但是需要很长时间: 我应该怎么做呢? 更新!因此,有两种主要方法:其次是和更简单的方法。我很快完成了,这种方法大获全胜!这是代码: 结果如下: 请注意,以这种速度,用于探索数据 键入 value_counts的速度稍微快一些,而且记不起来了!