当前位置: 首页 > 面试题库 >

根据长度将数据帧分为相对均匀的块

孔寒
2023-03-14
问题内容

我必须创建一个函数,将提供的数据帧分成所需大小的块。例如,如果数据帧包含1111行,我希望能够指定400行的块大小,并获得三个较小的数据帧,分别具有400、400和311的大小。是否有方便的功能来完成这项工作?在切片的数据帧上存储和迭代的最佳方法是什么?

示例数据框

import numpy as np
import pandas as pd

test = pd.concat([pd.Series(np.random.rand(1111)), pd.Series(np.random.rand(1111))], axis = 1)

问题答案:

您可以将序列的底数划分为数据帧中的行数,然后将其用于groupby将数据帧拆分为大小相等的块:

n = 400
for g, df in test.groupby(np.arange(len(test)) // n):
    print(df.shape)
# (400, 2)
# (400, 2)
# (311, 2)


 类似资料:
  • 我有9个ignite服务器实例,其缓存处于模式,在这种模式下,我用Kafka从分区并行加载数据。这里的分区包含的条目数可以通过字段唯一标识,我还使用将条目从一个分区配置到一个实例。我将key定义为, 因此,我试图在ignite实例中的缓存项和分区之间实现一对一的映射,例如。但在我的例子中,我得到的映射是, 这里实现了关联配置部分,即具有相同分区ID的条目缓存在相同的ignite实例上。但是,数据在

  • 0.1-0.2:********** 0.2-0.3:******** 0.3-0.4:********* 0.5-0.6:********* 0.6-0.7:********* 0.7-0.8:********* 0.4-0.5:********* 0.5-0.6:********* 0.6-0.7:********* 0.1-0.2:********* 0.2-0.3:********* 0.

  • 我有两个数据帧df1和df2。df1就像一个具有以下值的字典 df2具有以下值: 我想基于df1数据帧中的,将df2拆分为3个新的数据帧。 日期,TLRA_权益栏应位于数据框 预期产出: > 数据帧 消费者,非周期性数据帧 请让我知道如何有效地做。我想做的是连接列名,例如,然后根据列名的前半部分分割数据帧。 代码: 但这很复杂。需要更好的解决方案。

  • 问题内容: 我将如何能够采取像一个字符串 ,并将其分成4个长度元组像(,,) 问题答案: 用途:

  • 我在SE上看到过关于压缩算法的问题,但没有一个完全符合我的要求。显然,真正均匀分布的数据无法压缩,但我们能做到多近? 我(可能是错误的)想法:我会想象通过转换数据(以某种方式标准化?),您可以强调几乎一致的数据的非均匀性方面,然后使用转换集进行压缩,可能与逆变换或其参数一起进行。但也许我完全错了,当数据接近均匀性时,它们的表现都一样糟糕? 当我查看(无损)压缩算法列表时,我看不出它们对某些类型的数

  • 问题内容: 假设我要在2d矩形区域内插值。我的变量“ z”包含如下所示的数据。每列的值都是恒定的,但是,数组的每一行的值可以不同,如下面的注释所示。 作为另一种可视化方法,我知道的值数组为: 我不知道“?” 值,并且应该对其进行插值。我尝试将它们替换为“无”,但是所有结果都得到“ nan”。 编辑: 我想我需要使用’griddata’或’interp2’。griddata似乎产生了我期望的结果,但