我有一个如下所示的pandas数据框,并通过一列保存数据组id
:
import numpy as np
import pandas as pd
df = pd.DataFrame(np.random.randn(10, 4), columns=list('ABCD'))
df['id'] = ['W', 'W', 'W', 'Z', 'Z', 'Y', 'Y', 'Y', 'Z', 'Z']
print(df)
A B C D id
0 0.347501 -1.152416 1.441144 -0.144545 w
1 0.775828 -1.176764 0.203049 -0.305332 w
2 1.036246 -0.467927 0.088138 -0.438207 w
3 -0.737092 -0.231706 0.268403 0.464026 x
4 -1.857346 -1.420284 -0.515517 -0.231774 x
5 -0.970731 0.217890 0.193814 -0.078838 y
6 -0.318314 -0.244348 0.162103 1.204386 y
7 0.340199 1.074977 1.201068 -0.431473 y
8 0.202050 0.790434 0.643458 -0.068620 z
9 -0.882865 0.687325 -0.008771 -0.066912 z
现在,我想创建新的数据框(名为df_w,df_x,df_y,df_z),这些数据框仅保存其原始数据中的数据,并在一些可迭代的列表(例如列表)中进行最佳组合:
df_w
A B C D id
0 0.347501 -1.152416 1.441144 -0.144545 w
1 0.775828 -1.176764 0.203049 -0.305332 w
2 1.036246 -0.467927 0.088138 -0.438207 w
df_x
A B C D id
0 -0.737092 -0.231706 0.268403 0.464026 x
1 -1.857346 -1.420284 -0.515517 -0.231774 x
df_y
A B C D id
0 -0.970731 0.217890 0.193814 -0.078838 y
1 -0.318314 -0.244348 0.162103 1.204386 y
2 0.340199 1.074977 1.201068 -0.431473 y
df_z
A B C D id
0 0.202050 0.790434 0.643458 -0.068620 z
1 -0.882865 0.687325 -0.008771 -0.066912 z
有没有使用groupby,apply和/或applymap和函数来实现此目的的智能(矢量化熊猫)方法?
我当时正在考虑对数据框进行迭代,但这似乎不是很优雅。
预先感谢您的任何提示!
我们可以创建DF的字典:
In [166]: dfs = {k:v for k,v in df.groupby('id')}
In [168]: dfs.keys()
Out[168]: dict_keys(['W', 'Y', 'Z'])
In [169]: dfs['W']
Out[169]:
A B C D id
0 -0.373021 -0.555218 0.022980 -0.512323 W
1 -1.599466 0.637292 0.045059 -0.334030 W
2 0.100659 0.557068 0.142226 -0.186214 W
In [170]: dfs['Y']
Out[170]:
A B C D id
5 0.540107 -0.739077 0.992408 2.010203 Y
6 -0.201376 -0.913222 -0.173284 1.837442 Y
7 -1.367659 0.915360 0.072720 -0.886071 Y
In [171]: dfs['Z']
Out[171]:
A B C D id
3 -0.329087 0.842431 0.839319 -0.597823 Z
4 -0.594375 -0.950486 1.125584 0.116599 Z
8 0.366667 -0.978279 -1.449893 0.192451 Z
9 -0.007439 -0.084612 0.010192 -0.417602 Z
更新: 重置索引:
In [177]: {k:v.reset_index(drop=True) for k,v in df.groupby('id')}
Out[177]:
{'W': A B C D id
0 -0.373021 -0.555218 0.022980 -0.512323 W
1 -1.599466 0.637292 0.045059 -0.334030 W
2 0.100659 0.557068 0.142226 -0.186214 W,
'Y': A B C D id
0 0.540107 -0.739077 0.992408 2.010203 Y
1 -0.201376 -0.913222 -0.173284 1.837442 Y
2 -1.367659 0.915360 0.072720 -0.886071 Y,
'Z': A B C D id
0 -0.329087 0.842431 0.839319 -0.597823 Z
1 -0.594375 -0.950486 1.125584 0.116599 Z
2 0.366667 -0.978279 -1.449893 0.192451 Z
3 -0.007439 -0.084612 0.010192 -0.417602 Z}
我需要从不同的字典中创建一个熊猫数据框架,其中键必须作为数据框架内的列名。如果数据帧没有将键列为列,则必须动态创建键,并将其作为新列附加到数据帧。 我希望输入为, 输出应该是,, 循环的第一次迭代将键作为数据框的列名称,如果没有数据框,则创建值作为第一行的数据框。 第二次迭代检查键是否作为列出现在数据帧中,如果已经出现则插入,否则创建列并插入值作为第二行。 我确实不知道如何在python中动态运行
我有两个数据框,都包含英文和中文单词字符串,我想知道其中一个是另一个的子集:
我正在尝试基于第二个数据框的值周围的范围创建一个数据框的子集,我一直在进行研究,但我就是想不出如何去做。我在这里使用了虚拟数据,因为它们都是包含许多列的大型数据集。 数据帧1(df1)有50列,数千条不同纬度的记录 数据帧2(df2)有数百个城镇,都位于不同纬度,比df1小得多 我需要df1的一个子集,它只包括纬度在df2纬度0.01范围内的行。所以代码需要查看df1的每一行,并根据df2的每一行
null null 为什么要使用UDF/UADF而不是map(假设map保留在数据集表示中)?
我有一个需要一个数据帧作为输入的计算。我想对存储在扩展到51GB的netCDF文件中的数据运行此计算-目前,我一直在使用打开文件,并使用块(我的理解是,此打开的文件实际上是一个dask数组,因此一次只能将数据块加载到内存中)。但是,我似乎无法利用这种延迟加载,因为我必须将xarray数据转换为pandas数据帧才能运行我的计算——我的理解是,在这一点上,所有数据都加载到内存中(这是不好的)。 所以