当前位置：首页 > 面试题库 >

熊猫分组后并行应用

萧自珍

2023-03-14

问题内容：

我曾经在之后rosetta.parallel.pandas_easy进行并行化，例如：apply``groupby

from rosetta.parallel.pandas_easy import groupby_to_series_to_frame
df = pd.DataFrame({'a': [6, 2, 2], 'b': [4, 5, 6]},index= ['g1', 'g1', 'g2'])
groupby_to_series_to_frame(df, np.mean, n_jobs=8, use_apply=True, by=df.index)

但是，有没有人想出如何并行化返回DataFrame的函数？rosetta如预期，此代码对于失败。

def tmpFunc(df):
    df['c'] = df.a + df.b
    return df

df.groupby(df.index).apply(tmpFunc)
groupby_to_series_to_frame(df, tmpFunc, n_jobs=1, use_apply=True, by=df.index)

问题答案：

尽管确实应该将其内置到熊猫中，但这似乎可行

import pandas as pd
from joblib import Parallel, delayed
import multiprocessing

def tmpFunc(df):
    df['c'] = df.a + df.b
    return df

def applyParallel(dfGrouped, func):
    retLst = Parallel(n_jobs=multiprocessing.cpu_count())(delayed(func)(group) for name, group in dfGrouped)
    return pd.concat(retLst)

if __name__ == '__main__':
    df = pd.DataFrame({'a': [6, 2, 2], 'b': [4, 5, 6]},index= ['g1', 'g1', 'g2'])
    print 'parallel version: '
    print applyParallel(df.groupby(df.index), tmpFunc)

    print 'regular version: '
    print df.groupby(df.index).apply(tmpFunc)

    print 'ideal version (does not work): '
    print df.groupby(df.index).applyParallel(tmpFunc)

类似资料：

熊猫df.iterrows（）并行化

问题内容：我想并行化以下代码：由于每一行都可以独立处理，因此我尝试使用它，但是我不知道如何共享DataFrame。我也不确定这是否是与熊猫并行化的最佳方法。有什么帮助吗？问题答案：就像@Khris在他的评论中说的那样，您应该将数据帧分成几个大块，并并行地遍历每个块。您可以将数据帧任意分成随机大小的块，但是根据您计划使用的进程数将数据帧分成大小相等的块更有意义。幸运的是，已经有人想出了如何为
在熊猫分组之后对每个组进行采样

问题内容：我知道必须在某些地方回答此问题，但我找不到它。问题：groupby操作后对每个组进行采样。问题答案：应用lambda并使用param调用：
熊猫分组和总和

我正在使用此数据框：我想通过名称和水果将其聚合，得到每个名称的水果总数。我试着按名字和水果分组，但如何得到水果的总数呢。
对熊猫分组操作进行排序

问题内容：如何对pandas groupby操作应用排序？下面的命令返回一个错误，指出“布尔”对象不可调用问题答案：通常，排序是在groupby键上执行的，并且您发现您无法调用groupby对象，您可以做的是调用并传递函数并将列作为kwarg参数传递：另外，您可以在分组之前对df进行排序：更新资料对于不建议使用的版本，请参见docs，现在应使用：在这里在评论中添加@xgdgsc的答案
在熊猫中分配组的第一行

我想分配一个组的第一行。输入：我尝试了：但是我只得到第一排。我想要这样的输出:
熊猫：分组使用多个功能

问题内容：我的数据有年龄，还有每月付款。我正在尝试汇总付款总额，但不汇总年龄（平均有效）。是否可以对不同的列使用不同的功能？问题答案：您可以将列名作为键，将想要的函数作为值传递给字典。

相关阅读

Python-通过熊猫DataFrame分组并选择最常用的值熊猫分组的月份和年份如何用熊猫将多行合并为单行熊猫中的“反合并”（Python）熊猫的转换不起作用按输出分组

相关文章

《招商银行深圳分行》Java后端一面面经并发和并行的区别 [实例]抓取猫眼电影排行榜 MySQL过滤分组 MySQL分组查询

相关问答

熊猫基于列将两行合并为一行熊猫-应用替换功能与条件行用熊猫读取并合并文件[副本]我如何将熊猫分组以获得总和？大熊猫

相关工具

熊猫Flash播放器猫国建设者红猫软路由 TOM猫学说话demo 仿天猫App可打开列表

相关文档

利用 Python 进行数据分析 · 第 2 版变现猫接入文档 v1.4 PWA 应用实战 Erlang 并发编程 C++并发编程