当前位置：首页 > 面试题库 >

从熊猫返回多列apply（）

公羊宗清

2023-03-14

问题内容：

我有一个熊猫DataFrame ，df_test。它包含一列“大小”，以字节为单位表示大小。我已经使用以下代码计算了KB，MB和GB：

df_test = pd.DataFrame([
    {'dir': '/Users/uname1', 'size': 994933},
    {'dir': '/Users/uname2', 'size': 109338711},
])

df_test['size_kb'] = df_test['size'].astype(int).apply(lambda x: locale.format("%.1f", x / 1024.0, grouping=True) + ' KB')
df_test['size_mb'] = df_test['size'].astype(int).apply(lambda x: locale.format("%.1f", x / 1024.0 ** 2, grouping=True) + ' MB')
df_test['size_gb'] = df_test['size'].astype(int).apply(lambda x: locale.format("%.1f", x / 1024.0 ** 3, grouping=True) + ' GB')

df_test


             dir       size       size_kb   size_mb size_gb
0  /Users/uname1     994933      971.6 KB    0.9 MB  0.0 GB
1  /Users/uname2  109338711  106,776.1 KB  104.3 MB  0.1 GB

[2 rows x 5 columns]

我已经运行了超过120,000行，并且根据％timeit，每列花费的时间约为2.97秒* 3 =〜9秒。

无论如何，我可以使它更快吗？例如，我是否可以代替一次套用并运行3次而不是一次返回一列，而是可以一次通过返回所有三列以将其插入回原始数据帧吗？

我发现的其他问题都希望 采用多个值并返回一个值 。我想要 一个值并返回多列 。

问题答案：

这是一个古老的问题，但是为了完整起见，您可以从包含新数据的应用函数中返回一个Series，从而避免了需要迭代3次的麻烦。传递axis=1到apply函数sizes会将函数应用于数据框的每一行，并返回一个序列以添加到新的数据框。这个系列s包含新值以及原始数据。

def sizes(s):
    s['size_kb'] = locale.format("%.1f", s['size'] / 1024.0, grouping=True) + ' KB'
    s['size_mb'] = locale.format("%.1f", s['size'] / 1024.0 ** 2, grouping=True) + ' MB'
    s['size_gb'] = locale.format("%.1f", s['size'] / 1024.0 ** 3, grouping=True) + ' GB'
    return s

df_test = df_test.append(rows_list)
df_test = df_test.apply(sizes, axis=1)

类似资料：

多列熊猫get_dummies

问题内容：我有一个包含多个列的数据集，我希望对其进行一次热编码。但是，我不想为每个编码都有编码，因为所说的列与所说的项目有关。我想要的是一组使用所有列的虚拟变量。请参阅我的代码以获得更好的解释。假设我的数据框如下所示：如果我执行输出将是但是，我想获得的是这样的东西：代替具有表示编码，例如多列的和，我只希望有一组（，，等等）与值时任何在列中的值的，，显示出来。需要说明的是，在我的原始数
熊猫：直接从“日期时间”列返回时间

问题内容：假设我有一个时间戳值的DataFrame ：我想创建一个新列。我可以通过编写一个简短的函数并使用它来迭代地创建它来创建它：然后，我将看到以下结果：什么我想实现的是这样一些较短的转变（我知道是错误的，但在精神得到）：显然，该列是类型的，因此没有这些属性，但是似乎有一种使用矩阵运算的简单方法。有更直接的方法吗？问题答案：假设时间戳是数据帧的索引，则可以执行以下操作：如果
熊猫pd.read_excel（）返回空字典

我是一个新手Python程序员，我有一个问题加载pd.read_excel（）函数的xlsx工作簿。熊猫read_excel留档说，指定'sheet_name=无'应该返回"所有工作表作为DataFrames的字典"，但是我得到了一个空字典回来：返回：当我尝试在字典中打印工作表名称时：返回：我不清楚为什么输出字典中没有列出工作表。任何提示都非常感谢。
熊猫：多层列名称

问题内容：支持多级列名：此功能非常有用，因为它允许“水平”地将同一数据框的多个版本附加到区分实例的列名称的第一级（在我的示例中）。想象一下我已经有一个这样的数据框：有没有一种好方法可以向列名添加另一个级别，类似于行索引：问题答案：无需创建元组列表采用：结果数据框： 2014年1月25日起提出要求
大熊猫：to_numeric用于多列

问题内容：我正在使用以下df：我想在所有年份中强制使用数字：有没有简单的方法可以做到这一点，还是我必须全部输入？问题答案：更新：您以后不需要转换值，可以在读取CSV时即时进行：如果您需要将多列转换为数字dtypes，请使用以下技术：样本来源DF：将选定的列转换为数字dtypes： PS，如果要选择所有（）列，请使用以下简单技巧：
选择跨多列与python熊猫？

问题内容：我有一个从csv文件构建的pandas中的数据框。数据框有几列，并由其中一列进行索引（这是唯一的，因为每一行都有用于该索引的该列的唯一值。）如何基于应用于多个列的“复杂”过滤器选择数据框的行？我可以轻松地从列中大于10的数据框中选择切片，例如：但是，如果我想要的东西就像一个过滤器：选择的切片，其中任何列都大于10？或者，如果for的值大于10但值小于5？这些如何在熊猫中实现

相关阅读

选择跨多列与python熊猫？熊猫列值到列？从多索引熊猫中选择在熊猫中设置多列索引熊猫-替换列值

相关文章

C语言函数的返回值 CSS多列布局面试结束了，猫猫镇楼拼多多产品二面面试回顾多项式回归 Polynomial Regression

相关问答

（熊猫）df。mean（）返回奇怪的值[重复]熊猫：从多级列索引中删除一个级别？熊猫：按多个列中的值筛选组合熊猫中的多个数据列熊猫列值到列？[重复]

相关工具

熊猫Flash播放器仿天猫App可打开列表具有视差效果的右滑返回猫国建设者红猫软路由

相关文档

变现猫接入文档 v1.4 Blockly 系列教程 JavaScript 系列教程实战 Groovy 系列 ES6 系列连载