当前位置：首页 > 面试题库 >

熊猫总计数不同

吴俊晤

2023-03-14

问题内容：

假设我有一个用户活动日志，我想生成一个总持续时间和每天唯一身份用户数量的报告。

import numpy as np
import pandas as pd
df = pd.DataFrame({'date': ['2013-04-01','2013-04-01','2013-04-01','2013-04-02', '2013-04-02'],
    'user_id': ['0001', '0001', '0002', '0002', '0002'],
    'duration': [30, 15, 20, 15, 30]})

汇总持续时间非常简单：

group = df.groupby('date')
agg = group.aggregate({'duration': np.sum})
agg
            duration
date
2013-04-01        65
2013-04-02        45

我想做的是同时计算持续时间并计算不重复次数，但我似乎找不到count_distinct的等效项：

agg = group.aggregate({ 'duration': np.sum, 'user_id': count_distinct})

这可行，但是肯定有更好的方法，不是吗？

group = df.groupby('date')
agg = group.aggregate({'duration': np.sum})
agg['uv'] = df.groupby('date').user_id.nunique()
agg
            duration  uv
date
2013-04-01        65   2
2013-04-02        45   1

我在想，我只需要提供一个将Series对象的不同项目的计数返回给聚合函数的函数，但是我对各种库的接触并不多。另外，似乎groupby对象已经知道此信息，所以我不只是重复努力吗？

问题答案：

如何：

>>> df
         date  duration user_id
0  2013-04-01        30    0001
1  2013-04-01        15    0001
2  2013-04-01        20    0002
3  2013-04-02        15    0002
4  2013-04-02        30    0002
>>> df.groupby("date").agg({"duration": np.sum, "user_id": pd.Series.nunique})
            duration  user_id
date                         
2013-04-01        65        2
2013-04-02        45        1
>>> df.groupby("date").agg({"duration": np.sum, "user_id": lambda x: x.nunique()})
            duration  user_id
date                         
2013-04-01        65        2
2013-04-02        45        1

类似资料：

熊猫：添加交叉表总计

问题内容：如何在交叉表中添加总计的另一行和一列？我以为我会添加新列（通过对行求和而获得）但这不起作用。问题答案：这是因为“类似属性”的列访问不适用于整数列名。使用标准索引：请参阅文档本节末尾的警告：http : //pandas.pydata.org/pandas- docs/stable/indexing.html#attribute-access 当您要使用行时，可以使用：在这种
Groupby和熊猫计数

我必须根据以下col1、col2和loc的数据进行分组，并计算col3中的项数。此外，还应考虑开始和结束日期，即日期应在2021 1月1日至2021 1月31日之间。最终结果应显示在col4中。数据预期输出
获取“熊猫”列的总数

我有一个熊猫数据框，如下所示，具有多个列，并希望获得列的总数。我的尝试：我试图使用和获取列的总和：这会导致以下错误：预期产出我预计产出如下：或者，我希望编辑< code>df,在标题为< code>TOTAL的新行中包含总计:
熊猫groupby与bin计数

问题内容：我有一个看起来像这样的DataFrame：我想将其转换为对属于某些bin的视图进行计数，如下所示：我试过了：但它仅提供汇总计数，而不提供用户计数。如何获得用户的垃圾箱计数？总计计数（使用我的真实数据）如下所示：问题答案：您可以按垃圾箱和用户名分组，计算分组大小，然后使用：
计算熊猫数据框中的不同单词

问题内容：我有一个Pandas数据框，其中一列包含文本。我想获得一列出现在整列中的唯一单词的列表（空格是唯一的拆分）。输出应如下所示：获得计数也没有什么坏处，但这不是必需的。问题答案：使用来创建唯一元素的序列。进行一些清理以使小写字母的字符串分解：该列中的每个列表都可以传递给函数以获取唯一值。使用这样做：或与from注释一起使用：
熊猫分组和总和

我正在使用此数据框：我想通过名称和水果将其聚合，得到每个名称的水果总数。我试着按名字和水果分组，但如何得到水果的总数呢。

相关阅读

熊猫运行总和（无循环）熊猫dropna（）函数不起作用熊猫：重塑数据抑制大熊猫的科学计数法吗？熊猫使用groupby的计数创建新列

相关文章

面试阿里巴巴天猫交互设计师四大审计面经总结分享阿里设计师的面试总结大厂设计面试问题汇总 Access总结数据

相关问答

总结一个熊猫数据框，单列[重复]熊猫创建新的列与计数[重复]大熊猫熊猫数据帧绘图从不同的数据帧更新/替换熊猫

相关工具

熊猫Flash播放器方块计数器猫国建设者红猫软路由 Flurry统计数据ANE

相关文档

SQL 合计函数设计模式包教不包会设计数据密集型应用变现猫接入文档 v1.4 小米函数计算开发文档