我有一个包含“名称”列的DataFrame(df)。在“ Occ_Number”列中,我希望对“ Name”中每个值的出现次数进行统计。
例如:
Name Occ_Number
abc 1
def 1
ghi 1
abc 2
abc 3
def 2
jkl 1
jkl 2
我一直在尝试提出一种使用
>df['Name'].value_counts()
但不能完全弄清楚如何将它们结合在一起。我只能从value_counts()中获得总计。到目前为止,我的过程涉及使用以下代码创建“名称”列字符串值的列表,该列表包含大于1的计数:
>things = df['Name'].value_counts()
>things = things[things > 1]
>queries = things.index.values
我希望然后以某种方式在“名称”中循环,并通过检查查询有条件地将其添加到Occ_Number,但这就是我遇到的问题。有人知道这样做的方法吗?我将不胜感激任何帮助。谢谢!
您cumcount
可以避免使用伪列:
>>> df["Occ_Number"] = df.groupby("Name").cumcount()+1
>>> df
Name Occ_Number
0 abc 1
1 def 1
2 ghi 1
3 abc 2
4 abc 3
5 def 2
6 jkl 1
7 jkl 2
我正在遍历一个LinkedHashMap并递增I counter,下面是我使用for循环的方式
问题内容: 我正在寻找一个简单的JavaScript计时器。我发现的所有剧本都是“都唱歌跳舞”。我只想要一个免费的,最小的烦恼计数计时器,以分钟和秒显示。谢谢。 问题答案: 检查一下:
本文向大家介绍关于Java中递增和递减运算符的有趣事实,包括了关于Java中递增和递减运算符的有趣事实的使用技巧和注意事项,需要的朋友参考一下 关于Java中的递增和递减运算符,有许多有趣的事实。我们将通过示例讨论其中的一些- 增量和减量运算符不能与'final'变量一起使用。这是由于与'final'关键字相关联的变量无法更改的事实- 示例 输出结果 无法嵌套'++'和'--'运算符。 示例 输出
问题内容: 我正在处理一个大型文本文件(500k行),其格式如下: 我正在使用下面的代码返回每个系列的相关系数,例如S!_A16: 但是,在一些大文件上,这将返回错误: 我了解这与该声明有关,但是如何解决? 编辑 :这与最大行数有关。有谁知道如何容纳更多的行? 问题答案: 错误信息: 说负一个是TypeError。如果查看回溯中的倒数第二行,您会发现唯一的减法是 所以一定是。如果您进入857号线附
问题内容: 如果我有这样的表: 我可以在Qlik中提出5个唯一的hID。我该如何在Python中使用Pandas数据框?还是一个numpy数组?同样,如果这样做,我将在Qlik中得到8。在大熊猫中做这件事的等效方法是什么? 问题答案: 计算不同的值,使用: 仅计算非空值,请使用: 计算包括空值在内的总值,请使用属性: 使用布尔索引: 或使用: 输出:
找出 第1列中的最大值第一次出现的位置, 比方说这个 是索引19中的 27.78 从这个索引19 开始 往下 寻找第1列中所有介于27.78的值区间出现的次数 比方说 从 索引19 开始 往下查询 从索引24到326区间的值小于27.78 把这个区间作为 次数 1 516-519 这个区间作为 2 523-760区间作为3, 769-772 作为4 774-1114 作为5,共出现5次在这个区间的