当前位置: 首页 > 面试题库 >

单个变量的频率表

孟晨朗
2023-03-14
问题内容

当天最后一个新手熊猫问题:如何为单个系列生成一张桌子?

例如:

my_series = pandas.Series([1,2,2,3,3,3])
pandas.magical_frequency_function( my_series )

>> {
     1 : 1,
     2 : 2, 
     3 : 3
   }

大量的搜索使我进入了Series.describe()和pandas.crosstabs,但是这些都不满足我的需要:一个变量,按类别计数。哦,如果它适用于不同的数据类型(字符串,整数等),那就太好了。


问题答案:

也许.value_counts()吧?

>>> import pandas
>>> my_series = pandas.Series([1,2,2,3,3,3, "fred", 1.8, 1.8])
>>> my_series
0       1
1       2
2       2
3       3
4       3
5       3
6    fred
7     1.8
8     1.8
>>> counts = my_series.value_counts()
>>> counts
3       3
2       2
1.8     2
fred    1
1       1
>>> len(counts)
5
>>> sum(counts)
9
>>> counts["fred"]
1
>>> dict(counts)
{1.8: 2, 2: 2, 3: 3, 1: 1, 'fred': 1}


 类似资料:
  • 我有一个应用程序与许多不同的文档类型。每种类型都有自己的语料库,我不希望它们会相互影响。 例如,如果一种类型包含许多项X的出现,那么我不希望这会降低其他类型中X的IDF得分。 我还没有选择任何搜索引擎实现,所以我将欣赏Elasticsearch和/或Solr的答案。

  • 问题内容: 我一直在尝试使用facet来获取字段的频率。我的查询仅返回一次匹配,因此我想让方面返回在特定字段中出现频率最高的字词。 我的映射: 测试数据: 查询: 这个结果 } 以上结果不是我想要的。我想让频率计数为2 我该如何实现?方面走错了路吗? 问题答案: 构面会计算文档,而不是文档中的术语。您得到1是因为只有一个文档包含该术语,所以发生多少次都没有关系。我不知道使用开箱即用的方式来返回术语

  • 这个问题很简单,但经过长时间的谷歌搜索,我还没有找到一个好答案。 我有2种构建类型:调试、发布 我有两种口味:口味1,口味2 这将创建4个变量。 调试风格1 释放风味1 调试风格2 释放风味2 我有4个谷歌地图键,这些键将在4个Android动漫文件中定义,每个变体一个。 我知道我可以在src上创建“调试”,“发布”,“风味1”和“风味2”文件夹,其中包含每种构建类型或每种风格的AndroidMa

  • 问题内容: 我正在编写一个非常基本的Java程序,该程序可以计算句子中每个单词的频率,到目前为止,我设法做到了这一点 我已经提取了每个字符串并将其存储在数组中,现在的问题实际上是如何计算每个“单词”重复出现的次数以及如何显示以使重复的单词不会多次显示,您能帮我这个忙吗?一个? 问题答案: 使用以单词为键的地图并将其计为值,像这样 如果不允许使用java.util,则可以使用一些排序算法对arr进行

  • 问题内容: 我正在编写代码来分析语音所唱的单个音频。我需要一种方法来分析音符的频率。当前,我正在使用PyAudio录制音频文件,该文件存储为,然后立即播放。 问题出在while循环上。由于某种原因,该条件永远不会成立。我打印了两个值(len(data)和(chunk * swidth)),它们分别是8192和4096。然后,我尝试在while循环中使用2 * chunk * swidth,这引发了

  • 我正在编写一些VBA代码,这些代码应该遍历特定文件夹中的所有Excel文件(文件夹名称总是格式化为月份年份,例如2020年5月)。在我的代码中,我还需要使用单独的“月份”和“年份”字符串,例如“五月”和“2020年”,以及日期格式mm/?? /yy例如5/?? /20(日期不重要,所以我只是把? 到目前为止,我使用让用户选择文件夹,我使用三次来获取字符串和日期。 有没有办法压缩它,让用户只需要做一