当前位置: 首页 > 知识库问答 >
问题:

如何找到低于(或高于)平均值的值

平元明
2023-03-14
from StringIO import StringIO

myst="""01/01/2016  8781262
01/02/2016  8958598
01/03/2016  8787628
01/04/2016  9770861
01/05/2016  8409410
01/06/2016  8924784
01/07/2016  8597500
01/08/2016  6436862
01/09/2016  1542677
"""
u_cols=['month', 'count']

myf = StringIO(myst)
import pandas as pd
df = pd.read_csv(StringIO(myst), sep='\t', names = u_cols)

共有1个答案

凤棋
2023-03-14

过滤异常值的一个非常常见的方法是使用标准差。在本例中,我们将计算一个zScore,它将快速识别出每个观测的平均值有多少标准差。然后我们可以过滤那些大于2个标准差的观测结果。对于正态分布的随机变量,这应该发生大约5%的时间。

定义zscore函数

def zscore(s):
    return (s - np.mean(s)) / np.std(s)

将其应用于计数

zscore(df['count'])

0    0.414005
1    0.488906
2    0.416694
3    0.831981
4    0.256946
5    0.474624
6    0.336390
7   -0.576197
8   -2.643349
Name: count, dtype: float64
zscore(df['count']).abs().gt(2)

0    False
1    False
2    False
3    False
4    False
5    False
6    False
7    False
8     True
Name: count, dtype: bool
df[zscore(df['count']).abs().gt(2)]
df[zscore(df['count']).abs().le(2)]
 类似资料:
  • 我有一个treemap存储密钥和值,如下所示: 我需要一些帮助来弥补这方面的差距。有没有更好的办法做到这一点?

  • 我尝试了一个sql但不起作用 员工(EID,EName,城市) 工时(EID、CID、工资) 公司(CID、CName、城市) 创建表Employee(eid int主键,ename varchar(6),city varchar(6)) 创建表工时(eid int,cid int主键,salary int) 创建表Company(cid int,cname varchar(6),city var

  • 问题内容: 我试图显示最高平均工资;但是,我似乎无法使其正常工作。 我可以得到要显示的平均薪水清单: 但是,当我尝试显示具有以下项的最大平均薪水列表时: 它没有运行。我收到“无效标识符”错误。如何使用每个工人的平均工资来找到每个工人的最高平均工资? 谢谢。 问题答案: 由聚合函数(例如avg)产生的列通常获得任意名称。只需为其使用别名,然后在其上进行选择:

  • 对于图像处理的练习,我必须编写一个程序,将各种效果应用于图像。其中一个效果是灰度,这是找到RGB值的平均值((红绿蓝)/3)。然而,要极化图像,我需要首先找到每个单独分量的平均值(即所有红色值/红色像素数)。然后循环遍历行和列(使用像素、红色值、绿色值和蓝色值的计数器)作为找到平均值的方法合适吗?有更有效的方法吗? 此外,像素基于平均像素值进行极化。“如果平均R是100,平均G是200,平均B是3

  • 问题内容: 我需要以下程序的帮助: “编写一种将二维双精度数组作为输入参数并返回数组元素平均值的方法。” 谁能告诉我该怎么做? 我当前的代码: 我不知道如何让用户输入数组元素和数组尺寸(行/列)。另外,如何从main调用此方法?我遇到错误。 问题答案: 试试这个: 码: 输出:

  • 本文向大家介绍如何在 MongoDB 中基于重复的 ID 计算平均值,包括了如何在 MongoDB 中基于重复的 ID 计算平均值的使用技巧和注意事项,需要的朋友参考一下 对于MongoDB中的平均值,请使用$avg。让我们创建包含文档的集合。在这里,我们有重复的ID,每个ID都有等级- 在find()方法的帮助下显示集合中的所有文档- 这将产生以下输出- 以下是基于重复ID获取平均评分的查询-