Python Measuring Variance
优质
小牛编辑
128浏览
2023-12-01
在统计中,方差是衡量数据集中的值与平均值之间的距离的度量。 换句话说,它表明价值的分散程度。 它通过使用标准偏差来测量。 常用的另一种方法是偏斜。
这两个都是通过使用pandas库中可用的函数计算的。
测量标准偏差
标准差是方差的平方根。 方差是数据集中值与平均值的平方差的平均值。 在python中,我们使用pandas库中的函数std()来计算这个值。
import pandas as pd
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
'Lee','Chanchal','Gasper','Naviya','Andres']),
'Age':pd.Series([25,26,25,23,30,25,23,34,40,30,25,46]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])}
#Create a DataFrame
df = pd.DataFrame(d)
# Calculate the standard deviation
print df.std()
其output如下 -
Age 7.265527
Rating 0.661628
dtype: float64
测量偏度
它用于确定数据是对称的还是倾斜的。 如果索引介于-1和1之间,则分布是对称的。 如果索引不超过-1,则它向左倾斜,如果它至少为1,则它向右倾斜
import pandas as pd
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
'Lee','Chanchal','Gasper','Naviya','Andres']),
'Age':pd.Series([25,26,25,23,30,25,23,34,40,30,25,46]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])}
#Create a DataFrame
df = pd.DataFrame(d)
print df.skew()
其output如下 -
Age 1.443490
Rating -0.153629
dtype: float64
因此,年龄等级的分布是对称的,而年龄的分布是向右倾斜的。