观察的分布(Distribution of Observations)
优质
小牛编辑
131浏览
2023-12-01
在我们在前一章中讨论的分类散点图中,该方法在它可以提供的关于每个类别中的值分布的信息中受到限制。 现在,进一步说,让我们看看什么可以促进我们与类别进行比较。
方块图
Boxplot是一种通过四分位数可视化数据分布的便捷方式。
箱形图通常具有从箱子延伸的垂直线,其被称为晶须。 这些晶须表明在上下四分位数之外的可变性,因此Box Plots也被称为box-and-whisker图和box-and-whisker图。 数据中的任何异常值都被绘制为单个点。
例子 (Example)
import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('iris')
sb.swarmplot(x = "species", y = "petal_length", data = df)
plt.show()
输出 (Output)
图中的点表示异常值。
小提琴情节
小提琴图是箱形图与核密度估计的组合。 因此,这些图更容易分析和理解数据的分布。
让我们使用提示数据集来学习更多小提琴图。 此数据集包含与餐厅客户提供的提示相关的信息。
例子 (Example)
import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('tips')
sb.violinplot(x = "day", y = "total_bill", data=df)
plt.show()
输出 (Output)
箱形图中的四分位数和胡须值显示在小提琴内。 由于小提琴曲线使用KDE,小提琴的较宽部分表示较高的密度,较窄的区域表示相对较低的密度。 箱形图中的四分位数范围和kde中的较高密度部分落在每类小提琴图的相同区域中。
上图显示了一周中四天的total_bill分布情况。 但是,除此之外,如果我们想看看分布在性别方面的表现如何,让我们在下面的例子中探讨它。
例子 (Example)
import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('tips')
sb.violinplot(x = "day", y = "total_bill",hue = 'sex', data = df)
plt.show()
输出 (Output)
现在我们可以清楚地看到男性和女性之间的消费行为。 我们可以很容易地说,通过观察情节,男性比女性赚更多的账单。
并且,如果色调变量只有两个类,我们可以通过在给定的一天将每个小提琴分成两个而不是两个小提琴来美化该情节。 小提琴的任何一部分都是指色调变量中的每个类。
例子 (Example)
import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('tips')
sb.violinplot(x = "day", y="total_bill",hue = 'sex', data = df)
plt.show()