在线性回归中,这两个变量通过等式相关,其中这两个变量的指数(幂)为1.数学上,线性关系表示绘制为图形时的直线。 任何变量的指数不等于1的非线性关系都会产生一条曲线。 Seaborn中找到线性回归关系的函数是regplot。 以下示例显示了它的用法。 <p></p> import seaborn as sb from matplotlib import pyplot as plt df = sb.l
p值大约是假设的强度。 我们基于一些统计模型建立假设,并使用p值比较模型的有效性。 获得p值的一种方法是使用T检验。 这是对零假设的双边检验,即独立观察样本'a'的预期值(平均值)等于给定的总体平均值, popmean 。 让我们考虑以下示例。 from scipy import stats rvs = stats.norm.rvs(loc = 5, scale = 10, size = (50,
伯努利分布是二项分布的一个特例,其中进行单个实验以使观察的数量为1.因此,伯努利分布因此描述具有恰好两个结果的事件。 我们在numpy库中使用各种函数来数学计算bernoulli分布的值。 创建直方图,我们在其上绘制概率分布曲线。 from scipy.stats import bernoulli import seaborn as sb data_bern = bernoulli.rvs(siz
泊松分布是一种分布,它显示事件在预定时间段内发生的可能次数。 它用于在给定时间间隔内以恒定速率发生的独立事件。 泊松分布是离散函数,意味着事件只能被测量为发生或不发生,这意味着变量只能以整数来衡量。 我们使用具有内置函数的seaborn python库来创建这样的概率分布图。 scipy包也有助于创建二项分布。 from scipy.stats import poisson import seab
二项分布模型用于找出事件成功的概率,该事件在一系列实验中仅具有两种可能的结果。 例如,投掷硬币总是给出头部或尾部。 在二项分布期间估计在重复投掷硬币10次时准确找到3个头的概率。 我们使用具有内置函数的seaborn python库来创建这样的概率分布图。 此外,scipy包有助于创建二项分布。 from scipy.stats import binom import seaborn as sb
正态分布是通过在数据中排列每个值的概率分布来呈现数据的形式。大多数值保持在平均值附近,使得排列对称。 我们在numpy库中使用各种函数来数学计算正态分布的值。 创建直方图,我们在其上绘制概率分布曲线。 import matplotlib.pyplot as plt import numpy as np mu, sigma = 0.5, 0.1 s = np.random.normal(mu, si
在统计中,方差是衡量数据集中的值与平均值之间的距离的度量。 换句话说,它表明价值的分散程度。 它通过使用标准偏差来测量。 常用的另一种方法是偏斜。 这两个都是通过使用pandas库中可用的函数计算的。 测量标准偏差 标准差是方差的平方根。 方差是数据集中值与平均值的平方差的平均值。 在python中,我们使用pandas库中的函数std()来计算这个值。 import pandas as pd #
CSGraph代表Compressed Sparse Graph ,它专注于基于稀疏矩阵表示的快速图算法。 图形表示 首先,让我们了解稀疏图是什么以及它在图表表示中的作用。 什么是稀疏图? 图只是节点的集合,它们之间有链接。 图表几乎可以代表任何东西 - 社交网络连接,其中每个节点都是一个人并且与熟人相连; 图像,其中每个节点是像素并且连接到相邻像素; 高维分布中的点,每个节点连接到最近的邻居,几
现在已经创建了许多开源python库来表示地理地图。 它们是高度可定制的,并提供各种各样的地图,描绘不同形状和颜色的区域。 一个这样的包是Cartopy。 您可以从Cartopy在本地环境中下载并安装此软件包。 您可以在其库中找到大量示例。 在下面的例子中,我们展示了世界地图的一部分,显示了亚洲和澳大利亚的部分地区。 您可以调整方法set_extent中参数的值,以定位世界地图的不同区域。 imp
时间序列是一系列数据点,其中每个数据点与时间戳相关联。 一个简单的例子是股票市场中某一天的不同时间点的股票价格。 另一个例子是一年中不同月份的一个地区的降雨量。 在下面的例子中,我们将特定股票代码的每日股票价格的价值定为四分之一。 我们将这些值捕获为csv文件,然后使用pandas库将它们组织到数据框中。 然后,我们通过将附加的Valuedate列重新创建为索引并删除旧的值列来将日期字段设置为数据
Python还能够创建3d图表。 它涉及将子图添加到现有的二维图并将投影参数指定为3d。 绘制3D图 3dPlot由mpl_toolkits.mplot3d绘制,以将子图添加到现有的2d图。 from mpl_toolkits.mplot3d import axes3d import matplotlib.pyplot as plt chart = plt.figure() chart3d = c
气泡图将数据显示为圆群。 创建气泡图所需的数据需要具有xy坐标,气泡大小和气泡颜色。 颜色可以由图书馆本身提供。 绘制气泡图 可以使用DataFrame.plot.scatter()方法创建气泡图。 import matplotlib.pyplot as plt import numpy as np # create data x = np.random.rand(40) y = np.rando
散点图显示在笛卡尔平面中绘制的许多点。 每个点代表两个变量的值。 在水平轴上选择一个变量,在垂直轴上选择另一个变量。 绘制散点图 可以使用DataFrame.plot.scatter()方法创建散点图。 import pandas as pd import numpy as np df = pd.DataFrame(np.random.rand(50, 4), columns=['a', 'b',
热图包含表示要绘制的每个值的相同颜色的各种阴影的值。 通常,图表的较暗色调表示比较浅色调更高的值。 对于非常不同的值,也可以使用完全不同的颜色。 下面的示例是一个二维的值图,它映射到图表的索引和列。 from pandas import DataFrame import matplotlib.pyplot as plt data=[{2,3,4,1},{6,3,5,2},{6,3,5,4},{3,
箱线图是衡量数据集中数据分布情况的指标。 它将数据集分为三个四分位数。 该图表示数据集中的最小值,最大值,中值,第一四分位数和第三四分位数。 通过为每个数据集绘制箱线图来比较数据集之间的数据分布也很有用。 画一个箱子图 可以绘制Boxplot调用Series.box.plot()和DataFrame.box.plot()或DataFrame.boxplot()来可视化每列中值的分布。 例如,这里是