当前位置: 首页 > 知识库问答 >
问题:

spark中给定数据集如何计算皮尔逊相关系数

吴高洁
2023-03-14

我有火花数据帧,其中我有2个col让我们col1和col2与双精度数据类型。我想计算斯卡拉(在火花会话中)中的皮尔逊相关系数。

共有1个答案

岳佐
2023-03-14

假设你的数据帧叫做“df”。为了计算两列之间的pearson相关性,您只需执行以下操作:

df.corr("col1", "col2", "pearson")
 类似资料:
  • 本文向大家介绍Python 余弦相似度与皮尔逊相关系数 计算实例,包括了Python 余弦相似度与皮尔逊相关系数 计算实例的使用技巧和注意事项,需要的朋友参考一下 夹角余弦(Cosine) 也可以叫余弦相似度。 几何中夹角余弦可用来衡量两个向量方向的差异,机器学习中借用这一概念来衡量样本向量之间的差异。 (1)在二维空间中向量A(x1,y1)与向量B(x2,y2)的夹角余弦公式: (2) 两个n维

  • 本文向大家介绍JAVA实现基于皮尔逊相关系数的相似度详解,包括了JAVA实现基于皮尔逊相关系数的相似度详解的使用技巧和注意事项,需要的朋友参考一下 最近在看《集体智慧编程》,相比其他机器学习的书籍,这本书有许多案例,更贴近实际,而且也很适合我们这种准备学习machinelearning的小白。 这本书我觉得不足之处在于,里面没有对算法的公式作讲解,而是直接用代码去实现,所以给想具体了解该算法带来了

  • 我想编写一个具有重分区的大型数据帧,所以我想计算源数据帧的重分区数。 数据帧/default_blocksize的大小 所以请告诉我如何在spark scala中计算数据帧的大小 提前谢谢。

  • 问题内容: 在中,我使用或计算成对互相关函数,以便找出哪个偏移使我获得了最大值。从它的外观来看,给了我一个规范化的值序列。Python的scipy中是否有类似的东西,还是应该使用该模块?目前,我正在执行以下操作: 问题答案: 要使一维数组互相关,请使用numpy.correlate。 对于2d数组,请使用scipy.signal.correlate2d。 还有scipy.stsci.convolv

  • 问题内容: 我有两个数组,它们的形状为和。我想计算每对可能的行之间和(分别来自和)之间的相关系数。 什么是最快,最Python化的方法?(遍历,对我来说似乎既不快速也不是pythonic。)我期望答案涉及and / or 。现在,我的数组是 s,但是我愿意将它们转换为其他类型。 我期望我的输出是一个带有shape的数组。 注意:当我说“相关系数”时,我指的是皮尔逊积矩相关系数。 以下是一些注意事项

  • 我需要知道不同事件发生的频率。例如,在过去 15 分钟内发生了多少个 HTTP 请求。由于可能有大量的事件(数百万个),因此必须使用有限的内存量。 Java中有什么util类可以做到这一点吗? 如何在Java中实现这个自我? 理论用法代码可以如下所示: 编辑:它必须是一个实时值,可以在一分钟内更改数千次,并且将在一分钟内查询数千次。基于数据库或文件的解决方案是不可能的。