当前位置: 首页 > 知识库问答 >
问题:

PySpark ML逻辑回归权重Col是否实现了示例权重或类权重?

暨正真
2023-03-14

我正在为一个很大程度上不完整的数据集在PySpark ML中定义一个二进制逻辑回归管道。

lr = LogisticRegression(maxIter=10, regParam=0.001, weightCol="weight")

API包含一个weightCol='weight'选项,我想将其用于我的不平衡数据集。Pyspark 2.3.0的文档。

weightCol=Param(parent='undefined',name='weightCol',doc='weight column name。如果未设置或为空,则将所有实例权重视为1.0。“)

是的,非常冗长...

这是样本权重还是类权重?

我在文件的其他地方找不到有关这方面的任何信息。

共有1个答案

郁光熙
2023-03-14

当Spark文档含糊不清时,尤其是在Python方面,通常最好的选择是使用Scala源代码:https://github.com/apache/spark/blob/992447fb30ee9ebb3cf794f2d06f4d63a2d792db/mllib/src/main/scala/org/apache/spark/ml/classification/LogisticRegression.scala#L491

这里没有太多挖掘,看起来权重是一个应用于行级别的双倍列,因此我将使用示例权重。

 类似资料:
  • 本文向大家介绍python实现逻辑回归的示例,包括了python实现逻辑回归的示例的使用技巧和注意事项,需要的朋友参考一下 代码 以上就是python实现逻辑回归的示例的详细内容,更多关于python 逻辑回归的资料请关注呐喊教程其它相关文章!

  • 我有困难得到的线性回归中的加权数组来影响输出。 这里有一个没有加权的例子。 现在,当添加重量时,我得到了相同的最佳拟合线。我希望看到回归有利于曲线的陡峭部分。我做错了什么?

  • 我有一个JPanel,我指定它具有GridBagLayout。我(在纸上)绘制的网格是8x8,我已经按照我希望的方式绘制了所有组件。 对于每个组件,我都指定了它的gridx、gridy、gridwidth和gridheight,但我不确定如何处理weightx和weighty。8x8网格中的所有“单元格”大小相同,但我使用了gridwidth和gridheight来指定每个组件占用的单元格数量,并

  • 本文向大家介绍PyTorch线性回归和逻辑回归实战示例,包括了PyTorch线性回归和逻辑回归实战示例的使用技巧和注意事项,需要的朋友参考一下 线性回归实战 使用PyTorch定义线性回归模型一般分以下几步: 1.设计网络架构 2.构建损失函数(loss)和优化器(optimizer) 3.训练(包括前馈(forward)、反向传播(backward)、更新模型参数(update)) 迭代十次打印

  • 上一节中我们观察了过拟合现象,即模型的训练误差远小于它在测试集上的误差。虽然增大训练数据集可能会减轻过拟合,但是获取额外的训练数据往往代价高昂。本节介绍应对过拟合问题的常用方法:权重衰减(weight decay)。 方法 权重衰减等价于$L_2$范数正则化(regularization)。正则化通过为模型损失函数添加惩罚项使学出的模型参数值较小,是应对过拟合的常用手段。我们先描述$L_2$范数正

  • 预热权重功能让客户端机器能够根据服务端的相应权重进行流量的分发。该功能也常被用于集群内少数机器的启动场景。利用流量权重功能在短时间内对服务端机器进行预热,然后再接收正常的流量比重。 1.服务端服务在启动时会将自身的预热时间,预热期内权重,预热完成后的正常权重推送给服务注册中心。如上图 ServiceB 指向 Service Registry 。 2.客户端在引用服务的时候会获得每个服务实例的预热权