当前位置: 首页 > 面试题库 >

LR的输入,离散值还是连续值?

黄弘盛
2023-03-14
本文向大家介绍LR的输入,离散值还是连续值?相关面试题,主要包含被问及LR的输入,离散值还是连续值?时的应答技巧和注意事项,需要的朋友参考一下

在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点:

  1. 逻辑回归属于广义线性模型,表达能力受限;单变量离散化为N个后,每个变量有单独的权重,相当于为模型

    引入了非线性,能够提升模型表达能力,加大拟合;

  2. 离散化后可以进行特征交叉,由M+N个变量变为M*N个变量,进一步引入非线性,提升表达能力;

  3. 特征离散化以后,起到了简化了逻辑回归模型的作用,降低了模型过拟合的风险。

  4. 离散特征的增加和减少都很容易,易于模型的快速迭代;

  5. 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展;

  6. 离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一

    个异常数据“年龄300岁”会给模型造成很大的干扰;

  7. 特征离散化后,模型会更稳定,比如如果对用户年龄离散化,20-30作为一个区间,不会因为一个用户年龄长了一岁就变成一个完全不同的人。当然处于区间相邻处的样本会刚好相反,所以怎么划分区间是门学问;

 类似资料:
  • 我正在尝试使用 中的 和 制作地图,其中一组点数据使用连续比例(-1 到 1)着色,一组线数据使用离散比例(a,b,c,d)着色。但是,当我在同一张地图中同时使用离散和连续美学时,我遇到了麻烦。这里发布了一个类似的问题,但它没有涉及映射美学。 下面是一个简化的示例: 很明显,连续(点数据)和离散(线数据)美学之间存在冲突,但我如何每次调用为每个数据集使用不同的颜色美学?使用<code>inheri

  • 代码示例 const interpolant = new THREE.DiscreteInterpolant( new Float32Array( 2 ), new Float32Array( 2 ), 1, new Float32Array( 1 ) ); interpolant.evaluate( 0.5 ); Constructor DiscreteInterpolant( paramete

  • 问题内容: 我想使用允许用户将持续时间值输入表单。有效值样本为: 但是,我在此方面取得的成功有限。有人可以建议如何实现吗?如果也可以使用a达到此结果,我也可以。 谢谢! 如果值钱,这是我目前的尝试: 这种排序有效,除了: 我无法获取h并m显示为纯文本(我尝试转义) * 小时数已达到最大值 问题答案: 代码:

  • 问题内容: 如何检查输入值是整数还是浮点数? 假设312/100 = 3.12,在这里我需要检查3.12是浮点值还是整数值,即没有任何小数位值。 问题答案: 您应该检查数字的小数部分是否为0。 要么 或类似的东西

  • 我想在提取一些数据时使用外部工具(循环通过行)。为此,我首先使用了Runtime.getRuntime()。exec()执行它。但后来我的提取变得很慢。所以我在寻找一种可能性,在循环的每个实例中,使用shell的同一个实例来执行外部工具。 我发现,我应该使用ProcessBuilder。但是现在还不行。 这是我测试执行的代码(已经从论坛中的答案输入): 我想在另一个类中调用它,例如 Testcla

  • 问题内容: 我有罐子或战争。 我正在以编程方式读取此jar,当我在此jar中找到该jar时,我想再次以编程方式阅读它。 但是JarFile仅提供getInputStream,我无法将其传递给JarFile(File file)构造函数。 如何从罐子中读取罐子? 编辑:我正在考虑以某种方式从类加载器中获取文件。 问题答案: 您可以在文件系统中创建jar文件,例如 并将Stream写入其中。之后,您可