当前位置：首页 > 面试题库 >

sklearn随机森林可以直接处理分类特征吗？

鲜于高明

2023-03-14

问题内容：

说我有一个分类特征，颜色，它取值

[‘红色’，’蓝色’，’绿色’，’橙色’]，

我想用它来预测随机森林中的事物。如果我对它进行一次热编码（即，将其更改为四个伪变量），如何告诉sklearn四个伪变量实际上是一个变量？具体来说，当sklearn随机选择要在不同节点上使用的功能时，它要么应该同时包括红色，蓝色，绿色和橙色的虚拟对象，要么不应该包含其中任何一个。

我听说没有办法做到这一点，但我想必须有一种方法可以处理分类变量，而不必将它们随意编码为数字或类似的东西。

问题答案：

不，没有。有人正在为此工作，有一天该补丁可能会合并到主线中，但是目前，除了伪（单次）编码外，scikit-learn中不支持分类变量。

类似资料：

随机森林如何评估特征重要性？

本文向大家介绍随机森林如何评估特征重要性？相关面试题，主要包含被问及随机森林如何评估特征重要性？时的应答技巧和注意事项，需要的朋友参考一下 decrease accracy 对一棵树随机改变OOB样本的第j列得到误差1，保持其他列不变，对j列进行随机上下置换，得到误差2，误差之间的差距越大说明特征越重要
随机森林处理缺失值方法？

本文向大家介绍随机森林处理缺失值方法？相关面试题，主要包含被问及随机森林处理缺失值方法？时的应答技巧和注意事项，需要的朋友参考一下对于训练集，同一个class下的数据，如果分类变量缺失，用众数填补，如果是连续变量缺失，用中位数填补
Bagging与随机森林

随机森林是集成学习中可以和梯度提升树GBDT分庭抗礼的算法，尤其是它可以很方便的并行训练，在如今大数据大样本的的时代很有诱惑力。 1. bagging的原理在集成学习原理小结中，我们给Bagging画了下面一张原理图。从上图可以看出，Bagging的弱学习器之间的确没有boosting那样的联系。它的特点在“随机采样”。那么什么是随机采样？随机采样(bootsrap)就是从我们的训练集里面采
随机森林（ Random Forest）

在随机森林方法中，创建了大量决策树。每个观察都被送入每个决策树。每次观察的最常见结果用作最终输出。一个新的观察结果被输入所有树木，并对每个分类模型进行多数投票。对构建树时未使用的情况进行错误估计。这称为OOB (Out-of-bag)错误估计，以百分比形式提及。 R包"randomForest"用于创建随机森林。安装R包在R控制台中使用以下命令安装程序包。您还必须安装依赖包（如果有
可变和随机森林的等级

考虑一个数据集训练：二元结果变量z和三个水平的分类预测因子a：1、2、3。现在考虑一个数据集测试：当我运行以下代码时：我收到以下错误消息：我假设这是因为测试数据集中的变量a没有三个级别。我该如何解决这个问题？
R语言随机森林

主要内容：安装R包 - randomForest,语法,示例在随机森林方法中，创建了大量的决策树。每个观察结果都被送入每个决策树。每个观察结果最常用作最终输出。对所有决策树进行新的观察，并对每个分类模型进行多数投票。对于在构建树时未使用的情况进行错误估计。这被称为OOB(Out-of-bag)错误估计，以百分比表示。 R中的软件包用于创建随机林。安装R包 - randomForest 在R控制台中使用以下命令安装软件包，还必须安装其它依赖软件包(如

sklearn随机森林可以直接处理分类特征吗？

相关阅读

相关文章

相关问答

相关工具

相关文档