我对R真的很陌生,我想创建一个随机森林。然而,我不断地遇到同样的错误-
模型中出现错误。框架默认情况下,变量的长度不同
我知道这个问题在另一个主题中得到了解决,它是通过使用as的字符串构造公式来实现的
公式,但我真的不知道怎么做。你能帮帮我吗?非常感谢。
#A vector that has random sample of training values (70% & 30% samples)
index = sample(2,nrow(df), replace = TRUE, prob=c(0.7,0.3))
#Training Date
training = df[index==1,]
#Testing data
testing = df[index==2,]
#Random forest model
RFM = randomForest(df$Rating~., df$Customer_type, data = training)
那么你的错误是,你的自变量是Rating
来自df
数据帧,但是你选择了data=训练
。这意味着你的随机森林应该从2个不同的数据帧中获取数据,这是不可能的。我猜随机森林(Rating~Customer_type,data=训练)
会起作用。
考虑一个数据集训练: 二元结果变量z和三个水平的分类预测因子a:1、2、3。 现在考虑一个数据集测试: 当我运行以下代码时: 我收到以下错误消息: 我假设这是因为测试数据集中的变量a没有三个级别。我该如何解决这个问题?
随机森林是集成学习中可以和梯度提升树GBDT分庭抗礼的算法,尤其是它可以很方便的并行训练,在如今大数据大样本的的时代很有诱惑力。 1. bagging的原理 在集成学习原理小结中,我们给Bagging画了下面一张原理图。 从上图可以看出,Bagging的弱学习器之间的确没有boosting那样的联系。它的特点在“随机采样”。那么什么是随机采样? 随机采样(bootsrap)就是从我们的训练集里面采
我有一个随机森林,目前建立在100个不同的变量之上。我希望能够只选择“最重要”的变量来构建我的随机森林,以尝试提高性能,但我不知道从哪里开始,除了从rf$重要性中获得重要性。 我的数据只是由数字变量组成,这些变量都经过了缩放。 以下是我的射频代码:
是否可以使用插入符号用多变量响应变量调整随机林(
我的挑战是我不能使用随机森林的可变重要性特性,因为我的大多数特性都与它们最近的过去有高度的相关性。例如,一个移动平均数跨越了一个几天的窗口,这意味着它包含了我的数据集中的多个观察的信息。 这意味着随机森林生成的袋外样本将与随机森林用来训练我的模型的样本内特征相关联。因此,我从中得到的变量重要性将是高度乐观和过度适应的。 我看到的解决方案是以某种方式计算样本外测试集上的变量重要性,而不是使用OOB交
在随机森林方法中,创建了大量决策树。 每个观察都被送入每个决策树。 每次观察的最常见结果用作最终输出。 一个新的观察结果被输入所有树木,并对每个分类模型进行多数投票。 对构建树时未使用的情况进行错误估计。 这称为OOB (Out-of-bag)错误估计,以百分比形式提及。 R包"randomForest"用于创建随机森林。 安装R包 在R控制台中使用以下命令安装程序包。 您还必须安装依赖包(如果有