caret包是R语言通用机器学习包之一,能够在统一框架下使用各种不同的模型,从预处理、建模到后期的预测、评估都有非常友好的函数封装。新近学习的DALEX包是给黑箱提供模型解释性的利器。事实上,它不仅仅针对黑箱模型,它能够面向所有模型给出表现的评估、变量的重要性等有价值的信息。本文依照官方文档,尝试习得通用的DALEX解释caret包生成模型的套路。
library(pacman)
p_load(DALEX,caret,tidyverse)
以m2.price作为响应变量,其余所有变量作为解释变量,进行建模。尝试模型包括:随机森林、GBM和神经网络。其中,随机森林设置树的数量为100,GBM使用默认设置,神经网络在预处理的时候要进行中心化和标准化,最大迭代次数设置为500次,使用线性输出单元,并设置网格对超参数进行优化的选项(这里用了两个隐藏层,权重衰减参数设为0,只设置了一个值,没有用网格去优化)。代码如下:
set.seed(123)
regr_rf <- train(m2.price~., data = apartments, method="rf", ntree = 100)
regr_gbm <- train(m2.price~. , data = apartments, method="gbm")
regr_nn <- train(m2.price~., data =