学长布置的作业,通过调包,使用几种方法来预测红酒的质量,数据集上传到网盘上:
首先使用的是Python的sklearn包
1、SVR用法 把它看成一个回归(因为预测的分值是一个区间,也可以看成10个类的分类问题)
class sklearn.svm.SVR(kernel=’rbf’, degree=3, gamma=’auto’, coef0=0.0, tol=0.001, C=1.0, epsilon=0.1, shrinking=True, cache_size=200, verbose=False, max_iter=-1)
C : float, optional (default=1.0) Penalty parameter C of the error term.
epsilon : float, optional (default=0.1) Epsilon in the epsilon-SVR model. It specifies the epsilon-tube within which no penalty is associated in the training loss function with points predicted within a distance epsilon from the actual value.
主要是调整这两个参数
然后内核用‘poly’, ‘rbf’两个,使用多项式内核的时候需要设置degree
关于数据集,分为训练,验证,测试。
kernel=['rbf','poly']
C=[0.4,0.5,0.6,0.7,0.8,0.9,1]
epsilon=[0.1,0.2,0.3,0.4,0.5]
degree =[3,4,5]
最终选择 model: rbf C: 0.7 epsilon: 0.1 rmse: 0.895653761112 测试集rmse: 0.779822620477
2、决策树
决策树的介绍 > http://www.jianshu.com/p/59b510bafb4d
总的来说就是用信息熵或者信息增益来决定一个节点枝叶要不要继续划分,为了避免过拟合,还有预剪枝和后剪枝
决策树调参参考博客:
http://www.cnblogs.com/chenyaling/p/7236435.html
DecisionTreeClassfier的参数有
1.criterion gini or entropy
2.splitter best or random 前者是在所有特征中找最好的切分点 后者是在部分特征中(数据量大的时候)
3.max_features 默认是None(所有),log2,sqrt,N 特征小于50的时候一般使用所有的 #N就是特征属性的个数
4.max_depth 数据少或者特征少的时候可以不管这个值,如果模型样本量多,特征也多的情况下,可以尝试限制下 #防止过拟合
5.min_samples_split 如果某节点的样本数少于min_samples_split,则不会继续再尝试选择最优特征来进行划分。
如果样本量不大,不需要管这个值。如果样本量数量级非常大,则推荐增大这个值。
6.min_samples_leaf 这个值限制了叶子节点最少的样本数,如果某叶子节点数目小于样本数,则会和兄弟节点一起被
剪枝,如果样本量不大,不需要管这个值,大些如10W可是尝试下5
7.min_weight_fraction_leaf 这个值限制了叶子节点所有样本权重和的最小值,如果小于这个值,则会和兄弟节点一起
被剪枝默认是0,就是不考虑权重问题。一般来说,如果我们有较多样本有缺失值,
或者分类树样本的分布类别偏差很大,就会引入样本权重,这时我们就要注意这个值了。
8.max_leaf_nodes 通过限制最大叶子节点数,可以防止过拟合,默认是”None”,即不限制最大的叶子节点数。
如果加了限制,算法会建立在最大叶子节点数内最优的决策树。
如果特征不多,可以不考虑这个值,但是如果特征分成多的话,可以加以限制
具体的值可以通过交叉验证得到。
9.class_weight 指定样本各类别的的权重,主要是为了防止训练集某些类别的样本过多
导致训练的决策树过于偏向这些类别。这里可以自己指定各个样本的权重
如果使用“balanced”,则算法会自己计算权重,样本量少的类别所对应的样本权重会高。
10.min_impurity_split 这个值限制了决策树的增长,如果某节点的不纯度
(基尼系数,信息增益,均方差,绝对差)小于这个阈值
则该节点不再生成子节点。即为叶子节点 。
class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, splitter=’best’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None, presort=False)
不调整参数的结果:rmse: 1.26389322036
关于sklearn调用函数自己找出最佳参数的,有点问题,具体还没解决