当前位置: 首页 > 知识库问答 >
问题:

SciKit SGD回归RBF核逼近

潘宪
2023-03-14

我正在使用scikit-learn,并且希望使用RBF内核运行SVR。我的数据集相当大,所以从阅读其他帖子,我被建议使用SGD回归和RBF近似。有趣的是,与仅仅使用SGD本身相比,使用RBF的SGD会得到更差的结果。我想这可能是由于错误的参数值。我尝试了RBF采样器的gamma和n_components循环,并尝试了SGD regessor的一些参数,但没有结果。我还输出了训练和交叉验证错误,两者大致相同,所以我认为这是一个偏差问题。

共有1个答案

韩嘉胜
2023-03-14

为什么你认为RBF特征空间一定比线性的有更高的精确度?虽然情况经常如此,但没有理由相信这一定是真的。RBF内核对整个类的真实数据做得很差

除此之外,还有许多其他问题可以提出/探讨。如果没有其他人使用/探索您的数据,这样的问题通常是无法解决的。例如:

  • 原始特征值是否正确标准化?
  • 是适用于数据量/数据类型的近似方法
  • 问题是病态的还是近乎病态的?如果是这样--我们的近似是我们错误的原因吗?
  • 原始特性是否有足够的意义来使用RBF?
  • 测试的参数值是否适合我的数据及其缩放?
  • 目前获得的错误率是多少?对ache可行错误率的合理期望是什么?
 类似资料:
  • 校验者: @不吃曲奇的趣多多 翻译者: @Counting stars Kernel ridge regression (KRR) (内核岭回归)[M2012]_ 由 使用内核方法的 :ref:[](#id2)ridge_regression(岭回归)(使用 l2 正则化的最小二乘法)所组成。因此,它所学习到的在空间中不同的线性函数是由不同的内核和数据所导致的。对于非线性的内核,它与原始空间中的非

  • 回归方法是对数值型连续随机变量进行预测和建模的监督学习算法。其特点是标注的数据集具有数值型的目标变量。 常用的回归方法包括 线性回归:使用超平面拟合数据集 最近邻算法:通过搜寻最相似的训练样本来预测新样本的值 决策树和回归树:将数据集分割为不同分支而实现分层学习 集成方法:组合多个弱学习算法构造一种强学习算法,如随机森林(RF)和梯度提升树(GBM)等 深度学习:使用多层神经网络学习复杂模型

  • 1 保序回归   保序回归解决了下面的问题:给定包含n个数据点的序列 y_1,y_2,...,y_n , 怎样通过一个单调的序列 beta_1,beta_2,...,beta_n 来归纳这个问题。形式上,这个问题就是为了找到   大部分时候,我们会在括号前加上权重w_i。解决这个问题的一个方法就是 pool adjacent violators algorithm(PAVA) 算法。粗略的讲,PA

  • 1 基本概念 1.1 生存数据   生存数据就是关于某个体生存时间的数据。生存时间就是死亡时间减去出生时间。例如,以一个自然人的出生为“出生”,死亡为“死亡”。 那么,死亡时间减去出生时间,就是一个人的寿命,这是一个典型的生存数据。类似的例子,还可以举出很多。所有这些数据都有一个共同的特点, 就是需要清晰定义的:出生和死亡 。如果用死亡时间减去出生时间,就产生了一个生存数据。因为死亡一定发生在出生

  • 回顾下我们前面SVM分类模型中,我们的目标函数是让$$frac{1}{2}||w||22$$最小,同时让各个训练集中的点尽量远离自己类别一边的的支持向量,即$$y_i(w bullet phi(x_i )+ b) geq 1$$。如果是加入一个松弛变量$$xi_i geq 0$$,则目标函数是$$frac{1}{2}||w||_22 +Csumlimits{i=1}^{m}xi_i$$,对应的约束

  • K分类,第k类的参数为$$\theta_k$$, 组成二维矩阵$$\theta_{k*n}$$ 概率: $$p(c=k|x;\theta)=\frac {exp(\thetaT_kx)} {\sum _{l=1} K exp(\theta^T_l x)}$$, k=1,2,....K 似然 函数: 对数似然: 随机梯度:  在前面的logistic regression博文Deep learnin