当前位置: 首页 > 知识库问答 >
问题:

机器学习如何比较不同的特征集

夹谷岳
2023-03-14

假设我有两组不同的特性A和B。我正在尝试确定哪一组特性是最好的。由于我的数据集很小,所以我使用了漏掉一个交叉验证作为最终指标。我正试图弄清楚我的实验装置,我在以下几种方式中做出选择:

1) 将特征集A赋予我的分类器(并可选地运行特征选择),将特征集B赋予同一分类器(也可选地运行特征选择),然后比较这两个分类器之间的LOOCV错误?

2) 将特征集A和B赋予分类器,然后明确地对其进行特征选择,然后根据选择的特征得出更高级别的结论。(例如,如果从A中选择更多,则特征集A似乎具有更多预测值)

3)我不知道的其他方式

共有2个答案

谭凯
2023-03-14

在方法1中,我想知道为什么对不同的特征使用不同的分类器?我更喜欢你的方法2。通过在训练过程中保留所有特征,您可以更好地选择适当的特征,因为不必要特征的权重将衰减。如果你有很多功能,每一个功能都会起到一定的作用,那么它就会很好地工作。在这种方法中,还可以添加正则化因子。

苗运珧
2023-03-14

你所描述的标准程序与方法1非常相似:

  1. 分别在特征集AB上训练同一分类器的两个实例。
  2. 使用某种形式的交叉验证来评估每个,例如10倍交叉验证,或者像您一直使用的那样忽略一个。

这就是说,如果你没有严格限制在特征集A异或B上,那么你可以使用与你在2中描述的类似的方法,得到一个新的集C

使用漏掉一个交叉验证很难相信结果,使用10倍可能更好。这可能是其中一种情况,如果你能得到更多的数据,那么这些数据将非常有帮助,如果不能,你可能无法进行分析。

 类似资料:
  • 主成分分析是一种降维方法,通过将一个大的特征集转换成一个较小的特征集,这个特征集仍然包含了原始数据中的大部分信息,从而降低了原始数据的维数。换句话说就是减少数据集的特征数量,同时尽可能地保留信息。降维是将训练数据中的样本(实例)从高维空间转换到低维空间,该过程与信息论中有损压缩概念密切相关。同时要明白的,不存在完全无损的降维。

  • 在机器学习中,灰度图像的特征提取是一个难题。 我有一个灰色的图像,是用这个从彩色图像转换而来的。 我实际上需要从这张灰色图片中提取特征,因为下一部分将训练一个具有该特征的模型,以预测图像的彩色形式。 我们不能使用任何深度学习库 有一些方法,如快速筛选球。。。但我真的不知道如何才能为我的目标提取特征。 以上代码的输出就是真的。 有什么解决方案或想法吗?我该怎么办?

  • 我一直在和一个朋友争论“特征提取”。他说,ML的主要任务是提取特征。但我不同意。一般来说,特征提取不是一项ML任务。如果我们认为wx b是表示ML的最简单的方法,那么ML的任务就是找到最好的w和b。x是特征。ML试图找出给定x的最佳w和b值,它与训练数据匹配,从而学习如何找到w和b。 我的朋友说提取特征是ML的核心任务。但据我所知,特征提取主要是一项数据预处理任务。

  • 问题内容: 我需要编写一个比较器,它采用类型A的对象A和类型B的对象B。这两个对象不是公共对象的扩展。它们的确不同,但是我需要通过其中的通用字段来比较这两个对象。我必须使用比较器接口,因为对象存储在Set中,并且在必须对CollectionUtils执行操作之后。我在Google上搜索了一下,发现了Comparator的解决方案,但只有相同的类型。 我试图朝这个方向实施思考,但是我不知道我是否在正

  • 我需要写一个比较器,取一个a类型的对象a和一个B类型的对象B。这两个对象不是一个公共对象的扩展。他们确实是不同的,但我需要比较这两个对象在它的共同领域。我必须使用比较器接口,因为对象存储在Set中,之后我必须使用CollectionUtils进行操作。我搜索了一点点,我用比较器找到了解决方案,但只有相同的类型。 TXS 附注:我在不同的集合中添加两个对象: 之后我会这样想:

  • 问题内容: 尽管标题很奇怪,但我还是想问一个合理的问题:哪种方法生成的数字更 随机 :Java的类,或C ++的? 我听说PHP 是非常糟糕的,即,如果您映射其结果,则可以清楚地看到一种模式。可悲的是,我不知道如何用C ++或Java绘制地图。 另外,出于兴趣,C#呢? 问题答案: Java和C ++都生成伪随机数,它们是: 对于不是统计学家或密码学家的人而言,足以胜任该任务(a);要么 这两个阶