当前位置: 首页 > 面试题库 >

scikit-learn中的分层训练/测试拆分

东门城
2023-03-14
问题内容

我需要将数据分为训练集(75%)和测试集(25%)。我目前使用以下代码进行操作:

X, Xt, userInfo, userInfo_train = sklearn.cross_validation.train_test_split(X, userInfo)

但是,我想对训练数据集进行分层。我怎么做?我一直在研究该StratifiedKFold方法,但不允许我指定75%/
25%的划分,而是仅对训练数据集进行分层。


问题答案:

[更新为0.17]

请参阅以下文档sklearn.model_selection.train_test_split

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    stratify=y, 
                                                    test_size=0.25)

[/更新为0.17]

有一个拉要求在这里。但是,您可以根据需要简单地进行train, test = next(iter(StratifiedKFold(...))) 训练和测试索引的使用。



 类似资料:
  • 本文向大家介绍scikit-learn 使用交叉验证训练分类器,包括了scikit-learn 使用交叉验证训练分类器的使用技巧和注意事项,需要的朋友参考一下 示例 使用虹膜数据集: 数据分为训练集和测试集。要做到这一点,我们使用train_test_split效用函数来分割双方X和y(数据和目标矢量)用随机选择train_size=0.75(训练集包含数据的75%)。 训练数据集被输入到k最近邻

  • 本文向大家介绍解释如何使用scikit-learn库拆分数据集,以便在Python中进行训练和测试?,包括了解释如何使用scikit-learn库拆分数据集,以便在Python中进行训练和测试?的使用技巧和注意事项,需要的朋友参考一下 Scikit-learn,通常称为sklearn,是Python中的一个库,用于实现机器学习算法。它功能强大且强大,因为它提供了多种工具来执行统计建模。 在Pyth

  • 我正试图用汽车预测时间序列。阿里玛。我需要的是分割训练和测试数据,以查看模型指标。我的日期范围是2016年12月至2020年1月。我需要2018年12月之前的列车数据,以及之后的测试。 除此之外,我还需要每个id的指标RMSE和MSE。这是我的数据的一个例子: 我尝试使用dplyr: 但我不知道如何添加训练和测试的步骤以及指标。有人知道怎么解决吗?谢谢

  • scikit-learn 是一个 Python 的机器学习项目。是一个简单高效的数据挖掘和数据分析工具。基于 NumPy、SciPy 和 matplotlib 构建。 Installation 依赖 scikit-learn 要求: Python (>= 2.7 or >= 3.3) NumPy (>= 1.8.2) SciPy (>= 0.13.3) 运行示例需要 Matplotlib >= 1

  • 是否有方法按层(而不是端到端)训练卷积神经网络,以了解每一层对最终架构性能的贡献?

  • 我刚刚开始使用R,我不确定如何将我的数据集与以下示例代码结合起来: 我有一个数据集,我需要将其放入训练(75%)和测试(25%)集中。我不确定应该将哪些信息放入x和大小?x是数据集文件吗?我有多少样本?