Scikit-learn,通常称为sklearn,是Python中的一个库,用于实现机器学习算法。它功能强大且强大,因为它提供了多种工具来执行统计建模。
在Python强大而稳定的界面的帮助下,这包括分类,回归,聚类,降维等等。建立在Numpy,SciPy和Matplotlib库上。
在将输入数据传递给机器学习算法之前,必须将其分为训练和测试数据集。
一旦数据适合所选模型,就可以在该模型上训练输入数据集。进行训练时,模型将从数据中学习。
它还学习对新数据进行概括。模型训练期间将不会使用测试数据集。
一旦所有超参数都已调整,并且设置了最佳权重,就将测试数据集提供给机器学习算法。
这是数据集,用于检查算法对新数据的概括程度。让我们看看如何使用scikit-learn库拆分数据。
from sklearn.datasets import load_iris my_data = load_iris() X = my_data.data y = my_data.target from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split( X, y, test_size = 0.2, random_state = 2 ) print("训练数据特征的维度 ") print(X_train.shape) print("测试数据特征的维度 ") print(X_test.shape) print("训练数据目标值的维度 ") print(y_train.shape) print("测试数据目标值的维数 ") print(y_test.shape)
输出结果
训练数据特征的维度
(120, 4)
测试数据特征的维度
(30, 4)
训练数据目标值的维度
(120,)
测试数据目标值的维数
(30,)
所需的包已导入。
为此所需的数据集也已加载到环境中。
特征和目标值与数据集分开。
训练和测试数据的比例分别为80%和20%。
这意味着 20% 的数据将用于检查模型对新数据的概括程度。
这些拆分以及数据的维度都打印在控制台上。
问题内容: 我需要将数据分为训练集(75%)和测试集(25%)。我目前使用以下代码进行操作: 但是,我想对训练数据集进行分层。我怎么做?我一直在研究该方法,但不允许我指定75%/ 25%的划分,而是仅对训练数据集进行分层。 问题答案: [更新为0.17] 请参阅以下文档: [/更新为0.17] 有一个拉要求在这里。但是,您可以根据需要简单地进行 训练和测试索引的使用。
问题内容: 我正在尝试运行以下Colab项目,但是当我想将训练数据分为验证和训练部分时,出现此错误: 我使用以下代码: 如何解决此错误? 问题答案: 根据Tensorflow Dataset docs ,百分比拆分是可能的,例如 如示例所示,更改列表时,您的代码将起作用: 使用上面的代码,有2590个条目,而有1080个。
本文向大家介绍如何准备Illiad数据集以使用Python进行训练?,包括了如何准备Illiad数据集以使用Python进行训练?的使用技巧和注意事项,需要的朋友参考一下 Tensorflow是Google提供的一种机器学习框架。它是一个开放源代码框架,与Python结合使用以实现算法,深度学习应用程序等等。它用于研究和生产目的。 可以使用下面的代码行在Windows上安装'tensorflow'
我刚刚开始使用R,我不确定如何将我的数据集与以下示例代码结合起来: 我有一个数据集,我需要将其放入训练(75%)和测试(25%)集中。我不确定应该将哪些信息放入x和大小?x是数据集文件吗?我有多少样本?
本文向大家介绍Tensorflow如何用于准备IMDB数据集以在Python中进行训练?,包括了Tensorflow如何用于准备IMDB数据集以在Python中进行训练?的使用技巧和注意事项,需要的朋友参考一下 Tensorflow是Google提供的一种机器学习框架。它是一个开放源代码框架,与Python结合使用以实现算法,深度学习应用程序等等。它用于研究和生产目的。它具有优化技术,可帮助快速执
本文向大家介绍解释Python中scikit-learn库的基础?,包括了解释Python中scikit-learn库的基础?的使用技巧和注意事项,需要的朋友参考一下 Scikit-learn,通常称为sklearn,是Python中的一个库,用于实现机器学习算法。 这是一个开源库,因此可以免费使用。强大而强大,因为它提供了多种工具来执行统计建模。在Python强大而稳定的界面的帮助下,这包括分类