我如何用Pandas从一个数据帧中创建、测试和训练样本？

松骏俊

2023-03-14

我有一个相当大的dataframe形式的数据集，我想知道如何将dataframe拆分为两个随机样本（80%和20%）进行训练和测试。

谢谢！

共有1个答案

倪培

2023-03-14

我只使用numpy的randn:

In [11]: df = pd.DataFrame(np.random.randn(100, 2))

In [12]: msk = np.random.rand(len(df)) < 0.8

In [13]: train = df[msk]

In [14]: test = df[~msk]

仅仅是看到这一点起到了作用：

In [15]: len(test)
Out[15]: 21

In [16]: len(train)
Out[16]: 79

类似资料：

四、训练和测试数据

为了评估我们的监督模型的泛化能力，我们可以将数据分成训练和测试集： from sklearn.datasets import load_iris iris = load_iris() X, y = iris.data, iris.target 考虑如何正常执行机器学习，训练/测试分割的想法是有道理的。真实世界系统根据他们拥有的数据进行训练，当其他数据进入时（来自客户，传感器或其他来源），经过训
如何使用MinMaxScaler sklearn归一化训练和测试数据

问题内容：因此，我对此有疑问，一直在寻找答案。所以问题是我何时使用这之后，我将训练和测试模型（，作为特征，如标签），并得到一些准确度得分。现在我的疑问是，当我必须预测新数据集的标签时会发生什么。说，因为当我规范化列时，和的值将根据新数据而不是将在其上训练模型的数据来更改。因此，现在将是下面的数据准备步骤之后的数据。的价值和将关于改变和价值。的数据准备是关于的。有关不同数字的数据准备如何有
从pandas创建h2o数据帧和unicode错误

环境：Python 3.5,h2o 3.10.4.2
如何将数据随机分为训练集和测试集？

问题内容：我有一个很大的数据集，想将其分为训练（50％）和测试集（50％）。假设我有100个示例存储了输入文件，每一行包含一个示例。我需要选择50条线作为训练集和50条线测试集。我的想法是首先生成一个长度为100（值范围从1到100）的随机列表，然后将前50个元素用作50个训练示例的行号。与测试集相同。这可以在Matlab中轻松实现但是如何在Python中完成此功能？我是Python的新
opennlp疾病样本训练数据

我正在使用OpenNLP进行数据分类。我在这里找不到疾病的TokenNameFindModel。我知道我可以创建自己的模型，但我想知道是否有针对疾病的大样本训练数据？
使用scipy.sparse从pandas数据帧创建稀疏矩阵

我有一个带有两个变量X和Y的pandas数据帧（大约1M行），并且希望使用scipy,sparse创建一个稀疏矩阵。输出应该是一个n x m矩阵，如果x=x和Y=Y，则其条目为1。下面是数据结构的示例所需的输出为提前致谢

我如何用Pandas从一个数据帧中创建、测试和训练样本？

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档