我对weka在交叉验证时选择的测试数据实例的索引有疑问。如何打印正在评估的测试数据实例的索引?
==================================
我选择了:
数据集:iris。arff公司
实例总数:150
分类器:J48
交叉验证:10倍
我还以“纯文本”的形式进行了输出预测
=============
在输出窗口中,我可以看到如下内容:-
仪器#实际预测误差预测
1 3:维吉尼亚鸢尾3:维吉尼亚鸢尾0.976
2 3:维吉尼亚鸢尾3:维吉尼亚鸢尾0.976
3 3: Iris-virginica 3: Iris-virginica 0.976
4 3:维吉尼亚鸢尾3:维吉尼亚鸢尾0.976
5 3:维吉尼亚鸢尾3:维吉尼亚鸢尾0.976
6 1:刚毛鸢尾1:刚毛鸢尾1
7 1: Iris-setosa 1: Iris-setosa 1
.... ... ...
总共10个测试数据集。(每个15个实例)。
======================
由于WEKA使用标准化交叉验证,测试数据集中的实例是随机选择的。
那么,如何在原始文件中打印测试数据的索引?
即
仪器#实际预测误差预测
1 3:维吉尼亚鸢尾3:维吉尼亚鸢尾0.976
这一结果是主要数据中的哪一个实例(总共50个维吉尼亚鸢尾)?
===============
问题内容: 将NumPy数组随机分为训练和测试/验证数据集的好方法是什么?与Matlab中的或函数类似。 问题答案: 如果要将数据集分成两半,可以使用,或者需要跟踪索引: 要么 有多种方法可以重复分区同一数据集以进行交叉验证。一种策略是从数据集中重复采样: 最后,sklearn包含几种交叉验证方法(k折,nave -n-out等)。它还包括更高级的“分层抽样”方法,这些方法创建了针对某些功能平衡的
交叉验证 那么什么时候才需要交叉验证呢?交叉验证用在数据不是很充足的时候。比如在我日常项目里面,对于普通适中问题,如果数据样本量小于一万条,我们就会采用交叉验证来训练优化选择模型。如果样本大于一万条的话,我们一般随机的把数据分成三份,一份为训练集(Training Set),一份为验证集(Validation Set),最后一份为测试集(Test Set)。用训练集来训练模型,用验证集来评估模型预
#include <stdio.h> int num[10] = { 1 << 0, 1 << 1, 1 << 2, 1 << 3, 1 << 4, 1 << 5, 1 << 6, 1 << 7, 1 << 8, 1 << 9 }; int main (void) { int i; for (i = 0; i < 10; i++) p
1)在我读过的大多数机器学习入门页面中,似乎都在说你需要一个训练集、一个验证集和一个测试集。根据我的理解,交叉验证允许你结合训练和验证集来训练模型,然后你应该在测试集上测试它以得到一个分数。然而,我在论文中看到,在很多情况下,您可以在整个数据集上交叉验证,然后报告CV得分作为准确性。我知道在一个理想的世界里,你会想要在不同的数据上进行测试,但如果这是合法的,我想要在我的整个数据集上交叉验证并报告那
我在用Elasticsearch索引和搜索我的数据库... > 如何验证数据库是否已编入索引? 如果使用以下命令: curl-xget'http://localhost:9200/_search?Q=whatever' 结果是: 这些结果该如何解读?