当前位置: 首页 > 知识库问答 >
问题:

WEKA:打印交叉验证时测试数据实例的索引w.r.t原始数据

郑功
2023-03-14

我对weka在交叉验证时选择的测试数据实例的索引有疑问。如何打印正在评估的测试数据实例的索引?

==================================

我选择了:

数据集:iris。arff公司

实例总数:150

分类器:J48

交叉验证:10倍

我还以“纯文本”的形式进行了输出预测

=============

在输出窗口中,我可以看到如下内容:-

仪器#实际预测误差预测

1 3:维吉尼亚鸢尾3:维吉尼亚鸢尾0.976

2 3:维吉尼亚鸢尾3:维吉尼亚鸢尾0.976

3 3: Iris-virginica 3: Iris-virginica 0.976

4 3:维吉尼亚鸢尾3:维吉尼亚鸢尾0.976

5 3:维吉尼亚鸢尾3:维吉尼亚鸢尾0.976

6 1:刚毛鸢尾1:刚毛鸢尾1

7 1: Iris-setosa 1: Iris-setosa 1

.... ... ...

总共10个测试数据集。(每个15个实例)。

======================

由于WEKA使用标准化交叉验证,测试数据集中的实例是随机选择的。

那么,如何在原始文件中打印测试数据的索引?

仪器#实际预测误差预测

1 3:维吉尼亚鸢尾3:维吉尼亚鸢尾0.976

这一结果是主要数据中的哪一个实例(总共50个维吉尼亚鸢尾)?

===============

共有1个答案

商池暝
2023-03-14

经过大量搜索,我发现下面的youtube视频有助于解决上述问题。

希望这将有助于任何未来的访问者有同样的疑问。

Weka教程34:生成分层褶皱(数据预处理)

 类似资料:
  • 问题内容: 将NumPy数组随机分为训练和测试/验证数据集的好方法是什么?与Matlab中的或函数类似。 问题答案: 如果要将数据集分成两半,可以使用,或者需要跟踪索引: 要么 有多种方法可以重复分区同一数据集以进行交叉验证。一种策略是从数据集中重复采样: 最后,sklearn包含几种交叉验证方法(k折,nave -n-out等)。它还包括更高级的“分层抽样”方法,这些方法创建了针对某些功能平衡的

  • 交叉验证 那么什么时候才需要交叉验证呢?交叉验证用在数据不是很充足的时候。比如在我日常项目里面,对于普通适中问题,如果数据样本量小于一万条,我们就会采用交叉验证来训练优化选择模型。如果样本大于一万条的话,我们一般随机的把数据分成三份,一份为训练集(Training Set),一份为验证集(Validation Set),最后一份为测试集(Test Set)。用训练集来训练模型,用验证集来评估模型预

  • #include <stdio.h> int num[10] = { 1 << 0, 1 << 1, 1 << 2, 1 << 3, 1 << 4, 1 << 5, 1 << 6, 1 << 7, 1 << 8, 1 << 9 }; int main (void) { int i; for (i = 0; i < 10; i++) p

  • 1)在我读过的大多数机器学习入门页面中,似乎都在说你需要一个训练集、一个验证集和一个测试集。根据我的理解,交叉验证允许你结合训练和验证集来训练模型,然后你应该在测试集上测试它以得到一个分数。然而,我在论文中看到,在很多情况下,您可以在整个数据集上交叉验证,然后报告CV得分作为准确性。我知道在一个理想的世界里,你会想要在不同的数据上进行测试,但如果这是合法的,我想要在我的整个数据集上交叉验证并报告那

  • 我在用Elasticsearch索引和搜索我的数据库... > 如何验证数据库是否已编入索引? 如果使用以下命令: curl-xget'http://localhost:9200/_search?Q=whatever' 结果是: 这些结果该如何解读?