问题：

WEKA：打印交叉验证时测试数据实例的索引w.r.t原始数据

郑功

2023-03-14

我对weka在交叉验证时选择的测试数据实例的索引有疑问。如何打印正在评估的测试数据实例的索引？

==================================

我选择了：

数据集：iris。arff公司

实例总数：150

分类器：J48

交叉验证：10倍

我还以“纯文本”的形式进行了输出预测

=============

在输出窗口中，我可以看到如下内容：-

仪器#实际预测误差预测

1 3：维吉尼亚鸢尾3：维吉尼亚鸢尾0.976

2 3：维吉尼亚鸢尾3：维吉尼亚鸢尾0.976

3 3： Iris-virginica 3： Iris-virginica 0.976

4 3：维吉尼亚鸢尾3：维吉尼亚鸢尾0.976

5 3：维吉尼亚鸢尾3：维吉尼亚鸢尾0.976

6 1：刚毛鸢尾1：刚毛鸢尾1

7 1： Iris-setosa 1： Iris-setosa 1

.... ... ...

总共10个测试数据集。（每个15个实例）。

======================

由于WEKA使用标准化交叉验证，测试数据集中的实例是随机选择的。

那么，如何在原始文件中打印测试数据的索引？

即

仪器#实际预测误差预测

1 3：维吉尼亚鸢尾3：维吉尼亚鸢尾0.976

这一结果是主要数据中的哪一个实例（总共50个维吉尼亚鸢尾）？

===============

共有1个答案

商池暝

2023-03-14

经过大量搜索，我发现下面的youtube视频有助于解决上述问题。

希望这将有助于任何未来的访问者有同样的疑问。

Weka教程34：生成分层褶皱（数据预处理）

类似资料：

如何将数据集分割/划分为训练和测试数据集，例如进行交叉验证？

问题内容：将NumPy数组随机分为训练和测试/验证数据集的好方法是什么？与Matlab中的或函数类似。问题答案：如果要将数据集分成两半，可以使用，或者需要跟踪索引：要么有多种方法可以重复分区同一数据集以进行交叉验证。一种策略是从数据集中重复采样：最后，sklearn包含几种交叉验证方法（k折，nave -n-out等）。它还包括更高级的“分层抽样”方法，这些方法创建了针对某些功能平衡的
交叉验证和测试性能的差异
交叉验证

交叉验证那么什么时候才需要交叉验证呢？交叉验证用在数据不是很充足的时候。比如在我日常项目里面，对于普通适中问题，如果数据样本量小于一万条，我们就会采用交叉验证来训练优化选择模型。如果样本大于一万条的话，我们一般随机的把数据分成三份，一份为训练集（Training Set），一份为验证集（Validation Set），最后一份为测试集（Test Set）。用训练集来训练模型，用验证集来评估模型预
打印数组的索引下标

#include <stdio.h> int num[10] = { 1 << 0, 1 << 1, 1 << 2, 1 << 3, 1 << 4, 1 << 5, 1 << 6, 1 << 7, 1 << 8, 1 << 9 }; int main (void) { int i; for (i = 0; i < 10; i++) p
Scikit-learn中KNN分类器的网格搜索参数和交叉验证数据集

1）在我读过的大多数机器学习入门页面中，似乎都在说你需要一个训练集、一个验证集和一个测试集。根据我的理解，交叉验证允许你结合训练和验证集来训练模型，然后你应该在测试集上测试它以得到一个分数。然而，我在论文中看到，在很多情况下，您可以在整个数据集上交叉验证，然后报告CV得分作为准确性。我知道在一个理想的世界里，你会想要在不同的数据上进行测试，但如果这是合法的，我想要在我的整个数据集上交叉验证并报告那
验证数据库是否由Elasticsearch索引

我在用Elasticsearch索引和搜索我的数据库... > 如何验证数据库是否已编入索引？如果使用以下命令： curl-xget'http://localhost:9200/_search？Q=whatever' 结果是：这些结果该如何解读？

WEKA：打印交叉验证时测试数据实例的索引w.r.t原始数据

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档