当前位置: 首页 > 知识库问答 >
问题:

K-均值迭代失败处理输出/群集-2

商迪
2023-03-14

我刚学了几天Hadoop,当我在Hadoop中执行Mahout的示例代码时,我得到了以下错误:

代码段

Path path = new Path("testdata/clusters/part-00000");
SequenceFile.Writer writer = new SequenceFile.Writer(fs, conf,
    path, Text.class, Cluster.class);

for (int i = 0; i < k; i++) {
  Vector vec = vectors.get(i);
  Cluster cluster = new Cluster(vec, i, new EuclideanDistanceMeasure());
  writer.append(new Text(cluster.getIdentifier()), cluster);
}
writer.close();

KMeansDriver.run(conf, new Path("testdata/points"), new Path("testdata/clusters"),
  new Path("output"), new EuclideanDistanceMeasure(), 0.001, 10,
  true, false);

SequenceFile.Reader reader = new SequenceFile.Reader(fs,
    new Path("output/" + Cluster.CLUSTERED_POINTS_DIR
             + "/part-m-00000"), conf);

IntWritable key = new IntWritable();
WeightedVectorWritable value = new WeightedVectorWritable();
while (reader.next(key, value)) {
  System.out.println(value.toString() + " belongs to cluster "
                     + key.toString());
}
reader.close();

共有1个答案

唐炳
2023-03-14

它将有助于指定Mahout版本u r使用,以及其他细节,如Hadoop2.x或1.x。

如果您使用的是Mahout0.7或更早版本,建议切换到Mahout0.9。

 类似资料:
  • 注: 内容翻译自 Understand failures 在机器的大量部署中失败是很常见的。当硬件或者软件故障时单台机器失败。当电力故障或者网络问题时多台机器一起失败。多种失败也可能一起发生;几乎不可能列举出所有可能的失败场景。 在这节中,我们分类失败的种类并讨论 etcd 是如何设计来容忍这些失败的。大部分用户,不是所有,可以映射一个特别的失败到一种失败。为了应对罕见或者 不可恢复的失败, 总是

  • 目标 在本章中,我们将了解K-Means聚类的概念,其工作原理等。 理论 我们将用一个常用的例子来处理这个问题。 T-shirt尺寸问题 考虑一家公司,该公司将向市场发布新型号的T恤。显然,他们将不得不制造不同尺寸的模型,以满足各种规模的人们的需求。因此,该公司会记录人们的身高和体重数据,并将其绘制到图形上,如下所示: 公司无法制作所有尺寸的T恤。取而代之的是,他们将人划分为小,中和大,并仅制造这

  • 命令在rest两个节点上运行,一切正常。当我想跑的时候 nodetool状态 命令时,我得到了这个错误消息

  • 本教程用于多代理kafka集群。我建立了三个经纪人: 本地主机:9092 本地主机:9093 本地主机:9094 问题是,如果我杀死,我就不能使用以下命令: 我知道端口被杀死了,但是--如何通过通用引导服务器来使它运行?我错过了什么? 编辑1: bin/kafka-console-consumer.sh--bootstrap-server localhost:9092,localhost:9093

  • 我使用Math.random(我必须使用这个)得到随机数,试图找到平均值,但它总是输出错误的平均值,输出的随机数大致相同,我还必须使用switch语句,因为它是我的任务的一部分,谢谢。 我的目标是打印出随机数,并求出这些数字的总平均值,然而它并不像它应该的那样工作,因为它打印出了一个错误的值。我是一个新的java和我第一次使用这个网站,抱歉所有的错误,我犯了,非常感谢。

  • 问题内容: 我正在寻找带有示例的k-means算法的Python实现来聚类和缓存我的坐标数据库。 问题答案: 更新:( 在最初回答之后十一年,可能是该进行更新的时候了。) 首先,您确定要使用k均值吗? 该页面很好地总结了一些不同的聚类算法。我建议您在图形之外,特别查看每种方法所需的参数,并确定您是否可以提供所需的参数(例如,k均值需要簇的数量,但是也许您不知道在开始之前就知道了)群集)。 以下是一