为什么hadoop无法识别我的Map类？

林彬

2023-03-14

问题内容：

我正在尝试在hadoop 2.2.0上运行我的PDFWordCount映射减少程序，但出现此错误：

13/12/25 23:37:26 INFO mapreduce.Job: Task Id : attempt_1388041362368_0003_m_000009_2, Status : FAILED
Error: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class PDFWordCount$MyMap not found
    at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:1720)
    at org.apache.hadoop.mapreduce.task.JobContextImpl.getMapperClass(JobContextImpl.java:186)
    at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:721)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:339)
    at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:162)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:415)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1491)
    at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:157)
Caused by: java.lang.ClassNotFoundException: Class PDFWordCount$MyMap not found
    at org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:1626)
    at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:1718)
    ... 8 more

它说我的地图类未知。我在3个VM上有一个带有namenod和2个datanodes的集群。

我的主要功能是：

public static void main(String[] args) throws Exception {
    Configuration conf = new Configuration();
    @SuppressWarnings("deprecation")
    Job job = new Job(conf, "wordcount");

    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);

    job.setMapperClass(MyMap.class);
    job.setReducerClass(MyReduce.class);

    job.setInputFormatClass(PDFInputFormat.class);
    job.setOutputFormatClass(TextOutputFormat.class);

    FileInputFormat.addInputPath(job, new Path(args[0]));
    FileOutputFormat.setOutputPath(job, new Path(args[1]));

    job.setJarByClass(PDFWordCount.class);
    job.waitForCompletion(true);
  }

如果我使用以下命令运行jar：

yarn jar myjar.jar PDFWordCount /in /out

/in正如我job.setJarByClass(PDFWordCount.class);在上面看到的那样，它作为输出路径并给我错误，而我的主要功能却在运行。

我已经运行了一个简单的WordCount项目，该项目的主要功能与该主要功能完全相同，并且使用yarn jar wc.jar MyWordCount /in2 /out2它来运行它，我使用它并使其完美运行。

我不明白是什么问题！

更新：
我试图将我的工作从这个项目转移到我成功使用的wordcount项目。我构建了一个程序包，将相关文件从pdfwordcount项目复制到了该程序包中，然后导出了该项目（我的main并未更改为used
PDFInputFormat，所以除了将Java文件移动到新程序包之外，我什么也没做。）它没有用。我从其他项目中删除了文件，但是没有用。我将Java文件移回默认软件包，但没有用！

怎么了？！

问题答案：

即使我不明白实际上是什么问题，我也找到了解决此问题的方法。

当我想将Java项目导出为eclipse中的jar文件时，我有两个选择：

Extract required libraries into generated JAR
Package required libraries into generated JAR

我不知道到底有什么区别，还是不重要。我曾经选择第二个选项，但是如果选择第一个选项，则可以使用以下命令运行我的作业：

yarn jar pdf.jar /in /out

为什么hadoop无法识别我的Map类？

相关阅读

相关文章

相关问答

相关工具

相关文档