问题：

Hadoop：化简器将映射器输出写入输出文件

潘畅

2023-03-14

我遇到了一个非常非常奇怪的问题。还原器确实工作，但如果我检查输出文件，我只能找到映射器的输出。当我尝试调试时，在将映射器的输出值类型从Longwritable更改为Text之后，我发现了与单词计数示例相同的问题

    package org.myorg;

import java.io.IOException;
import java.util.*;

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.conf.*;
import org.apache.hadoop.io.*;
import org.apache.hadoop.mapreduce.*;
import org.apache.hadoop.mapreduce.lib.input.*;
import org.apache.hadoop.mapreduce.lib.output.*;
import org.apache.hadoop.util.*;

public class WordCount extends Configured implements Tool {

   public static class Map
       extends Mapper<LongWritable, Text, Text, Text> {
     private final static IntWritable one = new IntWritable(1);
     private Text word = new Text();

     public void map(LongWritable key, Text wtf, Context context)
         throws IOException, InterruptedException {
       String line = wtf.toString();
       StringTokenizer tokenizer = new StringTokenizer(line);
       while (tokenizer.hasMoreTokens()) {
         word.set(tokenizer.nextToken());
         context.write(word, new Text("frommapper"));
       }
     }
   }

   public static class Reduce
       extends Reducer<Text, Text, Text, Text> {
     public void reduce(Text key, Text wtfs,
         Context context) throws IOException, InterruptedException {
/*
       int sum = 0;
       for (IntWritable val : wtfs) {
         sum += val.get();
       }
       context.write(key, new IntWritable(sum));*/
    context.write(key,new Text("can't output"));
     }
   }

   public int run(String [] args) throws Exception {
     Job job = new Job(getConf());
     job.setJarByClass(WordCount.class);
     job.setJobName("wordcount");


     job.setOutputKeyClass(Text.class);
     job.setMapOutputValueClass(Text.class);
       job.setOutputValueClass(Text.class);
     job.setMapperClass(Map.class);
     //job.setCombinerClass(Reduce.class);
     job.setReducerClass(Reduce.class);

     job.setInputFormatClass(TextInputFormat.class);
     job.setOutputFormatClass(TextOutputFormat.class);

     FileInputFormat.setInputPaths(job, new Path(args[0]));
     FileOutputFormat.setOutputPath(job, new Path(args[1]));

     boolean success = job.waitForCompletion(true);
     return success ? 0 : 1;
         }

   public static void main(String[] args) throws Exception {
     int ret = ToolRunner.run(new WordCount(), args);
     System.exit(ret);
   }
}

这是结果。

JobClient:     Combine output records=0
12/06/13 17:37:46 INFO mapred.JobClient:     Map input records=7
12/06/13 17:37:46 INFO mapred.JobClient:     Reduce shuffle bytes=116
12/06/13 17:37:46 INFO mapred.JobClient:     Reduce output records=7
12/06/13 17:37:46 INFO mapred.JobClient:     Spilled Records=14
12/06/13 17:37:46 INFO mapred.JobClient:     Map output bytes=96
12/06/13 17:37:46 INFO mapred.JobClient:     Combine input records=0
12/06/13 17:37:46 INFO mapred.JobClient:     Map output records=7
12/06/13 17:37:46 INFO mapred.JobClient:     Reduce input records=7

然后我在输出文件中发现了奇怪的结果。这个问题发生在我将map的输出值类型和reducer的输入键类型更改为Text之后，无论我是否更改了reduce输出值的类型。我还被迫更改job.setOutputValue（Text.class）

a   frommapper
a   frommapper
a   frommapper
gg  frommapper
h   frommapper
sss frommapper
sss frommapper

帮助！

共有1个答案

封烨伟

2023-03-14

您的化简函数参数应如下所示：

public void reduce(Text key, Iterable <Text> wtfs,
     Context context) throws IOException, InterruptedException {

按照您定义参数的方式，reduce操作不会获得值列表，因此它只输出从map函数获得的任何输入，因为

sum+ = val.get()

每次都是从0到1，因为每个< code >

此外，映射器函数通常不会写入输出文件（我从未听说过，但我不知道这是否可能）。在通常情况下，写入输出文件的总是reducer。映射器输出是Hadoop透明处理的中间数据。因此，如果您在输出文件中看到一些东西，则必须是reducer输出，而不是mapper输出。如果您想验证这一点，可以转到您运行的作业的日志，并分别检查每个映射器和还原器中发生了什么。

希望这能让你明白一些事情。

类似资料：

将映射器输出写入输出文件的Reducer

我正在学习Hadoop，并尝试执行我的Mapduce程序。所有Map任务和Reduce er任务都完成得很好，但Reducer将Mapper Output写入Output文件。这意味着根本没有调用Reduce函数。我的示例输入如下所示预期输出如下所示以下是我的计划。这里问了同样的问题，我在reduce函数中使用了Iterable值作为该线程中建议的答案。但这并不能解决问题。我不能在那里发表评
控制hadoop映射器输出文件的数量

我使用的是hadoop版本0.20和hadoop-core:1.2.0.jar 有没有可能使用新的hadoop API做到这一点？
Hadoop 1个输入文件= 1个输出文件，仅映射

我是Hadoop的新手，但这是我上个月的一个学习项目。为了使这一点足够模糊，以便对其他人有用，让我先抛出基本目标……假设： < li >显然，您有一个大型数据集，包含数百万个基本ASCII文本文件。 < ul > < li >每个文件都是一个“记录” e. g. /user/hduser/data/customer1/YYYY-MM-DD， /user/hduser/data/customer2
映射还原 - 化简器在一行中发出输出

我有一个简单的MapReduce作业，它应该从文本文件中读取字典，然后逐行处理另一个大文件并计算逆文档矩阵。输出应该如下所示：但是，减速器的输出只在一个huuuge行中发出。我不明白为什么它应该为每个（这是减速器的关键）发出新行。映射器生成正确的输出（一对＜code＞单词id的值在单独的行中）。我在没有减速器的情况下进行了测试。reducer应该只为每个键在一行中附加与相同键对应的值。你能看
使用Python映射器进行Hadoop流传输的多个输出文件

问题内容：我的用例如下：我有一个仅地图的mapreduce作业，该作业需要一个输入文件，进行了大量的解析和调整，然后再写回。但是，某些行的格式可能正确也可能不正确，如果是这样，我想将原始行写入单独的文件中。看来，执行此操作的一种方法是将文件名添加到我正在打印的行的前面，并使用multipleOutputFormat参数。例如，如果我最初有：我可以改为：此解决方案唯一的问题是我不希望fil
Hadoop（java）更改映射器输出值的类型

我正在编写一个映射函数，它将键生成为一些user_id，值也是文本类型。我是这样做的然后，在主程序中，我将映射器的输出类设置为：因此，即使我将输出值的类设置为text.class，但在编译时仍然会出现以下错误：

Hadoop：化简器将映射器输出写入输出文件

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档