hadoop中的MultipleOutputFormat

陶健

2023-03-14

问题内容：

我是Hadoop的新手。我正在尝试Wordcount程序。

现在尝试使用多个输出文件MultipleOutputFormat。这个链接帮助我做到了。http://hadoop.apache.org/common/docs/r0.19.0/api/org/apache/hadoop/mapred/lib/MultipleOutputs.html

在我的司机课上

    MultipleOutputs.addNamedOutput(conf, "even",
            org.apache.hadoop.mapred.TextOutputFormat.class, Text.class,
            IntWritable.class);

    MultipleOutputs.addNamedOutput(conf, "odd",
            org.apache.hadoop.mapred.TextOutputFormat.class, Text.class,
            IntWritable.class);`

而我的降低班级变成了

public static class Reduce extends MapReduceBase implements
        Reducer<Text, IntWritable, Text, IntWritable> {
    MultipleOutputs mos = null;

    public void configure(JobConf job) {
        mos = new MultipleOutputs(job);
    }

    public void reduce(Text key, Iterator<IntWritable> values,
            OutputCollector<Text, IntWritable> output, Reporter reporter)
            throws IOException {
        int sum = 0;
        while (values.hasNext()) {
            sum += values.next().get();
        }
        if (sum % 2 == 0) {
            mos.getCollector("even", reporter).collect(key, new IntWritable(sum));
        }else {
            mos.getCollector("odd", reporter).collect(key, new IntWritable(sum));
        }
        //output.collect(key, new IntWritable(sum));
    }
    @Override
    public void close() throws IOException {
        // TODO Auto-generated method stub
    mos.close();
    }
}

一切正常，但是我得到了很多文件（对于每个map-reduce，一个奇数，一个偶数）

问题是：我怎样才能只有2个输出文件（奇数和偶数），以便每个map-reduce的每个奇数输出都被写入该奇数文件，并且偶数相同。

问题答案：

每个化简器使用OutputFormat写入记录。这就是为什么每个reducer会获得一组奇数和偶数文件的原因。这是设计使然，每个减速器都可以并行执行写入。

如果只需要单个奇数和单个偶数文件，则需要将mapred.reduce.tasks设置为1。但是性能会受到影响，因为所有映射器都将馈入单个reducer。

另一个选择是更改读取这些文件的过程以接受多个输入文件，或者编写将这些文件合并在一起的单独过程。

hadoop中的MultipleOutputFormat

相关阅读

相关文章

相关问答

相关工具

相关文档