当前位置：首页 > 面试题库 >

Hadoop MapReduce-每个输入一个输出文件

曾鸿振

2023-03-14

问题内容：

我是Hadoop的新手，正在尝试弄清楚它是如何工作的。至于练习，我应该实现类似于WordCount-
Example的东西。任务是读入多个文件，执行WordCount并为每个输入文件编写一个输出文件。Hadoop使用组合器，将map-
part的输出改编为reducer的输入，然后写入一个输出文件（我猜每个正在运行的实例）。我想知道是否可以为每个输入文件写入一个输出文件（因此保留inputfile1的字词并将结果写入outputfile1，依此类推）。是否有可能覆盖Combiner-
Class或对此有其他解决方案（我不确定这是否应该在Hadoop-Task中解决，但这是练习）。

谢谢…

问题答案：

map.input.file环境参数具有映射器正在处理的文件名。在映射器中获取此值，并将其用作映射器的输出键，然后将单个文件中的所有k /
v转到一个化简器。

映射器中的代码。顺便说一句，我正在使用旧的MR API

@Override
public void configure(JobConf conf) {
    this.conf = conf;
}

@Override.
public void map(................) throws IOExcepthtml" target="_blank">ion {

        String filename = conf.get("map.input.file");
        output.collect(new Text(filename), value);
}

并使用MultipleOutputFormat，这允许为作业编写多个输出文件。文件名可以从输出键和值派生。

类似资料：

输入与输出 - 文件输入输出

文件 std::fs::File 本身实现了 Read 和 Write trait，所以文件的输入输出非常简单，只要得到一个 File 类型实例就可以调用读写接口进行文件输入与输出操作了。而要得到 File 就得让操作系统打开(open)或新建(create)一个文件。还是拿例子来说明 use std::io; use std::io::prelude::*; use std::fs::File;
如何在Apache Flink中为每个输入生成输出文件

我正在使用Flink来处理我的流数据。流媒体来自其他一些中间件，如Kafka、Pravega等。说Pravega正在发送一些文字流，<代码>你好，世界，我的名字是。我需要的是三个过程步骤：将每个单词映射到我的自定义类对象。将对象映射到String。将字符串写入文件：一个字符串写入一个文件。例如，对于流，我应该得到五个文件。这是我的代码：此代码将所有结果输出到Flink日志文件。
Hadoop 1个输入文件= 1个输出文件，仅映射

我是Hadoop的新手，但这是我上个月的一个学习项目。为了使这一点足够模糊，以便对其他人有用，让我先抛出基本目标……假设： < li >显然，您有一个大型数据集，包含数百万个基本ASCII文本文件。 < ul > < li >每个文件都是一个“记录” e. g. /user/hduser/data/customer1/YYYY-MM-DD， /user/hduser/data/customer2
如何在每个HLS输出中只输出一个视频流

谢谢你。
如何在Linux中为每个输出行列出一个文件名？

问题内容：我正在使用命令来获取目录中的文件名，但输出在一行中。像这样：我需要一个内置的替代方法来获取文件名，每个文件名都换行，如下所示：问题答案：使用该选项（请注意，这是一个“一个”数字，而不是小写字母“ L”），如下所示：不过，首先请确保您的支持。GNU coreutils（安装在标准Linux系统上）和Solaris一样；但如果有疑问，请使用或或查看文档。例如：
映射减少每个键值对的输入/输出发出

MapReduce传递和发出键值对的基本信息。我需要弄清楚我们通过什么和发出什么。以下是我的关注点：MapReduce输入和输出： 1.Map（）方法 - 它是否采用单个或列表的键值对并发出什么？2.对于每个输入键值对，发出什么映射器？相同类型还是不同类型？3.对于每个中间键，减速器会发出什么？类型是否有任何限制？4.减速机接收所有具有相同键的值。值将如何排序，如排序或轨道排序？该顺序是否因运

相关阅读

写出一个函数，输入是两个数组，输出是将两个数组中所有元素排序以后用一个数组输出。使用XSLT输出多个文件将Postgres \ i输入的输出放入文件？Hadoop多个输入 java 输入一个数字,反转输出这个数字的值(实现方法)

相关文章

C++输入输出（cin和cout）字符串的输入和输出 Log4j FileAppender文件输出什么是流，C++输入流和输出流 JavaFX文本域（输入框）

相关问答

多个语言文件和一个输入点将一个Kafka输入流动态连接到多个输出流 Java-如何在一个输入中输入多行文本为什么我输入的每一个输入都忽略While循环？Spring云流Kafka Binder的一个输入主题多个输出主题

相关工具

Android 繁体中文输入法 TV输入法输入发送工具条多多输入法生成器九宫格方式输入密码

相关文档

每周一个 Python 3 模块中文版一个月纯 JS 挑战中文指南每个程序员都应该了解的内存知识深入浅出 Node.js 每个程序员上辈纸都是法力无边的巫师