问题：

控制hadoop映射器输出文件的数量

赵飞雨

2023-03-14

我使用的是hadoop版本0.20和hadoop-core:1.2.0.jar

有没有可能使用新的hadoop API做到这一点？

共有1个答案

东郭和光

2023-03-14

输出文件的数量等于还原器的数量，如果没有还原器，则等于映射器的数量。

您可以在作业中添加一个精简器，这样所有映射器的输出都将指向它，从而得到一个输出文件。请注意，由于所有数据（映射器的输出）都将通过导线（网络IO）发送到还原器将运行的节点，因此效率较低。此外，由于单个进程将（最终）获得所有数据，因此它可能会运行得更慢。

在wat中，存在多个部分这一事实应该不是很重要，因为您可以将包含它们的目录传递给后续作业

类似资料：

Hadoop：化简器将映射器输出写入输出文件

我遇到了一个非常非常奇怪的问题。还原器确实工作，但如果我检查输出文件，我只能找到映射器的输出。当我尝试调试时，在将映射器的输出值类型从Longwritable更改为Text之后，我发现了与单词计数示例相同的问题这是结果。然后我在输出文件中发现了奇怪的结果。这个问题发生在我将map的输出值类型和reducer的输入键类型更改为Text之后，无论我是否更改了reduce输出值的类型。我还被迫更改j
如何控制hadoop流式输出文件的数量

有没有办法使用hadoop流作业将这20,000个文件合并到10,000个文件？或者，换句话说，有没有办法控制hadoop流式输出文件的数量？提前感谢！
Hadoop 1个输入文件= 1个输出文件，仅映射

我是Hadoop的新手，但这是我上个月的一个学习项目。为了使这一点足够模糊，以便对其他人有用，让我先抛出基本目标……假设： < li >显然，您有一个大型数据集，包含数百万个基本ASCII文本文件。 < ul > < li >每个文件都是一个“记录” e. g. /user/hduser/data/customer1/YYYY-MM-DD， /user/hduser/data/customer2
使用Python映射器进行Hadoop流传输的多个输出文件

问题内容：我的用例如下：我有一个仅地图的mapreduce作业，该作业需要一个输入文件，进行了大量的解析和调整，然后再写回。但是，某些行的格式可能正确也可能不正确，如果是这样，我想将原始行写入单独的文件中。看来，执行此操作的一种方法是将文件名添加到我正在打印的行的前面，并使用multipleOutputFormat参数。例如，如果我最初有：我可以改为：此解决方案唯一的问题是我不希望fil
在Hadoop中从映射器生成多个输出文件MapReduce

我正在从mapper生成两个输出文件。我使用Multipleoutput api生成两个输出。我不确定这样做是否正确。这是我的代码。。请仔细检查一下，给我你的建议。。当我运行代码时，我得到了一个错误：java。lang.NullPointerException。。这是日志... 错误：java。com上的lang.NullPointerException。尼尔森。grfe。Export\u Co
将映射器输出写入输出文件的Reducer

我正在学习Hadoop，并尝试执行我的Mapduce程序。所有Map任务和Reduce er任务都完成得很好，但Reducer将Mapper Output写入Output文件。这意味着根本没有调用Reduce函数。我的示例输入如下所示预期输出如下所示以下是我的计划。这里问了同样的问题，我在reduce函数中使用了Iterable值作为该线程中建议的答案。但这并不能解决问题。我不能在那里发表评

控制hadoop映射器输出文件的数量

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档