当前位置: 首页 > 知识库问答 >
问题:

Oozie worflow,配置mapreduce操作以仅在一组文件上运行reducer/combiner

丰智
2023-03-14

我想在oozie工作流中为现有的mapreduce jar(带有mapper、reducer,有时还有combiner)文件配置一个mapreduce操作,这样只有reducer/combiner在输入文件上运行。

共有1个答案

岳京
2023-03-14

所有 MapReduce 作业都必须运行映射阶段,但是您可以让映射器通过以下方式直接传递数据:

    < li >在旧的MR API中使用< code>IdentityMapper < li >在新的MR API中,根本不指定映射器类,这将默认为充当身份映射器的基本< code>Mapper类
 类似资料:
  • 我试图运行WordCount示例的一个变体,这个变体是,映射器输出文本作为键和文本作为值,而还原器输出文本作为键和NullWritable作为值。 除了地图,减少签名,我把主要的方法是这样的:

  • 我试图将批量加载map-reduce定制到HBase中,我遇到了reducer的问题。起初我认为我没有写好reducer,但是在reducer中抛出运行时异常并看到代码工作时,我意识到reducer根本没有运行。到目前为止,我看不出这个问题的一些常见答案有什么问题; 我的配置将mapoutput和output分开。 我的减速器和映射器具有覆盖功能。 我有Iterable,我的reducer输入是(

  • 问题内容: 是否可以在任何操作系统(例如Windows,Linux,Mac OS X)上执行JAR文件?我想构建一个要在Linux,Windows和Mac OS X上运行的简单应用程序。JAR文件可以在安装了Java的任何操作系统上运行吗? 问题答案: Jar文件可在存在JVM的任何OS上运行。

  • 我已经在GitHub操作中设置了一个工作流来运行我的测试并创建测试覆盖的工件。我的YAML文件的精简版本如下所示: 问题是当测试失败时,工件不会被创建。 我从文档中找到了关于的条件,但这也会导致在我的步骤失败时运行此步骤。我不希望发生这种情况,因为在这种情况下没有什么可归档的。 如果上一步已经运行(成功或失败),我如何才能运行此步骤?

  • 我正在学习一些MapReduce,但是我遇到了一些问题,情况是这样的:我有两个文件:“users”包含一个用户列表,其中包含一些用户数据(性别、年龄、国家等)...)文件看起来像这样: “歌曲”包含所有用户收听的歌曲的数据(用户ID,收听日期和时间,艺术家ID,艺术家姓名,歌曲ID,歌曲标题): 目标是在某些国家找到k首最受欢迎的歌曲。k和输入中提供的国家列表。 我决定为映射器使用Multiple

  • 现在我有一个4阶段的MapReduce作业,如下所示: