当前位置: 首页 > 面试题库 >

Hadoop选项没有任何作用(mapreduce.input.lineinputformat.linespermap,mapred.max.map.failures.percent)

解飞语
2023-03-14
问题内容

我正在尝试实现MapReduce作业,其中每个映射器将占用150行文本文件,并且所有映射器将同时运行。此外,无论有多少个地图任务失败,它都不应失败。

这是配置部分:

        JobConf conf = new JobConf(Main.class);
        conf.setJobName("My mapreduce");

        conf.set("mapreduce.input.lineinputformat.linespermap", "150");
        conf.set("mapred.max.map.failures.percent","100");

        conf.setInputFormat(NLineInputFormat.class);

        FileInputFormat.addInputPath(conf, new Path(args[0]));
        FileOutputFormat.setOutputPath(conf, new Path(args[1]));

问题是hadoop为每一行文本创建了一个映射器,它们似乎是按顺序运行的,如果单个失败,则作业将失败。

由此推断,我应用的设置没有任何效果。

我做错什么了?


问题答案:

如果您想快速找到hadoop新api选项的正确名称,请使用以下链接:http
:
//pydoop.sourceforge.net/docs/examples/intro.html#hadoop-0-21-0-notes。



 类似资料:
  • 因此,我今天的梁工作以以下警告结束: /usr/local/lib/python2。7/dist包/apache_-beam/runners/dataflow/dataflow_-runner。py:800:BeamDeprecationWarning:自第一个稳定版本以来,选项已被弃用。提及。选项将不受支持 所以据我所知,与其这样做: 我将不得不谈到这一点: 但有一个问题,很多选项不再可用,例如

  • 我有一个这样的数据帧: 我试图了解如何应用自定义滚动函数。我尝试过这样做: 但这给了我原来的DataFrame回来: 如果我有一个不同的数据帧,如下所示: 同样的滚动应用似乎工作: 为什么这对第一个数据帧不起作用? 熊猫版本:0.20。2. Python版本:2.7.10 使现代化 所以,我意识到的列是对象类型的,而lambda函数的输出是整数。的列都是整数列。我假设这就是应用程序不起作用的原因。

  • Win7-64,Python 3.6。将tensorflow升级到1.8后,如下文本 给出错误: Traceback(最近一次调用最后一次):File"C:\Program Files\Python36\lib\site-pack\tenorflow\python\pywrap_tensorflow_internal.py",第14行,swig_import_helper返回importlib.i

  • 我在lexer语法文件中编写并用antlr4编译它。上面说 看来“filter”只适用于ANTLR3 我查了wikihttp://www.antlr.org/wiki/display/antlr4/options,没有找到答案。“filter”关键字也不在源文件https://github.com/antlr/antlr4/blob/master/tool/src/org/antlr/v4/too

  • 问题内容: 我使用Windows 8和Ubuntu作为虚拟机设置了开发环境。为此,我使用VirtualBox。 我还设法在VirtualBox中创建一个共享文件夹。 在此共享文件夹中,我尝试使用Yeoman的ember-generator启动项目。 对于安装模块NPM,我使用选项“ –no-bin- links”不创建符号链接。不幸的是,我仍然有错误创建符号链接…尽管使用了此选项,但我使用的是什么