当前位置: 首页 > 知识库问答 >
问题:

MultipleOutputFormat-Hadoop

狄飞尘
2023-03-14

我是一个有点新的地图缩小,所以如果任何人可以指导我与下面的问题,这将是伟大的

>

  • 我在map Reduce中使用了多输出格式来写入分离输出文件。让我们假设我的输入文件有水果和蔬菜,因此把它分成两个文件。水果和蔬菜如下。

    水果-R-00000,蔬菜-R-00000,部分-R-00000

    我搞不清有多少减速器会运转?我知道,默认情况下,减速器的数量被设置为1,由于文件名的数字部分是相同的,我相信只有一个减速器运行。我的理解正确吗?另外,为什么要创建part-r-00000文件?我把所有的输出都写在水果文件或蔬菜文件中。

    如果我有1 GB的数据要处理,我如何决定要使用的最优减速器数?

  • 共有1个答案

    贝凯
    2023-03-14
    one reducer will run ,it has nothing to do with part of file name , no of reducer would be either specified by the user by default it calculated the size of the input file and amount of work which need to be done in reducers .
    
    part-r-00000 : This is related with partitioning, Since we have one reducer so all partitions will point to this file 
    
    Number of reduces in most cases specified by users. It mostly depends on amount of work, which need to be done in reducers. But their number should not be very big, because of algorithm, used by Mapper to distribute data among reducers. Some frameworks, like Hive can calculate number of reducers using empirical 1GB output per reducer.
    
     类似资料:
    • 问题内容: 我是Hadoop的新手。我正在尝试Wordcount程序。 现在尝试使用多个输出文件。这个链接帮助我做到了。http://hadoop.apache.org/common/docs/r0.19.0/api/org/apache/hadoop/mapred/lib/MultipleOutputs.html 在我的司机课上 而我的降低班级变成了 一切正常,但是我得到了很多文件(对于每个ma

    • 一、背景 Hadoop的MapReduce中多文件输出默认是TextOutFormat,输出为part-r- 00000和part-r-00001依次递增的文件名。hadoop提供了 MultipleOutputFormat类,重写该类可实现定制自定义的文件名。 二、技术细节 1.环境:hadoop 0.19(目前hadoop 0.20.2对MultipleOutputFormat支持不好),li

    • 这是我的减速器。Reducer具有可边写和可空写功能 EdgeWritable有4个整数,例如<71,74,7,2000>通信在71(FromID)到74(ToID)on 7(7月)2000(Year)之间。 映射器输出10787条记录到reducer,但reducer只输出1条。 我需要输出44个文件与44个月之间的时期从1998年10月至2002年7月。输出的格式应该是“out”+month+

    • 我正在使用ApacheFlink的数据集API。我想实现一个将多个结果写入不同文件的作业。 我该怎么做?

    • 问题内容: 我是Hadoop / ZooKeeper的新手。我不明白将ZooKeeper与Hadoop结合使用的目的,ZooKeeper是否在Hadoop中写入数据?如果不是,那么为什么我们将ZooKeeper与Hadoop一起使用? 问题答案: Hadoop 1.x不使用Zookeeper。即使在Hadoop 1.x安装中,HBase也会使用zookeeper。 Hadoop从2.0版开始也采用

    • 问题内容: 我需要以.csv格式输出hadoop结果。我该怎么做?我的代码:https : //github.com/studhadoop/xml/blob/master/XmlParser11.java 我应该在我的代码中简单地包含csvoutputFormat吗?我正在使用mapreduce API myjob.sh 解 是的,我不见了>在猫里 问题答案: 您可以使用TextOutputFor