当前位置：首页 > 面试题库 >

请简述mapreduce中，combiner，partition作用？

胡弘毅

2023-03-14

本文向大家介绍请简述mapreduce中，combiner，partition作用？相关面试题，主要包含被问及请简述mapreduce中，combiner，partition作用？时的应答技巧和注意事项，需要的朋友参考一下

在MapReduce整个过程中，combiner是可有可无的，需要是自己的情况而定，如果只是单纯的对map输出的key-value进行一个统计，则不需要进行combiner，combiner相当于提前做了一个reduce的工作，减轻了reduce端的压力，

Combiner只应该适用于那种Reduce的输入（key：value与输出（key：value）类型完全一致，且不影响最终结果的场景。比如累加，最大值等，也可以用于过滤数据，在 map端将无效的数据过滤掉。

在这些需求场景下，输出的数据是可以根据key值来作合并的，合并的目的是减少输出的数据量，减少IO的读写，减少网络传输,以提高MR的作业效率。

1.combiner的作用就是在html" target="_blank">map端对输出先做一次合并,以减少传输到reducer的数据量.

2.combiner最基本是实现本地key的归并,具有类似本地reduce,那么所有的结果都是reduce完成,效率会相对降低。

3.使用combiner,先完成的map会在本地聚合,提升速度.

--partition意思为分开，分区。它分割map每个节点的结果，按照key分别映射给不同的reduce，也是可以自定义的。其实可以理解归类。也可以理解为根据key或value及reduce的数量来决定当前的这对输出数据最终应该交由哪个reduce task处理

partition的作用就是把这些数据归类。每个map任务会针对输出进行分区，及对每一个reduce任务建立一个分区。划分分区由用户定义的partition函数控制，默认使用哈希函数来划分分区。 HashPartitioner是mapreduce的默认partitioner。计算方法是

which reducer=(key.hashCode() & Integer.MAX_VALUE) % numReduceTasks，得到当前的目的reducer。

类似资料：

请简述 mapreduce 中，combiner，partition 作用？

本文向大家介绍请简述 mapreduce 中，combiner，partition 作用？相关面试题，主要包含被问及请简述 mapreduce 中，combiner，partition 作用？时的应答技巧和注意事项，需要的朋友参考一下解答： combiner是reduce的实现，在map端运行计算任务，减少map端的输出数据。作用就是优化。但是combiner的使用场景是mapreduce的
hadoop-mapreduce reducer-combiner input

我正在学习一些MapReduce，但是我遇到了一些问题，情况是这样的:我有两个文件:“users”包含一个用户列表，其中包含一些用户数据(性别、年龄、国家等)...)文件看起来像这样: “歌曲”包含所有用户收听的歌曲的数据（用户ID，收听日期和时间，艺术家ID，艺术家姓名，歌曲ID，歌曲标题）：目标是在某些国家找到k首最受欢迎的歌曲。k和输入中提供的国家列表。我决定为映射器使用Multiple
Hadoop概述/MapReduce/流程/MapReduce执行流程简述

一、背景最近总在弄MR的东西，所以写点关于这个方面的内容，总结一下吧二、流程描述说实话，文字描述比较苍白，画了个图，贴出来，大家看看，有问题欢迎指出三、总结 1、值得提出的是，一个map结束就马上会进行分区的操作。并非是等所有的map都结束才做分区的操作。 2、分组的操作是对key的值进行比较分组。（可以是复合key，也可以是单一的key） 3、关于job.setSortComparato
扩展资料/MapReduce中的Combiner的使用

一、作用 1、combiner最基本是实现本地key的聚合，对map输出的key排序，value进行迭代。如下所示： map: (K1, V1) → list(K2, V2) combine: (K2, list(V2)) → list(K2, V2) reduce: (K2, list(V2)) → list(K3, V3) 2、combiner还具有类似本地的reduce功能. 例如hadoo
相关软件介绍/Hive/Partition简述

一、背景 1、在Hive Select查询中一般会扫描整个表内容，会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据，因此建表时引入了partition概念。 2、分区表指的是在创建表时指定的partition的分区空间。 3、如果需要创建有分区的表，需要在create表的时候调用可选参数partitioned by，详见表创建的语法结构。二、技术细节 1、一个表可以拥有一个或者
hadoop中Combiner的作用?

本文向大家介绍 hadoop中Combiner的作用?相关面试题，主要包含被问及 hadoop中Combiner的作用?时的应答技巧和注意事项，需要的朋友参考一下解答： combiner是reduce的实现，在map端运行计算任务，减少map端的输出数据。作用就是优化。但是combiner的使用场景是mapreduce的map和reduce输入输出一样。

相关阅读

请简述一下你怎么理解用户体验请简述一下如何优化数据库?请简述一下Hibernate常见优化策略。请问，在java中会存在内存泄漏吗？请简单描述一下。请简述为什么要使用数据库的事务

相关文章

简述最小树形图简述矩阵树定理 Go语言os包用法简述 MongoDB MapReduce 6.0 MapReduce 使用

相关问答

mapreduce作业中的“合并器”类调用StanfordCoreNLP API与MapReduce工作在Hadoop MapReduce作业中链接多个reducer 为简单的hadoop mapreduce作业运行两个mapper和两个reducer hadoop mapreduce作业不运行reducer

相关工具

Partition Logic MySQL Partition Manager KDE Partition Manager MapReduce Bugzilla 简体中文版

相关文档

SICP Python 描述中文版 Web.py Cookbook 简体中文版 Databricks Spark 知识库简体中文版精通门罗币 XMR 简体中文版 Win32 API 教程第二版简体中文