当前位置: 首页 > 知识库问答 >
问题:

猪vs蜂巢vs本地地图减少

施自怡
2023-03-14

我浏览了几篇文章,基本上都指出Hive用于结构化处理,Pig用于非结构化处理。我们什么时候需要本地地图缩减?你能指出一些使用Pig或Hive但在原生map Reduce中无法解决的场景吗?

共有1个答案

丁经国
2023-03-14

复杂的分支逻辑,它有很多嵌套的if...否则..structures在标准MapReduce中实现更容易、更快,对于处理结构化数据,您可以使用Pangool,它还简化了join之类的事情。此外,标准MapReduce为您提供了完全的控制权,以最大限度地减少数据处理流所需的MapReduce作业数量,这将转化为性能。但是它需要更多的时间来编写代码和引入更改。

Apache Pig也很适合结构化数据,但它的优势是能够处理数据包(所有行都被分组在一个键上),实现以下内容更简单:

  1. 获取每个组的前N个元素;
  2. 计算每个组的总数,然后将总数与该组中的每一行进行比较;
  3. 使用Bloom筛选器进行联接优化;
  4. 多查询支持(当PIG试图通过在单个作业中执行更多内容来最小化MapReduce作业的数量时)
 类似资料:
  • 地图-缩小,蜂巢,猪的区别 pig:这是一种数据流语言,它可以处理基本上用于将半结构化、非结构化数据转换为结构化的任何数据,以便使用窗口功能等在hive advance分析中使用。 配置单元:处理结构数据并提供sql类型的查询语言。 我知道在后端,pig和hive都使用map-reduces。 我知道map-duce对程序员来说是个好工具,对sql人来说是蜂巢或猪 我只想知道我们在hive、pig

  • 我已经找到了很多关于RxJava的答案,但我想了解它在Reactor中是如何工作的。 我目前的理解是非常模糊的,我倾向于认为map是同步的,flatMap是异步的,但我不能真正理解它。 以下是一个例子: 我有文件(a

  • 我们有一个在50台服务器上使用相同数据集(键值对)的系统。对该数据集的更新数量约为每小时1000次,并且必须在这50台服务器上复制。我们有一个主系统接收这些更新,并负责将这些更新传播到其他服务器。目前,我们每小时以文件的形式将整个数据集(而不是增量更新)同步到所有服务器。然后将这些数据加载到不可变的Koloboke映射中。每个服务器每秒处理大约25000个请求,每个请求对这个映射进行30次查找。在

  • 在闪光灯下,平面图也可以发出一条记录。似乎平面图可以代替地图。有人能告诉我这种情况下的区别吗?谢谢你。

  • 问题内容: 我有这样的桌子 这样我就可以轻松执行查询 我得到 我想生成一个这样的表 请注意,我要显示爆炸行。另外,对于多个ID,可能会重复,因此我希望这些行反映出来。基本上,+ 应该是唯一的。 我该如何写查询?我试过了 但是我得到了 问题答案: 使用 侧面图 : 结果: 使用表而不是子查询。