问题：

猪vs蜂巢vs本地地图减少

施自怡

2023-03-14

我浏览了几篇文章，基本上都指出Hive用于结构化处理，Pig用于非结构化处理。我们什么时候需要本地地图缩减？你能指出一些使用Pig或Hive但在原生map Reduce中无法解决的场景吗？

共有1个答案

丁经国

2023-03-14

复杂的分支逻辑，它有很多嵌套的if...否则..structures在标准MapReduce中实现更容易、更快，对于处理结构化数据，您可以使用Pangool，它还简化了join之类的事情。此外，标准MapReduce为您提供了完全的控制权，以最大限度地减少数据处理流所需的MapReduce作业数量，这将转化为性能。但是它需要更多的时间来编写代码和引入更改。

Apache Pig也很适合结构化数据，但它的优势是能够处理数据包（所有行都被分组在一个键上），实现以下内容更简单：

获取每个组的前N个元素；
计算每个组的总数，然后将总数与该组中的每一行进行比较；
使用Bloom筛选器进行联接优化；
多查询支持（当PIG试图通过在单个作业中执行更多内容来最小化MapReduce作业的数量时）

类似资料：

蜂巢、猪、地图缩减用例之间的区别

地图-缩小，蜂巢，猪的区别 pig：这是一种数据流语言，它可以处理基本上用于将半结构化、非结构化数据转换为结构化的任何数据，以便使用窗口功能等在hive advance分析中使用。配置单元：处理结构数据并提供sql类型的查询语言。我知道在后端，pig和hive都使用map-reduces。我知道map-duce对程序员来说是个好工具，对sql人来说是蜂巢或猪我只想知道我们在hive、pig
为什么有猪和蜂巢
地图vs平面地图在Reactor

我已经找到了很多关于RxJava的答案，但我想了解它在Reactor中是如何工作的。我目前的理解是非常模糊的，我倾向于认为map是同步的，flatMap是异步的，但我不能真正理解它。以下是一个例子：我有文件（a
编年史地图vs Redis vs Koloboke

我们有一个在50台服务器上使用相同数据集（键值对）的系统。对该数据集的更新数量约为每小时1000次，并且必须在这50台服务器上复制。我们有一个主系统接收这些更新，并负责将这些更新传播到其他服务器。目前，我们每小时以文件的形式将整个数据集（而不是增量更新）同步到所有服务器。然后将这些数据加载到不可变的Koloboke映射中。每个服务器每秒处理大约25000个请求，每个请求对这个映射进行30次查找。在
阿帕奇·Flink：地图vs平面地图

在闪光灯下，平面图也可以发出一条记录。似乎平面图可以代替地图。有人能告诉我这种情况下的区别吗？谢谢你。
蜂巢：如何使用地图列爆炸表格

问题内容：我有这样的桌子这样我就可以轻松执行查询我得到我想生成一个这样的表请注意，我要显示爆炸行。另外，对于多个ID，可能会重复，因此我希望这些行反映出来。基本上，+ 应该是唯一的。我该如何写查询？我试过了但是我得到了问题答案：使用侧面图：结果：使用表而不是子查询。

猪vs蜂巢vs本地地图减少

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档