当前位置: 首页 > 知识库问答 >
问题:

蜂巢、猪、地图缩减用例之间的区别

柏麒
2023-03-14

地图-缩小,蜂巢,猪的区别

pig:这是一种数据流语言,它可以处理基本上用于将半结构化、非结构化数据转换为结构化的任何数据,以便使用窗口功能等在hive advance分析中使用。

配置单元:处理结构数据并提供sql类型的查询语言。

我知道在后端,pig和hive都使用map-reduces。

我知道map-duce对程序员来说是个好工具,对sql人来说是蜂巢或猪

我只想知道我们在hive、pig和map reduce方面有没有具体的使用案例

基本上,我们决定在这里使用pig-here-hive,或者必须使用map-reduce。

共有3个答案

养慈
2023-03-14

Pig是一种数据流语言。这意味着您不能使用if语句或循环。如果您需要做大量重复,最好学习mapduce。

您可以通过将猪嵌入到python脚本中来解决这个问题,但这需要更长的时间,因为它必须在循环的每次迭代中加载所有jar文件。

基本上,它归结为你花了多少时间来制作原型,而你有多少生产工作。如果你是一名数据科学家或分析师,你的大部分工作都是需要大量原型的新项目。这意味着您关心快速获得结果。那么你更喜欢猪或蜂房。如果您是开发团队中的一员,那么您希望基于商定的方法构建健壮的代码,而不需要进行测试,然后您会选择mapreduce。

有像Cloudera这样的公司提供了Pig、Hive和其他Hadoop工具包,因此您不必在两者之间进行选择。

程天佑
2023-03-14

Pig用于格式化非结构化/半结构化数据格式。假设您的数据中有一个时间戳,它与Hive时间戳格式不同。您可以使用pigUDF进行转换并格式化数据。这只是一个解释的例子。你可以用猪做更多的事情。

Hive基本上用于结构化数据。这可能不适用于非结构化数据。在转换为Mapreduce作业时,这需要更多的时间来执行。我建议你用黑斑羚,它比蜂箱快得多。

公羊子真
2023-03-14

Map Reduce:性能优于pig或hive,但需要更多的开发时间。

PIg:较少的开发时间,但性能较差,当与map-减少相比。

Hve:SQL类型语言,具有一些很好的特性,如分区和单元化,以提高读取性能。此外,hive在读取时强制执行模式。

 类似资料:
  • 我浏览了几篇文章,基本上都指出Hive用于结构化处理,Pig用于非结构化处理。我们什么时候需要本地地图缩减?你能指出一些使用Pig或Hive但在原生map Reduce中无法解决的场景吗?

  • 我对Apache Hadoop有些陌生。我已经看到了关于Hadoop、HBase、Pig、Hive和HDFS的这个和这个问题。两者都描述了上述技术之间的比较。 但是,我已经看到,Hadoop环境通常包含所有这些组件(HDFS、HBase、Pig、Hive、Azkaban)。 有人能以架构工作流的方式解释那些组件/技术与其在Hadoop环境中的职责之间的关系吗?最好是举个例子?

  • 我正在执行一个HQL查询,该查询几乎没有连接、联合和插入覆盖操作,如果只运行一次,它就可以正常工作。 如果我第二次执行相同的作业,我就会面临这个问题。有人能帮我确定在哪种情况下我们会得到这个异常吗?

  • 问题内容: 我有这样的桌子 这样我就可以轻松执行查询 我得到 我想生成一个这样的表 请注意,我要显示爆炸行。另外,对于多个ID,可能会重复,因此我希望这些行反映出来。基本上,+ 应该是唯一的。 我该如何写查询?我试过了 但是我得到了 问题答案: 使用 侧面图 : 结果: 使用表而不是子查询。

  • 蜂巢平台(OpenComb Platform)是一个基于 PHP 5.3 实现的深度云计算应用框架。蜂巢采用了扩展模式,系统中的功能和特性,都由扩展提供。 因此,用户可以通过开发和安装扩展来部署各种类型的互联网应用。