当前位置: 首页 > 知识库问答 >
问题:

HDFS、HBase、猪、蜂巢和阿兹卡班之间的关系?

桂杰
2023-03-14

我对Apache Hadoop有些陌生。我已经看到了关于Hadoop、HBase、Pig、Hive和HDFS的这个和这个问题。两者都描述了上述技术之间的比较。

但是,我已经看到,Hadoop环境通常包含所有这些组件(HDFS、HBase、Pig、Hive、Azkaban)。

有人能以架构工作流的方式解释那些组件/技术与其在Hadoop环境中的职责之间的关系吗?最好是举个例子?

共有1个答案

那存
2023-03-14

一般概况:

HDFS是Hadoop的分布式文件系统。直观地,您可以将其视为一个跨越许多服务器的文件系统。

HBASE是一个面向列的数据存储库。它是以Google的大表为模型的,但如果您不知道这一点,那么可以将其视为一个非关系数据库,提供对数据的实时读/写访问。它集成到Hadoop中。

扩展示例:

如果您熟悉Linux ext3或ext4作为文件系统,MySQL/PostgreSQL/Mariadb/etc作为数据库,SQL访问数据,cron调度作业。(您可以将ext3/ext4用于NTFS,而将cron用于Windows上的任务计划程序)

HDFS取代了ext3或ext4(并且是分布式的),HBASE扮演数据库角色(并且是非关系的!),PIG/HIVE是访问数据的一种方式,而Azkaban是调度作业的一种方式。

编辑:你发布的链接更详细地介绍了HBase和Hive/Pig,所以我试图给出一个直观的图片,说明它们是如何结合在一起的。

 类似资料:
  • 如何为每个作业设置流程参数?我试图配置一个自定义警报程序,我希望每个作业都触发它。它看起来像是在从流参数中寻找“alert.type”属性,但现在我只能通过接口触发它。有什么想法吗?

  • 我们的项目中有一个Azkaban属性,类似于,它用作spark作业的参数。命令(在流日志中)已经计算了表达式,但是生成的Azkaban文件(因为这是在gradle中定义的)仍然包含代码字符串。 我找不到任何关于这是如何工作的。谷歌搜索无济于事。文档中没有提到这个功能(关于参数)。

  • 地图-缩小,蜂巢,猪的区别 pig:这是一种数据流语言,它可以处理基本上用于将半结构化、非结构化数据转换为结构化的任何数据,以便使用窗口功能等在hive advance分析中使用。 配置单元:处理结构数据并提供sql类型的查询语言。 我知道在后端,pig和hive都使用map-reduces。 我知道map-duce对程序员来说是个好工具,对sql人来说是蜂巢或猪 我只想知道我们在hive、pig

  • 我是Hadoop的新手。我正在浏览专业Hadoop解决方案的书,以获得一些关于Hadoop和生态系统的知识。我想澄清HDFS和HBase之间的主要区别是什么。我理解的方式就像两者都是存储系统。它们的区别只是在访问数据方面。HBase通过非关系型数据库访问数据,HDFS使用计算框架(MapReduce)处理数据。如果是这种情况,为什么我们不能只有一个存储HDFS或HBase。根据需求,他们将插入和插

  • 我浏览了几篇文章,基本上都指出Hive用于结构化处理,Pig用于非结构化处理。我们什么时候需要本地地图缩减?你能指出一些使用Pig或Hive但在原生map Reduce中无法解决的场景吗?