大数据（Yarn）面试题及答案

优质

小牛编辑

105浏览

2023-03-28

大数据（Yarn）面试题及答案

介绍下YARN

● Yarn 是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序。

YARN有几个模块

● Yarn架构

○ ResourceManager（RM）：

■ 1、处理客户端的请求

■ 2、监控NodeManager

■ 3、启动或者监控ApplicationMaster

■ 4、资源的调度和分配

○ NodeManager（NM）：

■ 1、管理单个节点上的资源

■ 2、处理来自ResourceManager的命令

■ 3、处理来自ApplicationMaster的命令

○ ApplicationMaster（AM）：

■ 1、负责数据的切分

■ 2、为应用程序申请资源并分配给内部的任务

■ 3、任务的监控与容错

○ Container：

■ 是Yarn中的资源抽象，它封装了某个节点上的多维度资源，如内存、CPU、磁盘、网络等。

YARN工作机制

● 4.3 工作机制

○

○ 1）作业提交
○ 2）作业初始化
○ 3）任务分配
○ 4）任务运行
○ 5）进度和状态更新
○ 6）作业完成

○
● 第1步：Client调用job.waitForCompletion方法，向整个集群提交MapReduce作业。
● 第2步：Client向RM申请一个作业id。
● 第3步：RM给Client返回该job资源的提交路径和作业id。
● 第4步：Client提交jar包、切片信息和配置文件到指定的资源提交路径。
● 第5步：Client提交完资源后，向RM申请运行ApplicationMaster。
● 第6步：当RM收到Client的请求后，将该job添加到容量调度器中。
● 第7步：某一个空闲的NM领取到该Job。
● 第8步：该NM创建Container，并产生ApplicationMaster。
● 第9步：下载Client提交的资源到本地。
● 第10步：ApplicationMaster向RM申请运行多个MapTask任务资源。
● 第11步：RM将运行MapTask任务分配给另外两个NodeManager，另两个NodeManager分别领取任务并创建容器。
● 第12步：MR向两个接收到任务的NodeManager发送程序启动脚本，这两个NodeManager分别启动MapTask，MapTask对数据分区排序。
● 第13步：ApplicationMaster等待所有MapTask运行完毕后，向RM申请容器，运行ReduceTask。
● 第14步：ReduceTask向MapTask获取相应分区的数据。
● 第15步：程序运行完毕后，MR会向RM申请注销自己。

YARN有什么优势，能解决什么问题?
1、解决了单点故障问题，由于每一个任务由一个AppMaster进行调度，且可进行AppMaster出错重试，从而使单点故障影响到多个任务进行问题不存在。
2、解决了单点压力过大问题，每一个任务由一个AppMaster进行调度，而每一个AppMaster都是由集群中资源较为充足的结点进行启动，调度任务，起到一个负载均衡的作用。
3、完成了资源管理和任务调度的解耦，Yarn只负责对集群资源的管理，各个计算框架只要继承了AppMaster，就可以共同使用Yarn资源管理，更加充分地利用集群资源。
————————————————
版权声明：本文为CSDN博主「eddieVim」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/weixin_44129784/article/details/109506958
YARN容错机制
作为分布式系统，YARN具备高容错性，各个服务组件的容错机制如下：
1、ApplicationMaster容错：RM监控AM的运行状态，一旦发现它运行失败或者超时，就会重新分配资源并启动它，启动之后AM内部的状态如何恢复由自己保证，比如MRAppMaster在作业运行过程中将状态信息动态记录到HDFS上，一旦出现故障重启后，它能够从HDFS读取并恢复之前的运行状态，减少重复计算带来的开销。
2、NodeManager容错：NM超时没有心跳，则RM认为它死掉，会将上面的Container状态置为失败，并告诉对应的ApplicationMaster，以决定如何处理这些Container中运行的任务
3、Container容错：如果AM在一定时间内未启动分配到的Container，则RM会将该Container状态置为失败并回收它；如果一个Container在运行过充中，因为外界原因导致运行失败，则RM会转告对应的AM,由AM决定如何处理
4、RM容错：至关重要，接下来介绍：

Hadoop HA基本框架
为了解决单点故障问题，Hadoop2.0中的HDFS和YARN均采用了基于共享存储的HA解决方案，即Active Master不断将信息写入到一个共享存储系统，而Standby Master则不断读取这些信息，以与Active Master的内存信息保持同步，当需要主备切换时，选中的Standby Master需先保证信息完全同步后，再将自己的角色切换至Active Master。
YARN HA采用的是基于Zookeeper的方案，MRv1采用的是基于HDFS的方案。
————————————————
解决HA问题需要考虑以下几个问题
（1）脑裂问题
脑裂指主备切换时，由于切换不彻底或者其他原因，导致客户端和slave误以为出现两个Active Master，最终使得整个集群处于混论状态，通常采用隔离（fencing）机制解决。解决脑裂问题从三个方面考虑：
■ 共享存储隔离：确保只有一个Master往共享存储里写数据
■ 客户端隔离：确保只有一个Master可以相应客户端的请求
■ slave隔离：确保只有一个Master可以向slave下命令。
（2）切换对外透明
保证整个切换对外透明，保证所有客户端和slave自动重定向到新的Active Master，通常是通过若干次尝试连接旧Master不成功后，重新尝试连接新Master完成的，有一定延迟。

版权声明：本文为CSDN博主「阿松0311」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/weixin_44773984/article/details/121718592

YARN高可用
YARN将共享存储系统抽象为RMStateStore（一个Java接口），以保存恢复RM所必须的信息：
Application状态信息ApplicationState。包含应用程序提交描述信息，提交时间，拥有者三个字段
Application对应的每个ApplicationAttempt信息ApplicationAttemptState。包含attemptId、所在Container的信息masterContainer、安全Token三个字段
安全令牌相关信息。
RM不会保存已经分配给AM的资源信息和每个NM的资源使用信息，这些都通过相应的心跳机制重构出来，所以RM HA是轻量级的。

RM提供了四种RMStateStore实现：
NullRMStateStore（不存储任何状态信息，在不启用恢复机制时，它是默认实现的）
MemoryRMStateStore（将状态信息保存到内存中，启用恢复机制时，它是默认实现的）
FileSystemRMStateStore（状态信息保存到HDFS中）
ZKRMStateStore（状态信息保存到ZK上）
YARN HA采用基于ZKRMStateStore的共享存储方案。
————————————————
版权声明：本文为CSDN博主「阿松0311」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/weixin_44773984/article/details/121718592

YARN调度器
● 4.4 资源调度器

○ 1）先进先出调度器（FIFO）

■ 即先来先服务，在该调度机制下，所有的作业统一提交到一个队列中，Hadoop按照作业的提交顺序一次执行这些作业。

○ 2）容量调度器（Capacity Scheduler）

■ 1、支持多个队列，每个队列可以配置一定的资源，每个队列采用FIFO的调度策略。

■ 2、为了防止同一个任务的作业独占队列中的资源，该调度器会限定同一用户提交的作业的所占资源。首先，将作业分配给多个队列中最闲的队列。其次：按照作业优先级和作业提交的先后顺序，同时考虑用户资源量限制和内存限制对队列内的任务进行排序。

■ 3、多个队列并行执行队列中的任务。

○ 3）公平调度器（Fair Scheduler）（了解）

■ 使用公平调度器时，不需要预留一定量的资源，因为调度器会在所有运行的作业之间动态平衡。

■ 第一个大作业启动时，它是唯一运行的作业，因此获得集群中所有资源。

■ 当第二个小作业启动时，它被分配到集群的一半资源，这样每个作业都能公平共享资源。
YARN中Container是如何启动的?
https://blog.csdn.net/gaopenghigh/article/details/45507765/
YARN监控
Yarn模式概述
Spark客户端可以直接连接Yarn，不需要额外构建Spark集群。
有yarn-client和yarn-cluster两种模式，主要区别在于：Driver程序的运行节点不同。
yarn-client：Driver程序运行在客户端，适用于交互、调试，希望立即看到APP的输出。
yarn-cluster：Driver程序运行在RM（ResourceManager）启动的AM（AplicationMaster）上，适用于生产环境。
Yarn是一个资源调度平台，负责为运算程序提供服务器计算资源，方便我们编写的Spark、flink、MapReduce这些应用在它上面运行。
资源的具体分配和调度不需要人们手动去操作，这种情况下，我们怎么能看到Yarn机器有多少资源呢？内存、CPU等。还有我们提交到Yarn的这些应用，他们的运行状态是什么，占用率多少资源，哪个节点在计算，执行时间等等，都是我们需要关注的问题。
修改Hadoop配置文件，进行访问，下面就是Yarn的界面。

about the cluster界面可以看到Yarn的ResourceManager的状态、是否是HA、以及版本的信息。
上面编号为1区域的是整个集群的监控信息：
Apps Submitted：已提交的应用。
Apps Completed：已经完成的应用。
Apps Running：正在运行的应用。
Containers Running：正在运行的应用。
Memory Total：集群的总内存。
Memory Used：集群已使用的内存。
VCores Used：已经使用CPU的核数。
VCores Total：集群的CPU总的核数。
Memory Reserved：预留的内存。
VCores Reserved：预留的CPU的核数。
yarn为了防止分配一个容器到NodeManager的时候，NodeManager当前不能满足。
。。。。。。
https://cloud.tencent.com/developer/article/1643495

#大数据求职##实习##笔试题目##面经#

大数据（Yarn）面试题及答案

热门公司

相关阅读

推荐文章

推荐题库

推荐问答