欢迎关注博客主页:https://blog.csdn.net/u013411339 欢迎点赞、收藏、留言 ,欢迎留言交流!本文由【王知无】原创,首发于 CSDN博客!本文首发CSDN论坛,未经过官方和本人允许,严禁转载!
本文是对《【硬刚大数据之学习路线篇】2021年从零到大数据专家的学习指南(全面升级版)》的面试部分补充。
硬刚大数据系列文章链接:
2021年从零到大数据专家的学习指南(全面升级版)
2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇
2021年从零到大数据专家面试篇之SparkSQL篇
2021年从零到大数据专家面试篇之消息队列篇
hive的架构 hive外部表和内部表的区别 内部表的数据由hive管理,且存储在hive.metastore.warehouse.dir配置下的路径中;外部表的数据由HDFS存储,路径可以自己指定; 删除表时,内部表会把元数据及真实数据删除;外部表不删除真实数据。 你用过hive哪些窗口函数 可参考:面试官:你用过哪些窗口函数 一般用什么文件格式 可参考:面试官:“你们实际生产中hive用什么文
25、MR工作原理 Input Spliting:输入的数据被拆分成更小数据块(Input Splits:将大文件切割成适合并行处理的小块数据,每个小块数据称为一个分片,一个分片作为MR处理的基本单元)Mapping:mapper节点将分配到数据块执行map操作,产生中间结果(k,v)键值对并写入到本地磁盘Shuffling and Sorting:Mapper节点会根据Key进行排序,并将相同K
47、zookeeper是什么? 主要服务于分布式系统,可用来做统一配置管理、统一命令服务、分布式锁、集群管理等 48、zookeeper的作用以及适用场景? 数据的发布订阅:由于大数据集群中节点过多,不可逐台进行修改,在设计时候采用统一的配置中心,之后只需要将新的配置发送到配置中心,所有节点都可自动下载更新命名服务:zk通过顺序节点的特性来生成全局唯一IDMaster选举:让所有服务节点去竞争性
#数据人的面试交流地# 1.首先自我介绍,一定要加上自己会啥,自己的优势一定要多说出来 2.简历上写的项目一定要自己做的,如果是网上抄的一定要弄懂才能写出来,要不然容易出现问题 3.写自己的技能一定要写自己弄的比较懂的 4.再来说一下我对大数据的理解,大数据讲究计算和存储,对于存储一定要懂hdfs,hive等等技术,对于计算我建议一定要会spark,flink也要会,你可以不用但要会,spark说
前言 “互联网寒冬”来临,一波又一波的裁员潮闹得人心惶惶。应届生卷,工作三五年的程序员也卷,找不对面试方法,再背题也是白搭。 近两个月我先后整理了许多小伙伴的大厂面经,包括百度,阿里,腾讯,京东等,并结合自己的亲身经历(五年求职三年模拟🤣)整理了一篇较全面的大厂Android开发面经,主要有面前准备和面试提问两部分,希望可以给同行业开发者们一点帮助和启发。 面前准备 (一)系统复习 面前要系统的
115、Spark的任务执行流程 driver和executor,结构式一主多从模式,driver:spark的驱动节点,用于执行spark任务中的main方法,负责实际代码的执行工作;主要负责:将代码逻辑转换为任务、在executor之间调度任务、跟踪executor的执行情况。 Executor:spark的执行节点,是jvm的一个进程,负责在spark作业中运行具体的任务,任务之间相互独立,
📍先简单自我介绍一下 本硕985 |非科班算法|kaggle一金一银|暑期斩获5个大厂offer|秋招大厂、银行、国企、 选调均有上岸 未来会在这里分享自己秋招一整年的经验感悟,希望对大家有所帮助! 本期介绍一下互联网大厂技术岗面试中一定要注意的细节和技巧 基本套路是:自我介绍,问项目+八股文,最后做题,然后反问 时长大约:一个小时,也有半个小时左右(京东) 1.自我介绍 不要超过三分钟,言简意
7.22一面 spark的底层原理 spark yarn client和yarn cluster的区别 dataframe如何创建 数仓项目中用了几个节点,各个组件如何部署的 HA介绍一下 数仓分层介绍 hadoop的一些命令 hadoop如何更改文件所有者 kafka的监控 linux命令,vim编译器的命令 集群间节点是如何通信的 core-site文件一般配置什么内容 ranger权限管理的