一面 1h10min 面试官很和蔼,这次吸取上次教训提前背了自我介绍和项目,基本都答上来了 实习(10min) 实验室项目(5min) Mr流程 Spark和mr区别 窗口函数 Shffule流程 Spaker的宽窄依赖 数仓建模的方法,层数,意义,每层都干了什么 平时为什么用维度建模,范式建模有什么缺点 数据倾斜(很细) 熟悉的排序算法说时间复杂度 一个大数组求topn(bitmap)然后追问,
一面:50min 主要是针对简历提问,几乎每个点都问了 1. 自我介绍 2. 介绍项目 3. 某预测类项目有继续测试今年的数据吗 (自己给自己挖的坑,简历里写了会c++) 4. 对c++的内存分配有了解吗 5. 程序运行的流程是什么 4. spark和flink的区别是什么 5. 简述spark原理 6. spark和mapreduce的区别是什么 7. 对hive有了解吗 8. 数据倾斜的产生和
一面 常见数据结构 维度建模 事实表建模 工作中维度建模是怎么处理 三种事实表的区别 mapreduce原理 hdfs读写流程 增大资源是否会有限制 是否遇到过数据倾斜 二面 数据倾斜 数据治理怎么做的 职业规划 爱好 三面 主题域 数仓建模 bucket join
一面 1.自我介绍? 2.为什么从数分做数开? 3.你觉得数分和数开有什么区别? 4.spark和hadoop哪段实习接触的? 5.讲一下mr和hive原理? 6.hdfs中,一个block大小和通常配置个数? 7.用spark还是用hive?spark比hive好在哪里? 8.spark既然是基于内存的,那么内存不够怎么办? 9.数据倾斜? 10.uid粒度和did粒度用在AB不同的场景是指什么
9.4 一面 1. 介绍实习经历 2. 数据同步 3. 指标分层 4. flink:状态,历史数据回溯、一致性保障、barrier下发、开始做ck的时间点、反压、下游怎么知道上游反压了、解决 5. hbase问题:架构、数据读写、底层文件存储、region划分、regionserver划分(这是啥) 6. jvm内存管理,多线程 7. spark问题:宽窄依赖,算子,shuffle,调优 8. 数
1h10 min 面试官是个大佬,全程面试偏场景题 八股:数仓建模,分层,每层作用,数据倾斜(group by,join)很细,小文件 场景题: 快手在某一时刻某主播开播时流量巨大,然后同一时间段还有多个主播开播 有一些些主播可能粉丝少,但因为在搞活动,把在线列表和主播表join时会发生数据倾斜,这怎么解决 雪花模型用过吗?(用过)讲一个使用雪花模型的场景(多值维度?)面试官说不对。然后只能说没用
一面 数据同步怎么做的 事实表、维度表怎么设计 数据完整性、唯一性怎么保证 数据怎么分区,如果增量同步,需要历史数据合并分区慢怎么解决 数仓如何进行组件选型,理由 数仓建设过程中有哪些难点 atlas如何获取数据血缘 拉链表怎么设计 你觉得拉链表常用吗,为什么不用 那你为什么要设计拉链表 sql题 分组topn row_number rank dense_rank区别 看两个sql,差异在哪,哪个
8-3: 自我介绍 实习项目以及实习日常(20min左右) 论文(3分钟左右) 问你对大数据哪个组件比较熟悉 说一下MR的底层原理。。。。。。自己在那不知道从哪里开始说,就从map开始巴拉巴拉到写出数据,自己都讲蒙了。(五六分钟左右) 反转链表,自己处理输入输出以及链表定义(七八分钟),也没给输入输出,就只写了方法体。 先问对hive函数了解咋样,都还行。写SQL:uid,login_time,连
第一次写面经 快手音视频部门 感觉技术挺好就接了 一面 6.13 主要问了Flink的相关问题以及实习的流批一体项目 具体问的Flink问题就是数据倾斜、反压以及状态后端、checkpoint相关 面试的时候面试官提了个flink相关的名词 问我了解过吗 表示从没听说过 面试官说问题不大 具体细节问题忘记了 然后就是jvm、多线程相关的知识 这部分答的不好 没咋看java 最后就是两道算法 二面
快手数据研发一面(45min) 一面:技术面 一位面试官:一位特别特别特别特别好的面试官【我真的好走运,遇到面试官真不错】但是个人太菜了,估计凉了。 1、个人介绍 2、硕士期间的课程(与大数据相关的软件会在课程教吗,还是自己学的) 3、本科期间获得的最高奖项 4、项目中搭建Hadoop集群是用集成好的,还是单个组件搭建的 5、集群中用了几个节点,每个节点的存储配置。 6、HDFS的读写流程,大致说
23.5.30快手一面 1、介绍项目 这里都根据个人项目去聊的,问了很久 2.数据怎么来的(ods层数据同步问题)ads层下游怎么做,数据怎么来的报表直接查的ads层吗 数据抓过来存在哪 3.hadoop了解吗hdfs有那些组件, 4.聊聊mapreduce进行几次排序 一个sql题,按分数进行排序 count(*) count(1) count(col)三者有什么区别 数据倾斜 pv值 23.5
整体的面试内容会结合项目和实习经验进行提问,面试官人很好,问题也是由浅入深。 有监督学习和无监督学习的区别 过拟合的处理方法 梯度下降法原理 损失函数作用 实习的主要内容 ES中索引的类型和作用 ES的优点 mapreduce的原理 还问了一些数仓的知识 没答上来 数学建模 模型的类型(记得好像是这样 一道简单算法题 反问
背景:985本硕,无实习,自学大数据相关技术栈,尚硅谷离线+实时数仓,实验室项目。 hdfs读写流程 mapreduce shuffle maptask和reducetask数目如何确定 小文件过多对namenode有什么影响 mr优化有哪些点 进程和线程 hive sql转换为mr的过程 离线数仓项目:项目流程,思考,价值 如何保证数据一致性 如何衡量两个数仓的优劣 两道题: 1-1000的递增
项目为sgg经典离线数仓 1. 自我介绍 2. 项目介绍(难点、亮点) 3. 根据难点亮点提问 4. 数据域是什么,如何划分数据域,为什么这样划分数据域 5. DIM层维度表的设计原则 6. DWD层事实表设计要点 7. mapreduce shuffle流程 8. maptask和reduce task 与哪些因素有关 9. 数据热点(数据倾斜)在哪些场景下出现,如何解决 10. spark是为
8.26 50min左右 首先自我介绍,然后问了许多项目的问题 然后问了mr的原理和运行流程 hive如何确定reduce的数量 Spark和mr的区别 数仓分层 数仓维度建模问题 什么是维度表和事实表 数据库的三范式 做题 首先是一个sql题,很简单,但是我只刷了大量的java题不会sql的呜呜呜以后一定多刷 然后写了一个归并排序 面试官人超好,特别有耐心 上天保佑让我一面过吧! #快手面试