1.Spark执行流程 2.HDFS的读写流程 3.HDFS在读流程中最适合的副本是哪个 4.对数仓的理解 5.数仓分层的作用 6.说一个你觉得有挑战性或者复杂性的数据倾斜的例子 7.选一个项目拷打 反问 整体33mins左右
# 一面4.20 电话面,当时忘了记录,一部分忘了 自我介绍 maxwell我没用过,可以简单介绍一下吗 除了maxwell你还知道哪些数据同步工具 介绍项目整体内容,技术方案和业务内容 数据倾斜的解决方案(讲了join,group by的解决办法,但被问还有没有) Linux查看文件命令 more和less的区别 udf、udaf、udtf的区别 hashmap的原理 进程线程区别 你觉得你的性
一共两轮技术面一轮HR面,第一轮面试hive 问题居多,第二轮hadoop 问题居多,整体来说问题不是很难,方向为数仓。 一面: 11.30下午 牛客网面试 30min 自我介绍 数仓项目介绍 什么是全量表,什么是增量表,以及应用的场景 了不了解拉链表,讲一下拉链表如何生成 什么是内部表,什么是外部表,有什么区别 Hive中小文件形成的原因及解决办法 Hive SQL的优化方法 讲一下熟悉的窗口函
1.Spark的运行机制 2.union是宽依赖还是窄依赖 3.常见的action算子 4.reduceByKey和groupByKey的区别 5.Spark的checkpoint 6.Spark的cache和persist区别 7.Flink的checkpoint和Spark的checkpoint区别 8.Flink的两阶段提交问题 反问 用什么做什么 基本大数据组件都会用,shein数据量大而
ps:(我在他们子公司实习了1年) 自我介绍 子公司实习工作内容 介绍论文方向,稍微提问了一下 对东电了解吗 根据简历提问: 数据湖和数据仓库区别,优势 自己搭建过数据湖吗 (简历没写专科经历, 中途hr突然问我专科在哪上, 高考分数) 总结:挺轻松的,面试了大概30分钟,但是感觉面试这个公司目前没有真正的大数据团队,只有算法和开发团队, 听面试官意思是领导近期想组建大数据团队,所以开始招人。 纠
一面(12-26 30min) 自我介绍 3道sql题(主要考察hive sql的基本语法,开窗,常见函数这种) 数仓分层讲一下 项目中有遇到数据倾斜吗,怎么解决的 hive列转行函数了解吗 反问:对数据仓库未来湖仓一体的架构怎么看, 部门职责, 工作时间 二面(12-30 20min) 开场先聊了会天,面试官很健谈。 sql语句,口述运行结果 在做这个项目的过程中遇到的最大的挑战是什么? 聊了下
6.30一面 面试官很nice 1专业相关 为什么要跨专业考研 具体的专业在实际中的应用 2 问了个简单的sql 写错了 面试官一步步提醒终于写出来了 3 口述用栈 实现计算器功能 7.1 二面 1 简单sql 2 数仓理论 3 数据倾斜处理 滴滴面试官都是很有耐心 一步步提示你 解决问题 就算面不过体验也很不错。 7.11收到offer了
阿里 数据研发 8月底 一面 9月中 二面 30-40min,面试内容都差不多 大数据:hadoop了解多少?讲讲mapreduce,其中有几次排序?hive?hive调优? 数据仓库:星型,雪花,星座模型;数据分层 -- ODS,DWD,ADS,作用(我回答承上启下) 手撕SQL:窗口函数,查找连续三天的记录 等等数据仓库和大数据的问题 开放性问题:服装厂秋季生产什么样子的衣服? 实习经历,内容
一面:50min 主要是针对简历提问,几乎每个点都问了 1. 自我介绍 2. 介绍项目 3. 某预测类项目有继续测试今年的数据吗 (自己给自己挖的坑,简历里写了会c++) 4. 对c++的内存分配有了解吗 5. 程序运行的流程是什么 4. spark和flink的区别是什么 5. 简述spark原理 6. spark和mapreduce的区别是什么 7. 对hive有了解吗 8. 数据倾斜的产生和
一面 常见数据结构 维度建模 事实表建模 工作中维度建模是怎么处理 三种事实表的区别 mapreduce原理 hdfs读写流程 增大资源是否会有限制 是否遇到过数据倾斜 二面 数据倾斜 数据治理怎么做的 职业规划 爱好 三面 主题域 数仓建模 bucket join
一面 1.自我介绍? 2.为什么从数分做数开? 3.你觉得数分和数开有什么区别? 4.spark和hadoop哪段实习接触的? 5.讲一下mr和hive原理? 6.hdfs中,一个block大小和通常配置个数? 7.用spark还是用hive?spark比hive好在哪里? 8.spark既然是基于内存的,那么内存不够怎么办? 9.数据倾斜? 10.uid粒度和did粒度用在AB不同的场景是指什么
排队十分钟面试五分钟 自我介绍 数据倾斜 数仓分层 有没有在看其他金融银行 选择银行的原因 “看来你掌握的不错,今天的面试到此结束吧,注意查收笔试”
9.4 一面 1. 介绍实习经历 2. 数据同步 3. 指标分层 4. flink:状态,历史数据回溯、一致性保障、barrier下发、开始做ck的时间点、反压、下游怎么知道上游反压了、解决 5. hbase问题:架构、数据读写、底层文件存储、region划分、regionserver划分(这是啥) 6. jvm内存管理,多线程 7. spark问题:宽窄依赖,算子,shuffle,调优 8. 数
1h10 min 面试官是个大佬,全程面试偏场景题 八股:数仓建模,分层,每层作用,数据倾斜(group by,join)很细,小文件 场景题: 快手在某一时刻某主播开播时流量巨大,然后同一时间段还有多个主播开播 有一些些主播可能粉丝少,但因为在搞活动,把在线列表和主播表join时会发生数据倾斜,这怎么解决 雪花模型用过吗?(用过)讲一个使用雪花模型的场景(多值维度?)面试官说不对。然后只能说没用
30min 问简历 快速排序 场景题:十亿个数怎么排序,十亿个double需要多少内存(算成GB,1亿个数怎么排序 研究生方向和项目 反问:今年招的人多不多。-不多,今年看到的简历是过去五年最好的(我人麻了 主要工作内容。-数仓搭建,开发相关,数据分析相关