1、自我介绍
2、MR的执行过程,用了几次排序,Reduce怎么知道拉取哪些数据
3、RDD的底层实现(Spark用的不多就没问了)
4、项目介绍(没有针对项目进行提问)
5、SQL优化思路,具体讲了关于数据倾斜这块
6、SQL题:包含班级、学生、课程、分数的表,查询每个班每门课前三的学生
7、SQL题:包含user_id和target_id的表,找到互相关注的用户,优化不用join实现
8、SQL题:每个直播间的最大观看人数
9、SQL的执行顺序
10、Hadoop中Namenode作用
11、反问
流程非常快,昨天晚上沟通之后就安排了今天面试。面试体验也很好,SQL题有讲解优化的思路。
面试完半小时之后打电话告知一面已经通过,安排了下周一的面试
#数据人的面试交流地#