1、自我介绍
2、spark宽窄依赖,stage划分
3、rdd的弹性体现在什么方面
4、group by 和reduce by的区别
5、spark内存划分,内存调优参数
6、spark的join有哪些,sort merge(没答出来)
7、spark的shuffle过程,和mr的区别
8、数仓总线业务矩阵是什么
9、数仓分层,dws层存在的必要性是什么
10、spark以及sql的优化经验(数据倾斜除了加前缀还有什么方法,大表join大表怎么办)
11、小文件问题怎么处理
12、用户id两张表设计时一个是bigint一个是string后面join有什么后果(没答上来,面试官说底层先会转成double)
13、round和roundseed的区别(面试官说假如maptask失败后round会分配到不同的reduce中,roundseed每次随机的值是一样的,网上没有查到roundseed,有没有大佬教教是不是我听错了)
14、两道sql
①连续登录天数
②互相关注的用户(用case+concat)
一次体验不错的面试,面试官人真的好好,很耐心引导我不会的问题,许愿二面