1、自我介绍
2、数仓怎么自学的
3、整个项目架构说一下
4、数据域是什么概念(提到了数据类型),那如何界定数据类型呢
5、总线矩阵构建过程
6、dwd层怎么设计的
7、了解业务过程这个概念吗
8、分域的话,在dws表中有没有可能会跨域(举了个互动域和活动域的例子),结果告诉我这样的话你的互动域设计的其实是有问题的(挖坑给我跳,悲)
9、星形模型和雪花模型
10、缓慢变化纬为什么用拉链表,他说他第一次听说拉链表是为了这个设计的
11、mapreduce的计算过程
12、上述过程排序的目的是什么
13、reduce怎么知道哪些数据该被他拉走,假如有10个reduce会拉几个map
14、spark排序和mapreduce排序有什么区别
15、combiner是什么,在哪里用过,怎么用的
16、rdd五大特性
17、你怎么理解分区器,分区器可以做什么优化,就单单能提高并行度吗
18、一道动态规划,比较常规,但没调出来
面试官建议:数仓部分掌握的不错,多刷题
自己的算法能力是真的lj,感觉就最后这道算法题一下给我判死刑了,面试官搁旁边耐心引导,但我就是磨磨唧唧才搞出来,看来之后还得继续大战**。