1.自我介绍
2.项目细节介绍
3.针对一个指标讲讲你整个链路怎么设计的
4.数据交付时数据质量如何保证
5.如果现在调度的表都是高优先级,你这个表延迟产出了,怎么办
6.hive架构介绍
7.hive优化器会做什么,详细讲讲谓词下推
8.小文件产生原因,危害,解决方法
9.spark遇到的挑战
10.实时了解过吗
11.你们公司的数据链路,数仓分层是怎么样的
12.数据怎么采集的,binglog的格式
13.数仓对外的接口和olap的关系
他们部门实时的场景比较多,我对于实时的了解还是太少了
#数据人的面试交流地#