面试官压迫感太强了,问题一个接着一个。
1.自我介绍
2.介绍实习经历
3.介绍一下你们数仓5层的用途
4.dwd详细做的事情
5.分区会产生小文件吗?怎么处理的?
6.你们的分区字段都是什么?
7.你们那边不做数据清洗的吗?在哪做,做了哪些东西?
8.清洗:废弃的字段是怎么去除的?
9.你怎么知道这个字段已经去除啦?为什么不在ods层的时候就去除呢?
10.订单id为null,就筛掉,那它不会丢数据吗?有时候我们需要统计用户咋办?
11.假如业务方说剔除id为null的数据,过2天又说要这个数据,你有考虑过这个问题吗?
12.你们ods层怎么保存数据的?保存的时间呢?分区吗?
13.hive和hbase的区别?
14.row_number,rank和dense_rank区别?
15.数据同步这边有几种方式?
16.解释一下学历,学校经历和实践活动