1、 目前研究的项目,对数据的处理?
2、 你怎么理解数据挖掘?
3、 平时用啥数据库?
4、 3NF?
5、 深剖数仓项目
6、 讲一讲项目?
7、 数仓表哪里用到了3NF?
8、 是2NF吗?
9、 数仓模型?
10、 事实表和维度表都有啥?
11、 下单业务中怎么记录下单了但未支付的行为?
12、 拉链表用过吗?
13、 留存率怎么实现的?
14、 连续的还是间隔的?
15、 今天算出来的留存率算今天分区还是昨天分区?
16、 用过hive的排序吗?row_number()、rank()、dense_rank()有啥区别?
17、 distinct和group by用哪个好?
18、 groupby的MR执行流程?
19、 先问我的人流量数据量多大?如果有大量的数据,求30天内的分组统计总额之类?
20、 用过combiner吗?
21、 Partition和combiner的区别?
22、 Partition和combiner的顺序?
23、 你遇到过数据倾斜吗?
24、 什么时候能来实习?
#数据人的面试交流地#