1:数仓的数据从哪里来的?多少数据?
2:数仓分层
3:DWD层如何保证和ODS层的一样的数据粒度,如何提供数据质量保证?
4:什么阶段进行数据清洗?
5:数据量很大的时候每层都进行数据清洗吗?如何解决
6:ETL过程中,数据出现问题了如何预警?
7:团队合作的时候如何保证数仓分层的规范?
8:Hive的调优(项目写到了这个)
9:什么是zookeeper?
10:zookeeper实现hdfs的高可用,你在项目中是怎么操做的?(项目写到了这个)
手撕代码:
假设表名称为department,列名为:Id,name,salary
(先用SQL写出来了,但是要求是HQL,不太会写,面试官提示row_number窗口函数,没写出来,换了第二题)