面试时间:50min
自我介绍
实习内容
工作部门是数据中台,数据中台是什么?和数据仓库有什么区别?
项目用什么采集数据?原理?还了解过其他采集工具吗?
对数仓分层的理解?
你们是按什么标准分主题的?用的什么数仓模型?
MR的工作流程?
Spark原理?和MR的区别?
RDD依赖关系?
Job、stage、task划分?
Hive介绍,原理?Hsql转换到MR的过程?
Hive的文件存储格式?
知道窗口函数吗?说几个?
row_number 、rank、dense_rank 区别?
Hive 的优化举例?
讲讲数据倾斜有哪些,怎么处理?
工作中有遇到过什么其他难题吗?
SQL题,进行商品分类,直接case when打标签
反问:工作地点,部门工作内容,还需要学习什么