个人bg:211本硕
岗位:数据开发
投递日期:3.23
当前状态:4.2 一面
简短自我介绍,然后开始拷打,
1、对数仓的理解,数仓是个什么东西,用来干嘛?
2、spark与mr区别
3、spark的shuffle可以不排序吗?为什么
4、采用byPass shuffle的依据是什么
5、shuffle的本质是什么?
6、开发过程中有没有遇到过难题?如何解决的?
7、项目在哪做的,环境怎么搭的
8、数仓为什么一定要分层?依据是什么?本质是为了什么?(真不知道啊)
9、每一层是怎么设计的?
10、DWD层建模依据是什么
11、数据域划分怎么划分的?意义是什么?
12、简单概括一下项目业务流程
13、SQL题*1,常规题,统计最大同时在线人数
14、开窗函数原理?
15、反问
总结:
总共40分钟,很多都是关于数仓的概念以及意义问题,有点抽象,答得感觉不是很对面试官胃口,确实对数仓本质理解不够透彻,这次学到了。