约面试的上午和我说晚上面试官在高铁上,改面试时间到第二天下午
- 数据仓库的介绍,项目的数仓怎么设计的
- 数仓分层问题,每一层的数据流向。会从ods层取数据吗,什么时候会向dws层取数据,什么时候会从dwd层取数据。新业务来了数仓怎么扩展
- 业务总线矩阵横纵坐标代表什么,维度冗余情况介绍
- ER模型和维度模型优缺点
- 什么是业务过程,什么是粒度。(我简单说了一下,也举了个例子说明。但是让我用抽象的定义语言来阐述)
- Hive的存储格式。orc列式存储的压缩方法,为什么orc读取数据快。有没有看过orc的相关文档
- Hive的一些优化经验和方法
- Spark3.X的新特性有哪些。Spark的常见的action算子和transformer算子
- Hive on spark出现数据倾斜怎么判断,如何定位。我说可以从UI界面看任务执行情况,然后继续问UI界面哪些东西和数据倾斜相关
- 怎么调优Spark的相关参数,处理数据倾斜
- 一道sql手撕,牛客网原题,中等难度。但是脑袋一热没写出来,其实非常简单。
反问环节,我问了一下组内业务架构。回答我不清楚,因为他不是这个组的,原来面试我的人临时有事情,他帮别人来面试。