一面
1.自我介绍?
2.为什么从数分做数开?
3.你觉得数分和数开有什么区别?
4.spark和hadoop哪段实习接触的?
5.讲一下mr和hive原理?
6.hdfs中,一个block大小和通常配置个数?
7.用spark还是用hive?spark比hive好在哪里?
8.spark既然是基于内存的,那么内存不够怎么办?
9.数据倾斜?
10.uid粒度和did粒度用在AB不同的场景是指什么?
11.手撕sql
12.反问
二面
1.自我介绍
2.实习中的一个项目
3.如何理解数分与数仓的区别
4.最终可视化的数据存储在哪里
5.做好数仓什么最重要
6.反问
三面
1.实习情况
2.介绍一下实习中的pipeline
3.介绍一个项目,深挖
4.平时的课程
5.mr与spark的区别
6.spark怎么基于内存计算
7.线程与进程的区别
8.第一类错误与第二类错误
9.ab实验怎么分流
10.平时工作中遇到沟通难题如何解决的
11.平时对接的业务方
12.手撕sql
13.反问