一面
spark数据倾斜
实习相关
二面
Sql 找出最长连续子序列(row_number)
算法 二叉树层序遍历
mapreduce运行过程
spark.shuffle.partitions的调参原理
Spark小文件参数
怎么确定reduce的数量
bucket join优化的原理
怎么快速根据spark stage找到对应的代码
主题域划分
事实表怎么建模
数仓建模过程
事务的特性
进程和线程区别
mysql索引
索引的类型
索引的前缀原则
联合索引a b c 以下哪些可以命中索引
where a= xx and c=xx
Where b = xx and c= xx
三面
sql join时条件写在on后面和where后面的区别
Having 和where筛选条件的区别,是互斥的吗
实习中某个指标的报表结构
指标数据生产链路
Spark任务跑得慢会怎么调优,除了数据倾斜
怎么保障数据质量
实习中的开发规范