28号下午两点 时长一个小时
1:sparksql的具体的执行流程
2:sparksql物理计划怎么选择最优的
3:sparkrdd是什么的抽象 为什么说spark基于rdd实现了内存计算
4:spark和mapreduce的shuffle的区别
5:数仓建模理论
6:根据我简历上写的项目 构建一个数仓 讲一些有哪些指标什么的
7:讲一下你在工作中怎么做数据治理的
8:两个sql题 最后一个sql题有长尾的现象 如何解决
9:一份100G的数据 需要在1G内存中运行 需要怎么做
求求给个二面吧 0offer的选手已经哭死了