1、数据仓库分层了解吗,实时离线都怎么做的?
2、Spark有哪些分区器?
3、宽窄依赖的定义?发生宽窄依赖转换的时候会发生什么操作?
4、shuffle操作增加了什么开销?底层用的什么算法?
5、Spark内存模型有了解过吗?
6、如何解决数据倾斜问题?
7、Flink了解吗?checkpoint机制做什么用的?底层怎么实现的?
8、Spark没有checkpoint机制,那么中间计算结果怎么保存?
9、HBase了解吗?rowkey的设计原则是怎么样的?
10、WAL日志了解吗?
11、MySQL的索引结构介绍一下。
12、何时发生页分裂和页合并?
13、Java中有哪几种锁?介绍了Synchronized、ReetrantLock、CAS
14、CAS怎么保证比较并交换的原子性的?
15、Unsafe类了解多少?介绍一下。
16、算法题:给定一个字符数组['a','b','c','d'],输出不重复的字符组合(字符串)。比如"ab"和"ba"算是同一个。
#字节跳动##大数据开发#