1. 自我介绍
2. 问了一下简历上的项目(研一在国电做的)
3. Spark有没有过调优
4. 基于我对Spark调优的一些回答进行追问:
● 我提到了利用RDD缓存进行RDD复用,追问Spark缓存一般可以用什么函数做到(cache,presist)
● 追问并行度的设置方法(配置文件或在代码中)
● 并行度的值一般根据什么设置(CPU核数的2-3倍)
5. Hive执行原理(SQL到MR的过程)
6. 问了ElasticSearch(因为我简历写了这个,介绍了倒排索引)
7. 问了离线数仓的项目
8. 问了Flink和Spark Streaming的区别(一个微批次,一个面向流)
9. 追问两者在API的使用上怎么体现面向微批次和面向流
10. 什么算子会导致Spark产生Shuffle
11. MySQL有哪些引擎,之间有什么区别
12. 算法题(最长上升子序列 力扣题号300)
13. 翻转链表(面试官问能否用递归的形式实现,只要当前不为空,就继续调用即可)
整体过程还算顺利,后面有俩八股问题答得不是很完美,面试官问能不能尽快到岗,我因为导师项目在出差,3月没法回北京,就说得4月份,他说他们需要尽快到岗的,希望我考虑考虑,所以估计吹了,挺可惜的
#我的实习求职记录#