一面
实习深挖
对于高耗时任务的代码优化思路
如何发现不必要的扫表
sparksql和hivesql有什么区别
sparksql和hive on spark性能有差异吗,差异在哪
hdfs架构
datanode心跳机制
datanode挂了之后会怎么样,容错机制是怎么样
机架感知
有限内存下的一亿数据怎么排序
了解哪些shell命令
有a,b两个文件,存的都是id,写shell找出a中有但b中没有的id行
flink窗口计算相关
java反射是什么,作用场景,反射性能
数据质量是怎么保证的,完整性唯一性具体怎么实现的
反问 业务和工作内容 主要做离线还是实时
#面经##百度#