自我介绍
实习和项目内容
数仓常问的分层、维度建模等
八股,基本是按照简历问的
Spark和MR区别和优劣?
Spark的Shuffle和MR的Shuffle的区别?
Standalone模式是怎么调度资源的,Yarn模式有什么变化?
Kafka消息投递保证机制?有出过问题吗?怎么解决?
介绍一下HBase?优缺点?使用场景?
LSM数和B+树区别?
SQL题:
同时在线最多人数
反问:部门做什么的,有什么需要改进
项目介绍(实时+离线数仓,我整合到一起了)
为什么要设计流处理和批处理两条线?
采集组件的技术选型区别?
做的业务主题介绍一下?为什么要这样划分?
Flink学的怎么样,介绍一下?
Flink和Spark streaming区别?
Flink checkpoint?
Flink怎么实现exactly once?
实时数据落到实时数仓的流程?
实时写入HDFS出现过小文件问题吗?怎么处理的?
数据湖知道吗?和数据仓库区别?用过哪一种?
算法题:安排会议室
反问:面试表现?表达方面需要改进。面试官表示项目几乎都差不多,问我是不是都从网上学的,希望能多思考