笔试:选择题+填空题+判断题+简答题
简答题
1、说说大数据技术的特点
2、说一下Spark任务执行的流程
3、1G的文件,每一行是一个词,词大小不超过16字节,内存1M,找出频数最高的100个词。
技术面
1、自我介绍
2、本专业主要学什么?
3、介绍一下实习的项目
4、小文件问题怎么处理?(SequenceFile、CombineInputFormat、JVM重用)
5、Hive支持哪些存储格式?(TextFile、SequenceFile、ORC、Parquet)
6、ORC和Parquet有什么区别?
7、哪些压缩格式?(gzip、bzip、snappy、lzo)
8、Hive的数据倾斜是怎么处理的?
9、分区和分桶有什么区别?
10、SQL提交到Hive的过程是怎样的?
11、Hive方面的调优有什么手段?
12、大表和大表之间的join怎么避免内存溢出?
13、介绍一下自学项目
14、哪些数据需要全量,哪些需要增量?怎么做到全量和增量
15、Flume挂了怎么处理?
16、Flume怎么做到精准一致性?
17、Flume写到HDFS怎么分区?
18、Hive的数据同步到HBase要怎么做?
19、JVM内存模型是怎样的?
20、介绍一下垃圾回收机制?有哪些垃圾回收算法?内存碎片化会导致什么问题?
21、Java常见的设计模式有哪些?单例模式的实现方式有哪些?(说了两种,问第三种)
22、Spark程序的执行过程
23、Stage是怎么划分?
24、介绍一下Shuffle
25、Spark和Flink有什么区别?(说了Flink的checkpoint,下面马上问了,给自己挖坑了!)
26、Flink的checkpoint机制是怎样的?
27、水位线是怎么更新的?
28、Flink如何处理迟到很久的数据?(答了侧输出流)
反问
1、研发中心有什么组织?大数据科室(平台开发、数仓、算法、前后端,二三十人)
2、做什么工作?主要做公安,有需要到现场,做的是平台、系统开发
3、团队氛围怎样?挺融洽,不定时组织学习交流会、团建
终面
1、讲讲印象最深刻的事件?遇到什么困难?怎么解决的?
2、给一个月时间,想做什么方向的研究或开发?细讲
3、介绍个人对岗位的理解,分析自己的优势和劣势,怎么弥补劣势
4、选择一个话题谈自己的看法:
(1)20大
(2)俄乌战争的启示
(3)国内外疫情防控的差异,我国防控方法的好处和坏处
5、谈谈自己对行业、企业的选择
6、三方什么时候下来?如果发了offer,什么时候能来实习?
笔试和一面技术面是线下去公司,还包午餐,公司工作环境不错
技术面问得很多,有些比较细,要做好准备
终面线上,三个候选人2个面试官
最终拿到了offer,但因为后面拿到更满意的,所以拒了
感谢杰创给我第一个offer,让我在秋招中信心大增,祝公司越办越好~
#数据人的面试交流地##大数据开发面经##数据开发工程师面经##面经分享##数据开发工程师##悬赏#