面了快二十次了,从没有见过压迫力这么强的面试官,压力爆大,寄。
面试一共30多分钟,无手撕,感觉面试官不是很想面了。
先介绍自己,没让我介绍项目。
1.开篇很美好,问了hive内部表和外部表的区别。
2.问有没有遇见数据倾斜的问题。宽表建设的时候遇见过。
3.怎么解决。使用map join。
4.map join是什么。大表join小表,小表加载内存里面,map端实现join无需reduce。
5.哪张是大表,哪张是小表。
6.小表数据量也大怎么办。调高内存,调高小表界限参数,或者使用skew join。
7.skew join的具体过程。拆热点,分成两个job并行。
8.怎么拆的热点信息,如何判断是否是热点信息。默认参数限制,超过就属于热点信息。
9.拆了之后呢,具体运行过程。开始乱了,不知道说的对不对。
10.拆之后的非热点信息怎么处理。我说拆了之后进行map join(寄)。
11.为什么已经不是数据倾斜还要map join。我说map join可以用空间换时间,提高效率。
12.拆分出来的热点信息怎么处理。打散key。
13.事实表打散了,维度表呢。没反应过来,乱说一通(寄)。
14.关联信息是什么,连接字段就是打散字段吗。胡言乱语之后面试官就换了个问题。
问懵了,压力爆大,逮着一个问题一直问。
15.问我项目中的开发指标是什么。用户行为操作统计和用户流失率、跳失率。
16.用户流失率怎么定义的。7天未登录的用户。
17.开发用户流失率有什么用。可以分析出不同活动对于用户的吸引力。
18.如何进行的建模。
19.dwd和dws有什么区别。粒度。
20.dws的作用,为什么不直接从dwd取数据。复用性,提高开发效率。
21.其他作用呢。不知道,需求少可以不要dws层。
22.业务过程了解吗。没回答明白,已经头晕脑花了。
结束,解脱。
反问:
1.具体做什么业务的。海外的,做什么都有。
2.现在重点目标在海外吗,国内业务发展怎么样。
面的太难受了,感觉要虚脱了。
#数据人的面试交流地#