个人情况:本双一流硕211非科班,一段搞深度学习的实习。项目自己做的。全程面试被追问麻了面试官有问题必追问
自我介绍
项目深挖(20min)
实习工作介绍(5min)
数据倾斜有哪几种解决方法
Group by 倾斜,join倾斜,null值倾斜
分别说说这些倾斜怎么解决:全说上来了,面试官问:还有呢?。。。开启负载均衡,对小文件进行合并,对数据类型进行检查,还有呢?我就记得这些了
Hdfs小文件危害,元数据压垮namenode,怎么处理:conbineinputformat
,linux本地聚合,开启hive的自动聚合。还有呢?忘记了
为什么开启map—join后会减小数据倾斜小表进内存,循环扫描大表,减小io次数.就这些吗?我说对
说一下你熟悉的排序算法(快排,归并,冒泡)还有呢?(说了桶排,堆排)不太熟悉,针对熟悉的说说时间复杂度。
数仓建模的层数:ods,dwd,dim,dws,ads(如果去掉几层或者多几层可以吗?)???
缓慢变化维度怎么处理:拉链表,还有呢?:直接丢弃,添加新列,使用历史表,嗯,还有呢?不知道了。。。。哪两个拉链表如何更新?Row——number()开窗,小的start_time在后面,大的start——time的序号在前面,然后取前面的值进行更新,后面的值更新最新日期。如果两个拉链表有重叠呢?说了sql取between,如果重叠就继续更新。哪拉链表如果出现断链怎么办(不会)(到这就不会了,然后继续深挖,问麻了都)
Hdfs怎么保证高可用:分布式,副本存储,secondnode,备胎机制还有呢?
传数据时的确认机制,还有呢?就这些了。面试官眉头一皱。
Reduce和map的个数由扫描决定的?Map由块决定,redcue由分区决定。
怎么优化分区的键值:hash打散,map聚合。还有呢?特殊后缀,
Null值填充。还有呢?就这些了
介绍一下rdd,五大特性,rdd的map-join知道吗?(不太了解)
二叉树有几种遍历方式?前中后中的前中后代表什么。根据两个遍历可以确定第三个吗?可以。面试官接着问:你确定?。。。。。
还有一些答上来的八股不太记得了,突出一个很慌
手撕:处理特殊字符串。
反问。