美团大数据开发面经

优质

小牛编辑

98浏览

2023-09-08

美团大数据开发面经

个人情况：本双一流硕211非科班，一段搞深度学习的实习。项目自己做的。全程面试被追问麻了面试官有问题必追问
自我介绍
项目深挖（20min）
实习工作介绍（5min）
数据倾斜有哪几种解决方法
Group by 倾斜，join倾斜，null值倾斜
分别说说这些倾斜怎么解决：全说上来了，面试官问：还有呢？。。。开启负载均衡，对小文件进行合并，对数据类型进行检查，还有呢？我就记得这些了
Hdfs小文件危害，元数据压垮namenode，怎么处理：conbineinputformat
，linux本地聚合，开启hive的自动聚合。还有呢？忘记了
为什么开启map—join后会减小数据倾斜小表进内存，循环扫描大表，减小io次数.就这些吗？我说对
说一下你熟悉的排序算法（快排，归并，冒泡）还有呢？（说了桶排，堆排）不太熟悉，针对熟悉的说说时间复杂度。
数仓建模的层数：ods,dwd,dim,dws,ads（如果去掉几层或者多几层可以吗？）？？？
缓慢变化维度怎么处理：拉链表，还有呢？：直接丢弃，添加新列，使用历史表，嗯，还有呢？不知道了。。。。哪两个拉链表如何更新？Row——number（）开窗，小的start_time在后面，大的start——time的序号在前面，然后取前面的值进行更新，后面的值更新最新日期。如果两个拉链表有重叠呢？说了sql取between，如果重叠就继续更新。哪拉链表如果出现断链怎么办（不会）（到这就不会了，然后继续深挖，问麻了都）
Hdfs怎么保证高可用：分布式，副本存储，secondnode，备胎机制还有呢？
传数据时的确认机制，还有呢？就这些了。面试官眉头一皱。
Reduce和map的个数由扫描决定的？Map由块决定，redcue由分区决定。
怎么优化分区的键值：hash打散，map聚合。还有呢？特殊后缀，
Null值填充。还有呢？就这些了
介绍一下rdd，五大特性，rdd的map-join知道吗？（不太了解）
二叉树有几种遍历方式？前中后中的前中后代表什么。根据两个遍历可以确定第三个吗？可以。面试官接着问：你确定？。。。。。
还有一些答上来的八股不太记得了，突出一个很慌
手撕：处理特殊字符串。
反问。

美团大数据开发面经

热门公司

相关阅读

推荐文章

推荐题库

推荐问答