【春招】美团-数仓-一面-二面-hr面（已offer）

优质

小牛编辑

86浏览

2023-04-25

一面 0322 46min

接触的大数据技术栈都有什么？
Spark和MapReduce之间的关系是什么？
Spark中的DAG是怎么生成的？是DGAScheduler生成的DAG
Spark-submit之后有什么过程？
从提交sql到解析，这是谁完成的？是Driver还是Application？
Driver端什么情况会OOM？
Executor端什么情况会OOM？
你觉得Spark和Flink最主要的差别在哪里？
大规模并行处理MPP了解吗？Presto了解吗？
Hadoop包含哪几个部分？
实习中数据流量应该很大，大规模数据计算的稳定性是通过什么来保障的？
MapReduce和Spark的技术选型？有没有去了解过这两个差异？
你觉得数据越来越大是用Spark好还是MR好？
节假日流量是怎么处理的？
你对大数据了解多少？
你认为大数据的岗位分为几个？
你对大数据的工作内容有多少理解？你实习的工作内容？
你在做的产品是做什么用？
数据治理做的哪些？存储治理做的哪些？
如果A模型和B模型相似，A表4个字段中3个和B中相似，此时A下游200个任务，B下游300个任务，怎么去下掉A？
相似模型怎么识别？相似模型很多吗？
相似模型有通过整个链路吗？
指标治理和命名治理怎么做？比如A模型和B模型中有同义不同名指标，怎么做？
有没有衡量过切换下游指标的成本和收益？

SQL题：

一张流量表。有uid和访问时间戳。需要找到用户的最大连续访问天数。
一张流量表。有uid和upid，按照时间分区，想要计算主播的次日留存的数量。
你觉得你写的代码运行可能会存在什么问题？
为什么说会出现数据倾斜？
那怎么解决呢？
有没有接触过业务？有没有接触过需求和产品？
你觉得技术和业务之间的关系是什么？

二面 0330 1h

讲一下你做的产品的技术方案？
怎么解决你说的模糊查询的算法？
讲一个你参与的项目？
怎么样得到的方案？比如字段的打平以及为什么要这么做？
怎么保证中间表打平的字段是稳定的？假如以后业务要变化，这怎么处理？
半年的时间，你觉得中间表变更的快吗？
做完这个项目有没有什么收获？从学术界到业界
有没有什么遗憾或者想做的事情？
我们一定会受到身边人的影响，你怎么去批判性的判断身边人的言论？
你自己擅长哪些技术栈？
用的Spark版本是多少？
你觉得Spark 3.0最好的特性是什么？
AQE默认是打开的吗？
如果当前数据倾斜，什么时候开AQE，什么时候关掉AQE？
什么时候数据倾斜是自己可以处理的？
字节或者阿里这类，都会对Spark进行二次开发，Spark有没有对什么算子进行优化？
简单介绍一下Shuffle Join和大表和大表的Merge Join有什么差异？（其实Shuffle Join应该是方式，Merge Join应该是算法？）
Spark的OOM报错，你怎么排查这个问题？
如果Execution Memory放不下OOM，一般会有哪些场景？
Flink需要动态去调优调参，有没有既定的规则去调优？
Flink的反压是什么？
Flink对于反压的优化是什么？
你觉得数据治理是做什么？你对数据治理里面这么多方向感兴趣的是什么？
埋点可能会很混乱，不用的埋点也还在上传，有的埋点可能很稀疏，那怎么对埋点表存储进行优化？
DAU的下一层是什么？B端和C端不同的视角维度？
介绍一下曾经的团队？
团队中的人哪个是你的榜样？
你怎么样去锻炼总结抽象的能力？怎么从他身上学到这个能力？

0407 offer

【春招】美团-数仓-一面-二面-hr面（已offer）

一面 0322 46min

二面 0330 1h

热门公司

相关阅读

推荐文章

推荐题库

推荐问答