1、自我介绍 2、今后规划,为什么不读研,爱好 3、对美团的了解 4、项目介绍以及分工 5、数仓分层介绍,为什么要分层 6、数仓建模方法(范式建模、纬度建模、实体建模) 7、平常还有什么方式巩固大数据知识(《大数据之路》、博客、课程) 8、写一个快速排序(没写出来) 9、两道简单sql ①每个用户每天访问的第一条记录 ②00后中选课人数最多的课程 10、有没有用过udf 11、hive和spark
1、自我介绍 2、spark宽窄依赖,stage划分 3、rdd的弹性体现在什么方面 4、group by 和reduce by的区别 5、spark内存划分,内存调优参数 6、spark的join有哪些,sort merge(没答出来) 7、spark的shuffle过程,和mr的区别 8、数仓总线业务矩阵是什么 9、数仓分层,dws层存在的必要性是什么 10、spark以及sql的优化经验(数
不知道的还以为是HR面呢,基本没有专业问题 1、base杭州能否接受,有无考研想法 2、自我介绍(要求说优缺点,特长,经历) 3、希望我证明我在学校是一个比别人优秀的人,问我怎么回答 4、补充回答自己的软实力如协调、沟通、分析能力,对自己如何评价 5、觉得大三的自己和大一有什么区别 6、如何自学 7、素质测评写了哪些题,你对哪些题有优势,哪些有劣势 8、你觉得你和别人沟通时,说服能力怎么样 9、讲
- 美团:到店事业群--平台技术部(暑期实习一面) - 上来面试官说看你简历挺匹配的,I'm like whaaaaat - 自我介绍 - 为什么去读研了 - 你们团队多少人 - 你们数仓怎么分层 - 你主要负责哪几层 - ODS 数据从哪来,怎么接入数仓 - ODS 表是什么事实表类型?更新方式? - ODS 到 DWD 做了哪些处理? - DWD 有哪些表,事实表如何设计的? - 你提到了数据
场景题: 1、有一个sql突然执行很慢有什么原因 2、从一个很大的日志表中10T,随机取出一些数据 3、有两个大表join,我说了分桶排序,他说那大key不还是分到一个桶里面,没解决问题,我说讲大key使用mapjoin或加随机数,那key如果未知怎么办 4、mysql中MyIsam相对于innodb更适合那些场景 5、hashmap为什么不直接用红黑树 问一个问题,回答完就会深挖,给我问麻了 #
9.11 一面(30min) 纯八股: 介绍下hadoop(hdfs、mapreduce、yarn) 介绍下hbase 介绍下flink flink checkpoint、connect和union的区别、flink如何处理数据倾斜 介绍下kafka kafka如果有台机器挂掉会发生什么 链表反转 面试官全程表情和语气冷淡,体验不是很好..当然答得感觉也很一般
个人情况:本双一流硕211非科班,一段搞深度学习的实习。项目自己做的。全程面试被追问麻了面试官有问题必追问 自我介绍 项目深挖(20min) 实习工作介绍(5min) 数据倾斜有哪几种解决方法 Group by 倾斜,join倾斜,null值倾斜 分别说说这些倾斜怎么解决:全说上来了,面试官问:还有呢?。。。开启负载均衡,对小文件进行合并,对数据类型进行检查,还有呢?我就记得这些了 Hdfs小文件
部门:优选事业部-美团买菜 timeline: 8.24 一面 8.28二面 8.31 hr面 9.7 oc 一面: 项目介绍 什么是指标体系 指标体系包含元素 指标分类 数仓分层、分层好处 数仓分层和指标分类之间有什么关系 什么是总线矩阵 什么样的数仓是一个比较好的数仓 什么方法可以落实上面说的数仓 缓慢变化维;除了拉链表还有哪些方式 什么情况下可以使用map join 怎么解决数据倾斜问题 J
时间:120min 选择题:Hadoop+Spark+Linux+408 编程题: 小红的不动点:直接用HashMap就行 每个部门薪资排名前两名员工:rank开窗 小红删数字:这题应该是后端笔试的第二题,逆序dp,只过了96%
面试时间:50min 自我介绍 实习内容 工作部门是数据中台,数据中台是什么?和数据仓库有什么区别? 项目用什么采集数据?原理?还了解过其他采集工具吗? 对数仓分层的理解? 你们是按什么标准分主题的?用的什么数仓模型? MR的工作流程? Spark原理?和MR的区别? RDD依赖关系? Job、stage、task划分? Hive介绍,原理?Hsql转换到MR的过程? Hive的文件存储格式? 知
2023/10/10 平安科技 大数据开发(37min) (1)自我介绍 (2)对于平安科技的数据开发岗的理解和认为它是做什么的?和自己的契合度是怎么样的? (3)数据库学习到哪些东西,学了多久,什么时候学的,有实践过吗? (4)sql分哪几类,违反主键约束会出现什么问题,索引什么情况下回失效,有自己去安装过吗?(之前没准备数据库的内容,答得很差,后边的面试才好好看了数据库的东西) (5)使用sq
1.自我介绍 2.描述一张表的设计流程 3.针对简历提问,问的不算难 4.kafka的用法及途径 5.redis的几种类型(我有写,但是忘了), 6.有没有bi可视化经验。 ----------------- 是的,没有看错,简历上写的就会可能提问,并不会针对你。
感觉自己和快手的相性不是很好,每次都和面试官不和,感觉应该是无缘快手 1.自我介绍,大数据组件是自学的吗 2.工作内容,定位,成果介绍 3.前期调研也是你做的吗,怎么调研出的指标体系,耗时多久 4.复购率是几日复购率,为什么选择这个天数不选择15天,你这个调研不够深刻,调研他的打法和业务目标不才是第一步要做的事吗 5.有多少个维度和指标,为什么用grouping sets不用cube,介绍coun
1.自我介绍 2.实习介绍 3.实习工作内容下游使用方主要有那些? 4.AI团队数据支持 他们使用这个数据做的什么 5.除了对表的支持之外,是否在计算层面做过一些优化 6.boradcast join和sortmergeJoin的区别和 使用场景的不同 然后面试官开始说,我觉得概念你应该都会,我就不问你了,所以我后面会从场景的角度去考验你的技术理解,本人听到这里心凉了半截,因为两段实习全是离线,这
1.自我介绍 2.学校大数据有哪些课程,做了哪些实践 3.你觉得大数据是什么,对于社会的帮助 4.大数据和大模型的联系,你在实习或者写sql的时候有没有用过大模型 5.你觉得大模型可以取代你做的这些数据开发工作吗,把大模型甩给业务人员,他们可以用大模型完成数据开发吗 6.针对大模型和大数据,总结一下,从短期来看和长期来看 7.对于spark3.0的新特性了解吗 8.spark的join有几种,和M