1. mapreduce工作流程? 2. shuffle机制? 3. mapreduce进行了几次排序? 4. 环形缓冲区的溢写机制? 5. 提到了反向?反向如何理解? 6. hadoop读取文件过程? 7. 说说数据倾斜?项目中是否遇到 8. MySQL介绍下InnoDB, MyISAM区别? 9. 介绍下事务几大特性? 10. 介绍对应隔离级别? 11. 隔离级别是否可以修改? 12. 三数之
3.26 美团 数据开发 到店(暑期实习二面) - 面试官是一个温柔的小姐姐 - 自我介绍 - 之前工作经历介绍 - 你觉得什么是好的数仓 - 要达到你说的好数仓的标准,应该如何建设? - 小文件具体怎么治理的(预防/滚动式 + 自动脚本) - 小文件有哪些危害 - 给你一个数据倾斜的场景,可能有点难,答不出来也没事:大表 Join 大表(10 亿级别的,比如订单 Join 商品表)可能有一些商品
1、自我介绍 2、今后规划,为什么不读研,爱好 3、对美团的了解 4、项目介绍以及分工 5、数仓分层介绍,为什么要分层 6、数仓建模方法(范式建模、纬度建模、实体建模) 7、平常还有什么方式巩固大数据知识(《大数据之路》、博客、课程) 8、写一个快速排序(没写出来) 9、两道简单sql ①每个用户每天访问的第一条记录 ②00后中选课人数最多的课程 10、有没有用过udf 11、hive和spark
1、自我介绍 2、spark宽窄依赖,stage划分 3、rdd的弹性体现在什么方面 4、group by 和reduce by的区别 5、spark内存划分,内存调优参数 6、spark的join有哪些,sort merge(没答出来) 7、spark的shuffle过程,和mr的区别 8、数仓总线业务矩阵是什么 9、数仓分层,dws层存在的必要性是什么 10、spark以及sql的优化经验(数
不知道的还以为是HR面呢,基本没有专业问题 1、base杭州能否接受,有无考研想法 2、自我介绍(要求说优缺点,特长,经历) 3、希望我证明我在学校是一个比别人优秀的人,问我怎么回答 4、补充回答自己的软实力如协调、沟通、分析能力,对自己如何评价 5、觉得大三的自己和大一有什么区别 6、如何自学 7、素质测评写了哪些题,你对哪些题有优势,哪些有劣势 8、你觉得你和别人沟通时,说服能力怎么样 9、讲
- 美团:到店事业群--平台技术部(暑期实习一面) - 上来面试官说看你简历挺匹配的,I'm like whaaaaat - 自我介绍 - 为什么去读研了 - 你们团队多少人 - 你们数仓怎么分层 - 你主要负责哪几层 - ODS 数据从哪来,怎么接入数仓 - ODS 表是什么事实表类型?更新方式? - ODS 到 DWD 做了哪些处理? - DWD 有哪些表,事实表如何设计的? - 你提到了数据
场景题: 1、有一个sql突然执行很慢有什么原因 2、从一个很大的日志表中10T,随机取出一些数据 3、有两个大表join,我说了分桶排序,他说那大key不还是分到一个桶里面,没解决问题,我说讲大key使用mapjoin或加随机数,那key如果未知怎么办 4、mysql中MyIsam相对于innodb更适合那些场景 5、hashmap为什么不直接用红黑树 问一个问题,回答完就会深挖,给我问麻了 #
9.11 一面(30min) 纯八股: 介绍下hadoop(hdfs、mapreduce、yarn) 介绍下hbase 介绍下flink flink checkpoint、connect和union的区别、flink如何处理数据倾斜 介绍下kafka kafka如果有台机器挂掉会发生什么 链表反转 面试官全程表情和语气冷淡,体验不是很好..当然答得感觉也很一般
个人情况:本双一流硕211非科班,一段搞深度学习的实习。项目自己做的。全程面试被追问麻了面试官有问题必追问 自我介绍 项目深挖(20min) 实习工作介绍(5min) 数据倾斜有哪几种解决方法 Group by 倾斜,join倾斜,null值倾斜 分别说说这些倾斜怎么解决:全说上来了,面试官问:还有呢?。。。开启负载均衡,对小文件进行合并,对数据类型进行检查,还有呢?我就记得这些了 Hdfs小文件
部门:优选事业部-美团买菜 timeline: 8.24 一面 8.28二面 8.31 hr面 9.7 oc 一面: 项目介绍 什么是指标体系 指标体系包含元素 指标分类 数仓分层、分层好处 数仓分层和指标分类之间有什么关系 什么是总线矩阵 什么样的数仓是一个比较好的数仓 什么方法可以落实上面说的数仓 缓慢变化维;除了拉链表还有哪些方式 什么情况下可以使用map join 怎么解决数据倾斜问题 J
一面前还有笔试 两道算法题挺简单 本来以为进去要转c++的 在自我介绍阶段就没怎么聊java 都在说自己不怎么会c++ 结果最后反问才知道原来是分布式数据库 java是作为计算层的主要实现语言 怪不得这面试官这么了解java 1. jvm调优 有啥常见参数 2. 常见设计模式 3. docker如何打包镜像 4. mmap系统调用 然后基本上都在问项目 面试官对电商业务好像还挺了解 聊了大概35分
简单介绍一下项目 项目里一些点随便聊了一下 没问几个问题 算法 实现一个HashMap 问了面试官是要拉链法还是可以用最简单的开放寻址 回答都可以 然后我就整了个开放寻址 随便写了个测试样例没出啥问题就过了 总时长30min
1.自我介绍 2.rdd变dataframe,再变dataset中间发生的过程 3.项目拷打 4.说说文本处理方法 5.说说数据采集经历 6.颜色分类,操这题还没写对,麻了
时间:120min 选择题:Hadoop+Spark+Linux+408 编程题: 小红的不动点:直接用HashMap就行 每个部门薪资排名前两名员工:rank开窗 小红删数字:这题应该是后端笔试的第二题,逆序dp,只过了96%
面试时间:50min 自我介绍 实习内容 工作部门是数据中台,数据中台是什么?和数据仓库有什么区别? 项目用什么采集数据?原理?还了解过其他采集工具吗? 对数仓分层的理解? 你们是按什么标准分主题的?用的什么数仓模型? MR的工作流程? Spark原理?和MR的区别? RDD依赖关系? Job、stage、task划分? Hive介绍,原理?Hsql转换到MR的过程? Hive的文件存储格式? 知