处女面,很紧张 1. 问项目 2. 项目中为什么使用kafka作为缓冲队列。 3. mapreduce原理。 4. 如果mapreduce发生数据倾斜该如何解决。 5. 解释一下列式存储、列式存储的文件格式。 6. 星型模型、雪花模型、星座模型的区别和应用场景。 7. 拉链表是什么、一般解决什么问题。 8. 什么是指标体系、如何明确指标体系。 9. zookeeper、datax等(项目上写的组件
26届Java选手,面了很多大厂后端实习基本都挂了,稀里糊涂接了大数据的实习,总体比较顺利,先去沉淀了 9.27 美团数开一面 30min 介绍一个项目 项目中的难点 sql 求每月最大和最少的订单数量 二分查找 面完10分钟打电话约二面 9.30 美团数开二面 50min 介绍两个项目 MySQL 索引 介绍一下Hadoop HDFS有几个个副本,为什么 深挖Shuffle原理 sql 面试官自
9.21号下午一面的,忘记发牛客了,现在补上 一个年轻并且非常友好的面试官,沟通也比较顺畅,完全按照我的简历一条条过,八股很少,问也只会问涉及项目的八股 - 介绍实习部门的业务,数仓架构 - 以下内容都是我简历具体的内容,可能没啥参考意义,中间穿插的一些细节问题有点忘了: - Cube表性能优化,还有其他优化的方法吗 - 表分桶优化,一般表关联还能怎么优化 - 小文件治理 - SLA治理 - 数据
25、MR工作原理 Input Spliting:输入的数据被拆分成更小数据块(Input Splits:将大文件切割成适合并行处理的小块数据,每个小块数据称为一个分片,一个分片作为MR处理的基本单元)Mapping:mapper节点将分配到数据块执行map操作,产生中间结果(k,v)键值对并写入到本地磁盘Shuffling and Sorting:Mapper节点会根据Key进行排序,并将相同K
主要问经历,问项目的比较多 hdfs的角色有哪些,功能 hdfs的写流程 Java的线程安全是什么 最熟悉的集合是什么?详细描述一下 Arraylist为什么长度可变 python的装饰器用过没?是什么东西? 手撕python编程题,给定一段字符串,统计出每个单词的频率,频率相同的按降序排序 外部表和内部表的区别? 为什么选择多益? 对游戏的流失人数进行分析? 有没有拿到其他公司的OFFER
马上入职一个月了 记录一下面经~ 一面:(50min) 1.自我介绍 2.介绍实习项目 3.实习过程中遇到了问题是怎么排查的? 4.介绍一下你自己写的项目 5.讲一下java内存模型 6.scala和java有什么区别?说一下你的理解 7.手撕代码:两道sql,一个算法,算法是反转链表 8.你对数据仓库了解多少?对大数据了解多少? 反问: 1.评价 2.部门技术栈 #美团##美团25届转正实习##
写这篇帖子就是为了回馈广大牛友。 美团一志愿投的后端开发,没人捞流程自动结束,二志愿开启后迅速约面。 Timeline 3.29一面 4.3二面 4.8 offer 因为人在海外,hr打不通电话,因此直接就发offer到邮箱了。 面经 这里就写几个在众多面试中比较让我印象深刻的问题吧。 1. 对于一个电影,怎么设计数据库中的表,怎么加索引?如果用户搜索很复杂,比如可能任何字段都想搜到电影相关信息,
一面: 1.拷打项目 2.拷打实习 3.sql top n 面试官应该不是数仓的,应该是偏向平台开发那边,所以没问八股 二面(5.13) 已OC
#软件开发2024笔面经# 1说说你对数仓里分层的理解,越详细越好? 2说说你对数仓里数据建模的认知理解,越详细越好? 3之前做过数仓么? 4请简要说明什么是数据仓库,以及它与数据库的主要区别。 5列举几种常见的数据抽取、转换和加载(ETL)工具,并简述其特点。 6如何处理数据中的缺失值?请举例说明至少两种方法。 7讲一讲你对分布式数据处理框架(如 Hadoop、Spark 等)的理解。 8在大数
笔试 90min 选择题+sql*1+算法*2 简单sql,困难算法 一面 共 50min 自我介绍 sql 3小问 15min 实习经历 项目经历 数仓分层的意义 从hdfs如何到ODS层 介绍维度表和事实表 有没有使用zookeeper hadoop节点之间如何进行联系 hive sql脚本是在哪里运行 一共有多少张表,都是自己写的吗 做数仓的时候遇到了哪些困难,怎么解决的 在实习期间的困难和
1.自我介绍 2.介绍项目,数据哪来的,数据量级,数仓模型,曝光率怎么算的 3.难点介绍,随spark版本变化会不会有一些函数不适用 4.bitmap的JAVA实现,哈希冲突怎么做的 5.数据倾斜介绍 6.除了数据倾斜,还有哪些优化手段 7.开窗函数 8.udf用过吗 9.JAVA实现过什么项目 10.sql:去掉一个最高分去掉一个最低分求用户平均分 很常规的一次面试,没什么好细说的 #数据人的面
数仓有哪几层,每层作用 星型模型和雪花模型 累计快照事实表,拉链表 如何进行维度建模 遇到的数据倾斜问题 大小表join 内部表和外部表区别 拉链表如何设计 spark为什么快 指标体系的建设和管理 用过bi报表之类的吗 炸裂函数,开窗函数 rdd和dataframe的区别
1.自我介绍 2.实习技术难点 3.项目技术难点 4.id timestamp 位置 三个字段完全一样的去重,sql怎么做scala怎么做 挑选同个人最后一个时间戳的记录,sql怎么做scala怎么做 5.spark submit提交参数 6.内存/并行度参数优化方案和技巧 7.当出现数据倾斜的时候怎么排查,怎么处理 不能只提八股,要完善分情况的答 8.两数之和 9.小数之和 10.反问,写sca
两个面试官 一个负责问java一个负责大数据 自我介绍 1.为什么要使用线程池 2.说一下线程池创建时的核心参数 3.如何查看当前线程池最大线程数 4.说一下jvm内存区域 5.说一下有哪些垃圾回收 算法 6.linux通过什么命令查看日志 7.通过什么命令杀死进程 8.说一下spark shuffle 和mr shuffle区别 9.说一下hive有哪几种存储格式 哪种存储格式压缩率更高 10.
#兴业数金一面 ,二面 #数据开发 #23校招 9.23二面(糟心) 全程不看屏幕,全程听不到说啥,全程氛围尬住 1.介绍自己,balabala 2.说说你对数金的了解(他笑了,你知道还挺多) 3.说说你的优势(声音巨小) 4.上个面试咋样 我???那个面试,我,,,那个???? 然后把一面给他复述一遍 5.还记得你的笔试题吗 鬼才记得 6.记得笔试的编程题吗