场景题: 1、有一个sql突然执行很慢有什么原因 2、从一个很大的日志表中10T,随机取出一些数据 3、有两个大表join,我说了分桶排序,他说那大key不还是分到一个桶里面,没解决问题,我说讲大key使用mapjoin或加随机数,那key如果未知怎么办 4、mysql中MyIsam相对于innodb更适合那些场景 5、hashmap为什么不直接用红黑树 问一个问题,回答完就会深挖,给我问麻了 #
9.11 一面(30min) 纯八股: 介绍下hadoop(hdfs、mapreduce、yarn) 介绍下hbase 介绍下flink flink checkpoint、connect和union的区别、flink如何处理数据倾斜 介绍下kafka kafka如果有台机器挂掉会发生什么 链表反转 面试官全程表情和语气冷淡,体验不是很好..当然答得感觉也很一般
个人情况:本双一流硕211非科班,一段搞深度学习的实习。项目自己做的。全程面试被追问麻了面试官有问题必追问 自我介绍 项目深挖(20min) 实习工作介绍(5min) 数据倾斜有哪几种解决方法 Group by 倾斜,join倾斜,null值倾斜 分别说说这些倾斜怎么解决:全说上来了,面试官问:还有呢?。。。开启负载均衡,对小文件进行合并,对数据类型进行检查,还有呢?我就记得这些了 Hdfs小文件
部门:优选事业部-美团买菜 timeline: 8.24 一面 8.28二面 8.31 hr面 9.7 oc 一面: 项目介绍 什么是指标体系 指标体系包含元素 指标分类 数仓分层、分层好处 数仓分层和指标分类之间有什么关系 什么是总线矩阵 什么样的数仓是一个比较好的数仓 什么方法可以落实上面说的数仓 缓慢变化维;除了拉链表还有哪些方式 什么情况下可以使用map join 怎么解决数据倾斜问题 J
2023/10/10 平安科技 大数据开发(37min) (1)自我介绍 (2)对于平安科技的数据开发岗的理解和认为它是做什么的?和自己的契合度是怎么样的? (3)数据库学习到哪些东西,学了多久,什么时候学的,有实践过吗? (4)sql分哪几类,违反主键约束会出现什么问题,索引什么情况下回失效,有自己去安装过吗?(之前没准备数据库的内容,答得很差,后边的面试才好好看了数据库的东西) (5)使用sq
1.自我介绍 2.描述一张表的设计流程 3.针对简历提问,问的不算难 4.kafka的用法及途径 5.redis的几种类型(我有写,但是忘了), 6.有没有bi可视化经验。 ----------------- 是的,没有看错,简历上写的就会可能提问,并不会针对你。
1.自我介绍 2.实习介绍 3.实习工作内容下游使用方主要有那些? 4.AI团队数据支持 他们使用这个数据做的什么 5.除了对表的支持之外,是否在计算层面做过一些优化 6.boradcast join和sortmergeJoin的区别和 使用场景的不同 然后面试官开始说,我觉得概念你应该都会,我就不问你了,所以我后面会从场景的角度去考验你的技术理解,本人听到这里心凉了半截,因为两段实习全是离线,这
110分钟,全程无项目和算法,全是八股深挖,被拷打惨了 1、谈一谈你对java面向对象的理解,什么时候用接口,什么时候用抽象类,从本质上讲一下区别? 2、都有了解过哪些设计模式?创建对象的设计模式有哪些?工厂模式和建造者模式分别在什么场景下使用,举一个具体的例子 3、java的hashmap在1.8之前链表中采用的头插法的方式,为什么1.8之后改成尾插法?头插法的方式可能会极限情况连成一个环,举一
腾讯二进宫,秒挂,简单题没写出来,太菜了。。。 自我介绍 项目相关 介绍一下java的反射 介绍一下mysql引擎 MyISAM引擎什么时候用 讲一下垃圾回收 讲一下集合 讲一下hashmap 算法题:大数翻转 (乐死了,这么简单的题没做出来,我转了字符串双指针超时) 反问: ∽具体有什么业务 提供大数据内容服务balabala ∽技术栈有什么 大数据开发岗spark之类,后台开发岗golang
以为是做大数据分析早上起来看了半天项目,结果面试问得是机器学习和数据建模竞赛 1 自我介绍 2 介绍一下数学建模比赛(太早了我都忘了) 3 介绍用了什么算法 优化还是分类balabala 4 用什么语言写的 你在项目中的工作是什么 5 看你的描述你好像比较擅长机器学习 然后就给我看代码 让我说他这个是干啥的 没太看懂 说的很混乱 后面面试官都不想听了 然后就挂了估计 #数据人的面试交流地# #如何
暑期实习(投得算是比较早),来和大家分享一下面经~😀 流程:顺丰流程个人感觉挺高效,体验也非常不错。 投递完之后就测评 4-15 显示简历通过安排面试 4-24 一面结束 代码是手写单例模式 4-25 二面结束 HR面 4-29 邮件offer (以下面试问题不是按照时间顺序,是按照个人回忆的顺序😅😅)我的技术栈是Spark方面的。 1.自我介绍,详细介绍一个个人的关于分布式系统开发的项目
6.8号电话通知简历筛选通过,问我什么时候有时间,进行电话面试。 6.9号电话技术面,30分钟,问的内容比较基础,基本上都是围绕着简历内容展开。 自我介绍 简历中项目的详细内容 Flume和Kafka如何搭配使用(项目中涉及) 项目中的数仓是如何构建的?如何分层的?分层的意义在哪里? 项目中用户画像是如何展示的? Spark和MR有什么区别 Spark启动后的程序流程 Spark宽窄依赖 Spar
一面:3.14 1.首先问实习经历,简单说了下是做数据处理跟分析,然后又简单问了一下实验室项目,没有深入问 2.Java的数据结构有哪些 3.聊一下数组这种数据结构,各种操作的时空复杂度,arraylist的扩容。 4.有哪几种树? 5.详细介绍一下b树跟b+树,b+数查询时间复杂度,为什么? 6.b+数有哪些商业用途(答了MySQL索引) 7.增删改比较多的情况下,为什么一段时间后要重新建立索引
时间线: 5.10一面 —— 5.14约二面 —— 5.17二面 —— 5.25直接发offer 无hr面,无oc 美团一面 1.项目 1)项目的总体架构和实现? 2)Flulme 和 Sqoop 如何保证数据不丢失? 3)数仓中的主题是什么,是根据什么来确定的? 4)数仓分层的优点和缺点 5)星座模型 6)数仓分层,每一层的作用? 7)事实表和维度表有什么关系? 8)事实表有哪些类型? 9)除了
2022/06/15 一面 35min 1:介绍项目 2:数仓分为几层?每一层作用? 3:数仓分层的意义? 4:flume导入数据到HDFS 为什么中间加kafka? 5:项目中可视化用什么做的? 6:SQL题 一列为日期 一列为金额 按月统计金额总和 7:MapRedcue原理 8:MapReduce的三个阶段 9:研究生上的课 10:接触过实时的大数据业务吗? 反问:部门技术栈 ?实习的话