场景题: 1、有一个sql突然执行很慢有什么原因 2、从一个很大的日志表中10T,随机取出一些数据 3、有两个大表join,我说了分桶排序,他说那大key不还是分到一个桶里面,没解决问题,我说讲大key使用mapjoin或加随机数,那key如果未知怎么办 4、mysql中MyIsam相对于innodb更适合那些场景 5、hashmap为什么不直接用红黑树 问一个问题,回答完就会深挖,给我问麻了 #
9.11 一面(30min) 纯八股: 介绍下hadoop(hdfs、mapreduce、yarn) 介绍下hbase 介绍下flink flink checkpoint、connect和union的区别、flink如何处理数据倾斜 介绍下kafka kafka如果有台机器挂掉会发生什么 链表反转 面试官全程表情和语气冷淡,体验不是很好..当然答得感觉也很一般
个人情况:本双一流硕211非科班,一段搞深度学习的实习。项目自己做的。全程面试被追问麻了面试官有问题必追问 自我介绍 项目深挖(20min) 实习工作介绍(5min) 数据倾斜有哪几种解决方法 Group by 倾斜,join倾斜,null值倾斜 分别说说这些倾斜怎么解决:全说上来了,面试官问:还有呢?。。。开启负载均衡,对小文件进行合并,对数据类型进行检查,还有呢?我就记得这些了 Hdfs小文件
部门:优选事业部-美团买菜 timeline: 8.24 一面 8.28二面 8.31 hr面 9.7 oc 一面: 项目介绍 什么是指标体系 指标体系包含元素 指标分类 数仓分层、分层好处 数仓分层和指标分类之间有什么关系 什么是总线矩阵 什么样的数仓是一个比较好的数仓 什么方法可以落实上面说的数仓 缓慢变化维;除了拉链表还有哪些方式 什么情况下可以使用map join 怎么解决数据倾斜问题 J
自我介绍 数据倾斜问题 spark的shuffle相对于mr的shuffle有什么区别 spark的stage怎么划分的 yarn中都有什么,作用是什么 hdfs读写流程 rpc和http分别是什么,有什么区别 项目中都有什么数据 数仓的分层,每层都做了什么事 反问 金风科技二面总经理面 自我介绍 总经理问题: 1.本科和研究生都是通信,为什么选择大数据 2.怎么在完成学业同时学习大数据的 2.对
HDFS是整个大数据架构的底层,它提供了一个文件系统 Spark(Spark core(RDD)) 和 MapReduce 是一个层级,是一种操作计算框架,MapReduce相当于一个别人写好的 java程序,它并不需要在服务器上启动相应的服务,甚至可以在本地run Hive => MapReduce Hive 操作MapReduce(底层是 MapReduce) Spark SQL=> Spar
分享一下今天的面试情况,总体其实不难,但真的太过紧张,发挥极其不好。 首先上来是一段自我介绍,然后闲聊一些我的能力还有个人对于科研的看法,以及导师的管理松紧。 之后就是正式的面试内容: 1.TCP为什么要三次握手?这个题太经典了,想必背过八股的都知道,但我真的太紧张,完全不知道从哪里开始说起,所以结结巴巴的搞完了。 2.线程和进程的区别?这个也很简单对吧,不过我感觉我说的不够全面。 3.Mysql
已挂 一面 没有自我介绍,直接开问; 八股考的比较多,论文和实习经历都没怎么问 lgbm和xgboost的区别 RNN, GRU, LSTM之间的差别 为什么RNN容易梯度爆炸? 进程的通信方式 介绍下进程和线程 进程是操作系统资源分配的基本单位,而线程是处理器任务调度和执行的基本单位 死锁的四个必要条件 互斥条件:一个资源每次只能被一个进程使用; 请求与保持条件: 一个进程因请求资源而阻塞时,对
1.自我介绍 2.你对redis宕机后的方法 我:...... 3.你说到算法。你有刷过letcode算法? 我:很少刷letcode,一般都是刷sql的 3.kafka的副本同步 我:忘了 4.谈谈你对数仓的理解 我:..... 5.谈谈你对hbase和clickhouse的理解 我:.... 6.你说你对hive中的ads层数据导入到MySQL,为什么不是直接从hive的ads层中访问 我:不
一面:(1h) 1.自我介绍 2.选一个熟悉的项目介绍一下吧 3.看你简历上写了进行过数仓的搭建,那你说一下数仓分几层合适? 4.每一层干了那些事儿? 5.你说一下数仓为何要进行分层? 6.数仓的建模方法知道吗? 7.指标分类有哪些?(回答的是原子指标,派生指标,衍生指标) 8.你的ods层为何选择gzip压缩呢? 9.除了gzip压缩还有哪些压缩方法?介绍他们的区别?10.项目中你的hive表使
一面 50分钟 自我介绍 http协议是哪一层的协议,讲一下对http的了解 tcp协议和udp协议是哪一层的协议,讲一下他们之间的区别,以及他们各自的应用场景 你知道get和post请求吗,讲一下他们之间的区别 当我们输入美团网址的时候,这个从输入到显示页面的过程 你了解操作系统吗,linux了解吧,你说一下你用过的命令 当我们要查看文件的具体属性用什么命令 讲一下静态链表和动态链表的区别 数据
一面 电话面 40分钟 自我介绍 介绍实时数仓的项目 你这里用到了clickhouse,clickhouse的写入和读取为什么快 flink有哪些算子 flink的窗口函数了解吗 flink的精准一次性如何保证的 kafka是如何保证数据不丢失和不重复的,从生产者和消费者考虑 hbase用过吗,rowkey的设计原则是什么 如何解决热点现象 redis的数据结构了解吗 java的spring会吗
1.平常是用python还是java?python和java掌握程度? 2.hadoop的组成,每部分有什么用。 3.spark掌握的怎么样,SQL练过哪些题。 4.mapreduce源码看过吗? 5.wordcount的流程。 6.Scala有没有学过? 然后开始挖简历,还问了我一些业务的问题。 说后面会通知二面,也不知道有没有...
Spark 出问题如何排查 Spark 分区和hdfs block的关系 10000个小文件场景,spark是调整内存配置参数还是调整并行度参数 Spark sql 底层原理 Spark sql如何优化 Hbase region的分裂 #美团#
Spark-land中有几个类似但不同的概念,围绕着如何将工作分配到不同的节点并并发执行。具体有: Spark驱动程序节点() Spark群集可用的辅助节点数() Spark executors的数量() 所有工作人员/执行人员同时操作的DataFrame() ()中的行数 () ,最后是每个工作节点上可用的CPU核数() 我相信所有的Spark集群都只有一个Spark驱动程序,然后是0+个工作节