1. 自我介绍,讲到一半说可以了 2. hadoop工作原理,我直接从作业提交开始讲讲到mr shuffle说可以了 3. 数据倾斜怎么优化sql 4. 星型模型和雪花模型区别 5. 问了离线,实时,数据挖掘熟悉哪些 6. SCD缓慢变化维怎么处理 7. 场景题,问直播带货怎么设计指标,我不懂啊乱答一通基本 8. 数据不一致怎么处理,开始我乱答的,后面引导到了指标体系上 9. 问有没有其他打算实习
1.sqoop底层是怎么实现的 2.shuffle调优 3.数仓和数据集市的概念 4.数仓分层,各个层是做什么的 5.维度退化,为什么要维度退化 6.HDFS上文件用什么存储的,ORC底层是什么样的 7.sql,求TopN 8.从一个数组中求第N大的数(先手撕了一下快排,然后面试官问有没有更好的答案,然后说了一下用堆的做法) 反问 整体面试三十分钟左右,感觉是寄了
面试10分钟不到,等了快半小时 1 自我介绍 2 项目介绍 3 hdfs读数据流程 4 linux vim命令 5 热门商品topN指标编写 6 为什么选择西安 7 期望薪资
一面 1h10min 面试官很和蔼,这次吸取上次教训提前背了自我介绍和项目,基本都答上来了 实习(10min) 实验室项目(5min) Mr流程 Spark和mr区别 窗口函数 Shffule流程 Spaker的宽窄依赖 数仓建模的方法,层数,意义,每层都干了什么 平时为什么用维度建模,范式建模有什么缺点 数据倾斜(很细) 熟悉的排序算法说时间复杂度 一个大数组求topn(bitmap)然后追问,
一面 redis: RDB和AOF的区别 AOF中记录的是什么,RDB中记录了什么 过期数据的删除策略 使用这些删除策略可能会出现哪些问题 定期删除是所有数据删除吗 内存淘汰机制 allkeys详细说说 redis使用场景 redis和memcached有什么区别 为什么用单线程不用多线程 clickhouse(实习里用的主要是这个): 简单介绍一下clickhouse,说说为什么用这个 说一下R
一面8.23 1.自我介绍 2.介绍一下你做过的项目 3.从项目展开的问题:sqoop导数据是从哪到哪? 从mysql到hdfs 在导数据的过程中有没有遇到什么问题? 数据量不大,所以没什么问题 (我的项目很简单,所以我没法答啊,不过幸亏面试官没有深究,开始八股) 4.范式建模有什么特点?和维度模型的区别 (数仓建模理论在《大数据之路:阿里巴巴大数据实践》中有详细归纳,强推!) 5.三范式能说出来
4.22官网投递->4.23约面->4.25一面->5.5二面-> 面试官有事5.10三面改到5.15->三面过后接着hr面->5.22offer 快手一面(大约40min,sql写了20min) 1、自我介绍 2、hive和pyspark是学校有课程还是说自学的 3、本科或研究生期间有学过编程相关的课程吗 4、研究生学的些什么课程 5、你的项目都是自己去做的吗 6、你之前有实习过吗 7、四个SQ
1.平常是用python还是java?python和java掌握程度? 2.hadoop的组成,每部分有什么用。 3.spark掌握的怎么样,SQL练过哪些题。 4.mapreduce源码看过吗? 5.wordcount的流程。 6.Scala有没有学过? 然后开始挖简历,还问了我一些业务的问题。 说后面会通知二面,也不知道有没有...
10.16投递 10.17一面(50minute) 自我介绍 项目细节 mysql(这里问了很多) 大数据的基本八股 计算机网络tcp 一道sql题,一道算法题 (吐槽一下百度的如流,用网页端看不到聊天框,最后还是下载了客户端才看到,面百度的小伙伴记住面试了要下载如流) 反问:问了一下业务 10.19二面(30minute) 自我介绍 项目细节流程 两个项目的关系 为什么不继续做大模型 实习多久
1.自我介绍 2.实习最大收获 3.odps平台的性能调优与spark的性能调优的共同点和差异点 5.spark的countdistinct算子优化 6.bitmap作用在expload的作用是什么? 7.小文件过多的影响 8.sql countdistinct优化代码手写 9.反问 #大数据开发##数据人的面试交流地#
一面——60mins 自我介绍 拉链表的制作,数据量有多少,为什么不用快照表呢 项目有哪些表 数仓分层有哪些,具体做了什么,数仓分层作用 怎么设计表,怎么建模,DIM DWD层的主题分了哪些 如何做的可视化 什么是数据倾斜,数据倾斜的解决方案 Hadoop和spark的区别 Spark的shuffle流程是怎么样的 对哪些数据库了解 Shuffle有哪几种类型 在shuffle的过程中会进行排序吗
一面:(1h) 1.自我介绍 2.选一个熟悉的项目介绍一下吧 3.看你简历上写了进行过数仓的搭建,那你说一下数仓分几层合适? 4.每一层干了那些事儿? 5.你说一下数仓为何要进行分层? 6.数仓的建模方法知道吗? 7.指标分类有哪些?(回答的是原子指标,派生指标,衍生指标) 8.你的ods层为何选择gzip压缩呢? 9.除了gzip压缩还有哪些压缩方法?介绍他们的区别?10.项目中你的hive表使
1. 自我介绍,项目介绍 2. 自我介绍的时候问我这些东西是自己学的还是学校讲的。 内心:在说什么。。。 3. 因为简历上第一个写的是使用爬虫进行数据挖掘,但是没用flume进行数据采集,所以就简单的说一下当时是把数据采集成csv或者data格式的文件,直接上传到的Hdfs,直接使用load path加载到hive当中。 并且当时介绍了数据集的大小,以及介绍了可能会产生的问题, 4. 面试
了解哪些大数据组件 Shuffle 的作用是什么 Shuffle 中合并的操作有什么用/好处 MapReduce 中出现数据倾斜怎么处理 Yarn 有哪几个比较重要的进程 ResourceManager 主要的作用 ApplicationMaster 主要的作用 任务的监控在哪个进程 ZooKeeper leader选举机制 ZooKeeper 读写一致性具体体现在哪些地方 Spark 宽窄依赖
### 一面 自我介绍+实习经历 (31608)### 二面 1. 自我介绍 2. 实习经历,我说了JVM的重用 3. JVM重用的底层原理 4. sql输出排名前七的学生 5. hive处理小文件的方式 6. hive组件,原理 7. hiveSQL转化为mapreduce的执行过程 8. hive执行过程中的优化 9. 为什么使用环形缓冲区 10. HDFS组件 11. secondnamen