一面:80min 1、自我介绍 2、介绍部门情况 3、介绍下部门的数仓建设情况 4、简述实习里的三个实习做的项目,聊背后的逻辑 聊了好久好久 5、聊聊在字节认为部门最厉害的技术是什么 6、聊聊自己的爱好 7、觉得自己有什么有优点 8、团队协作和个人工作区别是什么,各自的优点和缺点 9、一道sql题,有两个数组,展开数据,角标相对应的取出数据 10、sql的job和stage划分,窗口函数是否会sh
1.sqoop底层是怎么实现的 2.shuffle调优 3.数仓和数据集市的概念 4.数仓分层,各个层是做什么的 5.维度退化,为什么要维度退化 6.HDFS上文件用什么存储的,ORC底层是什么样的 7.sql,求TopN 8.从一个数组中求第N大的数(先手撕了一下快排,然后面试官问有没有更好的答案,然后说了一下用堆的做法) 反问 整体面试三十分钟左右,感觉是寄了
4.22官网投递->4.23约面->4.25一面->5.5二面-> 面试官有事5.10三面改到5.15->三面过后接着hr面->5.22offer 快手一面(大约40min,sql写了20min) 1、自我介绍 2、hive和pyspark是学校有课程还是说自学的 3、本科或研究生期间有学过编程相关的课程吗 4、研究生学的些什么课程 5、你的项目都是自己去做的吗 6、你之前有实习过吗 7、四个SQ
1.Spark执行流程 2.HDFS的读写流程 3.HDFS在读流程中最适合的副本是哪个 4.对数仓的理解 5.数仓分层的作用 6.说一个你觉得有挑战性或者复杂性的数据倾斜的例子 7.选一个项目拷打 反问 整体33mins左右
23届春招的面经,大数据方向。希望对大家有帮助,最后对比offer选择了快手。 1.投递简历: 我是通过内推进入一面,投大厂可以试试内推,有些大厂走官网我简历关都过不了,但是内推可以🤣🤣,比如阿里我官网投递简历后就没声了,后来有人内推进了蚂蚁的一面,但当时不太想继续面了就没去。这也可能是内部系统的问题,总之建议大家多试试。 2.一面和二面面经 问的问题相似,都是大数据八股,sql,还有项目和实
一面:2023.2.7 30min 自我介绍 为什么要换实习 了不了解数仓知识 sql题,各城市观看量前10的用户,能不能保证每次刷数的结果一致 sql题,连续登陆 数据倾斜啥情况,怎么解决 了解即时查询组件吗?CK ES Durid之类? hive2ck有啥要注意的 反问 二面:2023.2.8 40min 自我介绍 为啥要换实习 之前实习有没有什么遇到难点,怎么解决的 你觉得什么样的数仓是好数
一面 8.14 自我介绍 实习内容,没有深挖 Hive 的存储格式 orc parquet 有没有了解过Cube, grouping sets 有没有了解过 group by ,sort by,cluster by ,distribute by 的区别 Mr的工作流程 Yarn的调度框架 Hive内部表外部表区别 Lag lead first_value last_value含义 Row_numb
一面(12.1) 1.自我介绍 2.讲一下项目 3.数仓分层作用 4.MapReduce原理 5.MapReduce各项技术聊一聊 6.Hadoop和hive的关系 7.spark概念及原理 8.spark关键技术有哪些 9.RDD具体聊一聊 10.spark宽窄依赖了解吗 11.一道sql题,最多同时在线用户数量 12.可以实习多久 13.反问 二面(12.5) 1.自我介绍 2.可以实习多久
1.挖项目 2.jvm垃圾回收 3.找问题,String类型循环内使用+= 4.mysql 聚簇索引和非聚簇索引 5.hashmap原理 6.索引数据结构(b+树),特点 7.hive数据倾斜 8.hive mapjoin ,bucket map join ,SMB join 9.flink watermark 10.flink checkpoint. 三种分布式快照算法 11.flink 状态
数据倾斜问题 写个sql吧 再写一个sql吧, 写挺好啊,在写一个吧 这些你是练习过原题吗,在写一个sql吧 说一下数仓的分层,每层干了什么事? 说一下归并排序的过程 xgboost原理 线性回归,逻辑回归 聚类了解吗 说一下spark怎么实现map join
八股+sql题+算法题
#软件开发2024笔面经# 🕒 岗位/面试时间 暑期实习基础研发平台/ 50min 👥 面试题目 1. 项目相关(省略了...) 2. http与https区别 3. 进程,线程,协程的区别 4. 用户态转到内核态的方式 5. 什么是中断 6. 进程间通信方式 7. GMP调度模型 8. GMP调度为什么使用两级队列 9. new和make区别 10. 值类型和引用类型 11. 数组和切片区别
1、自我介绍 2、spark宽窄依赖,stage划分 3、rdd的弹性体现在什么方面 4、group by 和reduce by的区别 5、spark内存划分,内存调优参数 6、spark的join有哪些,sort merge(没答出来) 7、spark的shuffle过程,和mr的区别 8、数仓总线业务矩阵是什么 9、数仓分层,dws层存在的必要性是什么 10、spark以及sql的优化经验(数
面试时间:50min 自我介绍 实习内容 工作部门是数据中台,数据中台是什么?和数据仓库有什么区别? 项目用什么采集数据?原理?还了解过其他采集工具吗? 对数仓分层的理解? 你们是按什么标准分主题的?用的什么数仓模型? MR的工作流程? Spark原理?和MR的区别? RDD依赖关系? Job、stage、task划分? Hive介绍,原理?Hsql转换到MR的过程? Hive的文件存储格式? 知
感觉自己和快手的相性不是很好,每次都和面试官不和,感觉应该是无缘快手 1.自我介绍,大数据组件是自学的吗 2.工作内容,定位,成果介绍 3.前期调研也是你做的吗,怎么调研出的指标体系,耗时多久 4.复购率是几日复购率,为什么选择这个天数不选择15天,你这个调研不够深刻,调研他的打法和业务目标不才是第一步要做的事吗 5.有多少个维度和指标,为什么用grouping sets不用cube,介绍coun