一面:boss直聘,拷打项目,无八股。面试官简单介绍了项目的情况,反问。 二面:电话面,面试官一眼看出项目是网上的,我狂妄发言:“我是有自己的思考的”,然后被拷打,最后只憋出来了一条。 根据我之前的回答,面试官问了 1)数仓,业务系统,大数据平台的关系 根据jd,问了 2)py如何连接数据库,数据库游标、连接不释放会怎么样 3)hive分桶表,如何分桶,如何确定分桶的数量,分桶有什么用 4)怎么处
面试战况为4对1拷打,虽然没有手撕,但鼠鼠受到了终极八股+项目拷打 上来自我介绍+项目 讲10min Sql相关:mvcc,事务,索引。Sql的限制(啥东西)查一个表索引重复怎么办? 给题说思路:包括连接,开窗,去重,等等各种,explain,sql优化, Binlog,undolog,redolog(这部分答的还行) Linux:蚌埠住了,不该说会linux的 改用户名,找一个文本具体某行,修改
40min 面试体验感超好,德子好感+1 Spark sql了解吗?Dateframe 是啥(不会) 项目里数据怎么拉的? Flume+kafka+flume+hdfs 有什么过滤器吗?:3个flume拦截器 判断文件类型+时间戳过滤器+落hdfs小文件检测 数据量:千万 flume拉取时间是多少?(不会,瞎编的10分钟有兄弟了解吗) Spark小文件怎么处理 Kafka 的整体结构:broke+
10.23 非科班,只学了离线的技术栈,没项目,投了一个月全被拒了。(百度 美团 得物 滴滴 蔚来) 一面二面八股问的简单也都答出来了,但是算法题都是暴力求解,竟然过了,三面感觉八股有点冷门,算法题做出来了结果挂了,究极折磨,有点难受! 数仓分层,什么是主题 Kafka怎么保证数据一致性 Hdfs有哪些数据存储类型,有什么区别 Spark和MapReduce的比较 为什么转行 做过的数据分析案例
1、自我介绍 2、数仓怎么自学的 3、整个项目架构说一下 4、数据域是什么概念(提到了数据类型),那如何界定数据类型呢 5、总线矩阵构建过程 6、dwd层怎么设计的 7、了解业务过程这个概念吗 8、分域的话,在dws表中有没有可能会跨域(举了个互动域和活动域的例子),结果告诉我这样的话你的互动域设计的其实是有问题的(挖坑给我跳,悲) 9、星形模型和雪花模型 10、缓慢变化纬为什么用拉链表,他说他第
一面 实习介绍 mr过程 mr和spark的区别 spark shuffle 举例说明事实表和维度表的设计 拉链表设计 3道sql题 row_number rank dense_rank区别 二面 实习介绍 怎么设计数据指标 集群故障怎么排查解决的 自动化运维脚本怎么写的 实习的收获 项目介绍 讲一张你最熟悉的维度表,怎么设计的,说说都有哪些字段 拉链表优缺点 你觉得实际拉链表用的多吗 用的不多为
年前面试的 流程是机考,测评,再面试 (数仓)一面 聊得还行,不知道怎么挂了。。。可能是Spark这一块了解得太少了 自我介绍 你做的项目数据采集用的什么工具和原理? 有没有做过数据治理? 有没有做过数据血缘关系管理? 数据突增问题有没有遇到过?影响HDFS,如何解决? Hive表格存储用的哪个?什么原理? 数据某个阶段出现问题了,你怎么样定位出来? 数据倾斜有没有遇到过?怎么处理的? 数据之间的
二面就问了20min不到,吓死我了,不过已经发offer啦,分享下二面问的一些题目。 还是挖简历。 数仓建模核心 拉链表、快照表、全量表的区别 好像就这些~
1. 简历深挖 2. mysql binlog了解吗 3. shell脚本写过吗 4. 两个集群,一张hive表如何进行数据共享,A集群如何同步到B集群中 5. 一张订单表,支付状态会发生变化,如何采集到ods? 面试官说由于每张mysql表都是在系统上有应用的,所以应该用update的方式更新支付状态,不能采用数仓的方式去思考问题,不能用拉链表。数仓可以保存历史数据,但是mysql表必须要用up
#秋招# JAVA: 1.java面对对象的特征 2.Java中基本类型有哪些 3.==和equals的区别 4.为什么重写equals要重写hashcode 5.List,map,set什么区别 6.Try,catch,finally 分别作用是什么 大数据: 7.hdfs的读流程 8.项目里用到的 hive on spark 和 普通的hive有什么区别 9.数据倾斜的优化,如果group b
了解大数据吗? 分布式是什么? 1、list、set、map之间的区别与联系 2、arraylist和linkedlist之间的区别与联系 3、数组与链表的区别 4、线程和进程的区别?为什么要设置线程? 5、线程安全如何保证?几种方法?为什么会出现线程不安全 6、线程池用于干啥? 7、同步与异步的概念? SQL相关 1、讲一下索引?索引怎么实现 2、列排序是什么数据结构? 3、B树和B+树的区别?
游戏开发——数据工程,50分钟 问的都是八股 四类访问权限;四种内部类;反射机制;JMM内存模型;ArrayList和LinkedList;final VS finalize VS finally; 两道编程题: 有序列表合并;最长回文串 等消息
视频ms 前三分钟 自我介绍 数据仓库的了解 怎样设计数据分层 了解的大数据组件 spark用于解决什么问题 spark底层逻辑 sql的join实现方式 举例A(3) join B (5) 有几条数据 join底层逻辑 sql题 查询用户峰值 全程不到30分钟 **我就是一个小菜鸡。问就是面试凉凉 问的其实感觉没有特别难 但就是啥都不会。还是学的太过浅层次。总的来说 项目拷打 底层深挖。G
前言 从2023年3月初开始投递暑期实习,几乎所有大厂都投递过了,有些简历都过不了,有些一面直接挂了,虽然说确实互联网行情不是特别的好,但是应该还是自己能力不足,做的简历不够漂亮; 4月的时候第一次刷到了@三石数据的面经帖(见下图),于是跟他聊了一下,真的收获太多了,非常非常感谢这位大佬的指导,不仅帮助我修改简历,而且还给我解答一些在面试中遇到的问题;大佬要是没女朋友的话,我愿意以身相许(开个玩笑
一面 50分钟 自我介绍 你学过的大数据掌握的最好的是哪一个 hive里面排序一般怎么使用的 hive内部表和外部表的区别,外部表在什么场景下使用 hive视图用过吗 你对维度和事实的理解 你说到了业务过程,谈谈对它的理解 你刚刚描述的是一个业务过程还是 多个业务过程 多个业务过程放到一张事实表的你举个例子 维度建模中 星型模型和雪花模型 之间的区别 缓慢变化维表如何处理呢 全量表的数据保存多久