1.说说Spring框架、IOC、AOP 2.用过什么集合? 3.分别在什么场景下用? 4.哈希表的底层用了红黑树,了解过红黑树怎么变色、怎么保持相对平衡吗? 5.了解过缓存穿透、击穿、雪崩吗? 6.如果短时间大量的随机key来进行缓存穿透,内存撑爆了怎么办? 7.用过kafka吗,怎么保证消息不丢失? 8.如果在支付场景下,怎么保证消息不会重复消费? 9.一张数据库表,只有三个字段(id,nam
1.分区表 2.Hive和Spark的区别 3.为什么要来数据开发,了解数据开发吗 4.维度建模 5.项目相关问题 6.对UDF、UDAF、UDTF三者的理解 7.数据格式Parquet、ORC、Avro 8.Parquet、ORC的区别 9.分层的作用 .......... 总的来说和面试官沟通的过程中也学到了很多,但是感觉通过希望不大,好多都没答上来
一轮技术面 已oc 自我介绍 数据倾斜 工作中遇到不会的技术栈怎么办 和业务方沟通的case
timeline:8.30投递——9.13一面 面试时长:45min 面试形式:远程视频 自我介绍 深挖简历业务方向做法与反思 SQL题,计算过去一周每小时的订单总量,如果是15min怎么办,如果是5min怎么办 Python题,两表左右拼接和上下拼接 业务场景题,分析订单量下降的原因,不断限制范围问新的拆解指标 统计题,抛硬币直到正面朝上才停止问很多次试验后正面朝上和反面朝上的比例 机器学习,讲
开局自我介绍,然后她也介绍了一下部门工作;问了一下数据库和数据仓库的区别,我说是回答八股文还是回答自己的经历;然后她让我结合自己的经历说了一下;接着问我对数仓分层了解的多少,对维度建模了解多少,对数仓的模型(星形,雪花,星座)之类的了解的多吗?之后问我对数仓的每个方向的具体分层有什么认识吗?我都没听明白这个问题,只好老老实实回答了一句这些东西并不是我负责的,接着她说结合我自己的理解谈一谈.....
一面 英文自我介绍 mr的shuffle zookeeper选举 spark内存管理 hbase中region的拆分 数仓中都有什么表 怎么处理缓慢变化维,拉链表有用过吗 yarn的架构 namenode ha的实现 namenode启动过程中怎么确定哪个是active哪个是standby spark sql用的多吗 手撕 中等leetcoode,合并区间 二面 自我介绍 家哪里的 对博世有什么了
自我介绍 ssm会吗? 本科会 安卓懂吗? 不会 java.线程创建的方式 内存泄露说一下? 额,忘了 学习一个新技术的过程? 碰到bug怎么解决 反问 已offer😂😂😂
自我介绍 数仓分层 sql 最近五天的下单用户 left join左边三个数据,右边4个数据,最多会有几行数据 数据倾斜的优化方案,举几个例子 场景问题,如果例如下单转化率,肯定不超过1,那么如果这个指标会产生问题,那么应该监控哪些指标 在工作中,如何保证一个新任务,按时按质按量交付 反问 二面 自我介绍 数据倾斜 随便一个shuffle过程 shuffle怎么优化 为什么sparkshuffle
等待一小时,面试十分钟 两个男面试官,左边的在问,右边的一言不发 1.深挖实习,预测用的什么模型,开发工具 2.公司的数仓架构 3.数据库与数据仓库区别与联系 4.数据库三范式(搞这么简单的糊弄人) 5.hadoop核心组件(wtf) 反问:忘了
大数据一面 1、自我介绍 项目 2、学过哪些课程,统计学有没有学过(没学过) 3、项目主要用的语言(主要用Python、会一点SQL) 4、学习机器学习这门课用了多久,怎么学的 5、大数据这一块还要用spark hive等,你觉得你需要多久上手,怎么学习 6、描述Python熟练程度(比如项目里用了什么) 7、说一件某个项目中让你觉得自豪(or体现自己优势)的事 8、反问 如何上手(统计学说到了方
一面 介绍实习经历 介绍异动归因case ab实验题 DID方法的假设是什么 如果业务判断产品改版对某个指标有正向影响但是ab实验结果发现没有显著影响,为什么? case题 如何判断某产品功能上线对人均浏览时长、留存的影响 如何衡量产品功能上线对人均浏览时长和留存的trade off 面试官思路:构造统计量人均浏览时长和次留的统计换算关系,然后分别设置阈值,如果某一个超出阈值则告警 sql题 次日
最开始发来的邮件说是电话面,当天走完了一面二面,中间只间隔了二十多分钟,当晚HR面,第二天看状态结束了。。。。凉凉 这次幸亏是电话面,手机直接录音了,记录的详细一些。 一面 面试时间:20min 自我介绍? 实习工作介绍,实习内容,所用的技术栈。。。 怎么和同事配合的?自己有开发了那些?有什么提高? 你们这个项目,你觉得还有那些地方可以做优化? 离线和实时结合,未来发展的一些看法? Hive的组成
复盘下之前的oppo一面,真的很tech,感觉像是在招ds 1. python以及sql中处理字符串和日期的函数 2 有什么窗口函数 加不加order by的区别 3 机器学习了解哪些模型 4 介绍下随机森林的原理 5 随机森林分支的规则是啥?决策树不再往下分的原理是啥 6 介绍学校项目从最开始的数据获取 治理等等其中处理的难点是啥,整体看板搭建思路如何 7 如何评估数据的集中程度以及分散程度 8
1h10 min 面试官是个大佬,全程面试偏场景题 八股:数仓建模,分层,每层作用,数据倾斜(group by,join)很细,小文件 场景题: 快手在某一时刻某主播开播时流量巨大,然后同一时间段还有多个主播开播 有一些些主播可能粉丝少,但因为在搞活动,把在线列表和主播表join时会发生数据倾斜,这怎么解决 雪花模型用过吗?(用过)讲一个使用雪花模型的场景(多值维度?)面试官说不对。然后只能说没用
0918 19道单选题 1道多选题 几乎全是概率问题,以及 期望 还有 逻辑问题 (1)AB测试中,样本不均衡,会对两类错误有什么影响 (2)归因不变性和归因折扣原则 选择题