快手数据开发一面 55min

优质

小牛编辑

92浏览

2024-03-22

快手数据开发一面 55min

1、自我介绍
2、spark宽窄依赖，stage划分
3、rdd的弹性体现在什么方面
4、group by 和reduce by的区别
5、spark内存划分，内存调优参数
6、spark的join有哪些，sort merge（没答出来）
7、spark的shuffle过程，和mr的区别
8、数仓总线业务矩阵是什么
9、数仓分层，dws层存在的必要性是什么
10、spark以及sql的优化经验（数据倾斜除了加前缀还有什么方法，大表join大表怎么办）
11、小文件问题怎么处理
12、用户id两张表设计时一个是bigint一个是string后面join有什么后果（没答上来，面试官说底层先会转成double）
13、round和roundseed的区别（面试官说假如maptask失败后round会分配到不同的reduce中，roundseed每次随机的值是一样的，网上没有查到roundseed，有没有大佬教教是不是我听错了）
14、两道sql
①连续登录天数
②互相关注的用户（用case+concat）
一次体验不错的面试，面试官人真的好好，很耐心引导我不会的问题，许愿二面

快手数据开发一面 55min

热门公司

相关阅读

推荐文章

推荐题库

推荐问答

快手 数据开发 一面 55min

热门公司

相关阅读

推荐文章

推荐题库

推荐问答

快手数据开发一面 55min