之前一直在牛客找面经,对自己帮助也很大,意向了也写一篇,感谢!
一面:
1、介绍项目
2、ODS和DWD怎么区分,分别存什么样的数据
4、跨数据域问题,怎么做的
5、有哪些宽表,对应什么指标和业务过程
6、留存率、漏斗分析等,是怎样的开发过程,后续使用
7、任务性能优化或代码方面的优化
8、hive on spark和spark区别,计算时间上有差异吗
9、kylin为什么快
10、两道SQL
1. 表名order
字段 user_id, date, price_list
1, '2020-02-02', 10
1, '2020-02-03', 5,5
1, '2020-02-04', 15,30
2, '2020-02-08', 10,20,30
......
计算用户price平均值
结果:
user_id price
1 13
2 20
2. 直播表 a
room_id, start_time, end_time
1, 20201224, 20210102
......
求20210101这天有直播的房间数
二面:
1、数仓分哪些层,每层做什么,纵向分域/分主题
2、公共派生指标?相关相近的名词?
3、项目一共多少张表,哪张最重要
4、事实表类型
5、投资表:A投资了B和C (A, B, C)
各家公司财报:A盈利了100等等 (A, 100; B, -50)
能不能用数仓建模方式做一些好用的表,通过这个表,拿到每家公司直接收益情况以及整体收益情况?
字段:公司名称,直接投资收益情况,整体收益情况
6、日志表:date, user_id, city_id, ...
1. date, city_id, pv, uv
2. 出现数据倾斜了,你认为会有什么原因?如何优化?
7、考怎么思考和拆解问题
三面:
1、spark streaming和flink区别
2、spark streaming精准一次
3、数仓层与层之间做了什么操作,每层中的表有什么特征
4、建立什么样的总线矩阵,哪些放在DWD,哪些放在DIM
5、数仓建模与数据库建模区别,使用场景
6、维度建模的建模方式,之间的区别,使用场景
7、数据库三范式,讲明白
8、数仓中支持了哪些分析,一般分析业务,会用一些指标度量,统计维度去分析,支持了哪些分析?距离一个业务,通过哪些指标分析,出现问题后,可以从哪些维度细分下去?
9、spark streaming如何做日活
10、双流join怎么实现
11、spark语句执行过程
12、我有个算法的项目,也问了一些,
比如做了哪些优化,准确率指标口径,哪些优化对准确率提升最明显,哪个优化难度大,怎么解决,哪篇论文启发大等等
13、为什么选数据开发的职业不选算法
hr面:
1、毕业后想留的城市
2、项目属于什么样的,数据来源?因为没有实习所以想了解做这个项目是因为兴趣爱好吗?
3、项目可以落地吗?怎么知道这个项目做的好不好
4、职业规划
5、学术界或工业界特别佩服的人
6、最优成就感的事情,成就感来源
7、最挫败的事情
8、一些二战的事情
9、自己的优缺点
10、为什么读国外硕士
11、为什么不实习
12、为什么不找算法类工作
以上每个问题,都会细问为什么,举例子
#小红书##秋招#