小红书数据开发(数仓)面经(3+1 已意向)

优质

小牛编辑

122浏览

2023-03-28

之前一直在牛客找面经，对自己帮助也很大，意向了也写一篇，感谢！

一面：

1、介绍项目

2、ODS和DWD怎么区分，分别存什么样的数据

4、跨数据域问题，怎么做的

5、有哪些宽表，对应什么指标和业务过程

6、留存率、漏斗分析等，是怎样的开发过程，后续使用

7、任务性能优化或代码方面的优化

8、hive on spark和spark区别，计算时间上有差异吗

9、kylin为什么快

10、两道SQL

1. 表名order

字段 user_id, date, price_list

1, '2020-02-02', 10

1, '2020-02-03', 5,5

1, '2020-02-04', 15,30

2, '2020-02-08', 10,20,30

......

计算用户price平均值

结果：

user_id price

1 13

2 20

2. 直播表 a

room_id, start_time, end_time

1, 20201224, 20210102

......

求20210101这天有直播的房间数

二面：

1、数仓分哪些层，每层做什么，纵向分域/分主题

2、公共派生指标？相关相近的名词？

3、项目一共多少张表，哪张最重要

4、事实表类型

5、投资表：A投资了B和C (A, B, C)

各家公司财报：A盈利了100等等 (A, 100; B, -50)

能不能用数仓建模方式做一些好用的表，通过这个表，拿到每家公司直接收益情况以及整体收益情况？

字段：公司名称，直接投资收益情况，整体收益情况

6、日志表：date, user_id, city_id, ...

1. date, city_id, pv, uv

2. 出现数据倾斜了，你认为会有什么原因？如何优化？

7、考怎么思考和拆解问题

三面：

1、spark streaming和flink区别

2、spark streaming精准一次

3、数仓层与层之间做了什么操作，每层中的表有什么特征

4、建立什么样的总线矩阵，哪些放在DWD，哪些放在DIM

5、数仓建模与数据库建模区别，使用场景

6、维度建模的建模方式，之间的区别，使用场景

7、数据库三范式，讲明白

8、数仓中支持了哪些分析，一般分析业务，会用一些指标度量，统计维度去分析，支持了哪些分析？距离一个业务，通过哪些指标分析，出现问题后，可以从哪些维度细分下去？

9、spark streaming如何做日活

10、双流join怎么实现

11、spark语句执行过程

12、我有个算法的项目，也问了一些，

比如做了哪些优化，准确率指标口径，哪些优化对准确率提升最明显，哪个优化难度大，怎么解决，哪篇论文启发大等等

13、为什么选数据开发的职业不选算法

hr面：

1、毕业后想留的城市

2、项目属于什么样的，数据来源？因为没有实习所以想了解做这个项目是因为兴趣爱好吗？

3、项目可以落地吗？怎么知道这个项目做的好不好

4、职业规划

5、学术界或工业界特别佩服的人

6、最优成就感的事情，成就感来源

7、最挫败的事情

8、一些二战的事情

9、自己的优缺点

10、为什么读国外硕士

11、为什么不实习

12、为什么不找算法类工作

以上每个问题，都会细问为什么，举例子

#小红书##秋招#

小红书数据开发(数仓)面经(3+1 已意向)

热门公司

相关阅读

推荐文章

推荐题库

推荐问答