数据BP一面

优质

小牛编辑

117浏览

2023-03-28

数据BP一面

整体流程：30min 项目 + 两道sql

离线数仓 + 指标计算

1、聊聊离线数仓

2、介绍数仓主题、数仓分层？

3、DWD和ADS层的区别？

4、数仓表数量、数据量多大？数据量级的困难，计算参数

5、快速完成ODS表的清洗和过滤？

6、实现最复杂的UDF？继承Hive UDF类？其他的UDF类？GenericUDTF 和 UDF区别？

7、计算引擎选择？为什么计算量大却选择Hive计算引擎？

8、海外简单聊聊？（接下来你该如何去展开？

9、这个项目你做的最复杂的、最有价值的？对比Flink、SparkStreaming

10、为什么使用SparkStreaming？

11、下游怎么使用数据？

12、数据及时产出？？指的是离线的还是实时的？

13、先聊离线，怎么保证及时产出？

14、期待公司可以给到你什么呢？组件的剖析和业务支持

---

35min的聊天，开始上题SQL

1、统计阅读最多的五类文章（按照文章id先聚合，将uid、时间粒度抹去，再去join）

为啥使用开窗函数？为啥不用order by？

2、某一天的24小时分段统计高低峰，然后连续高峰、就将其合在一起

00-03 high 04-06 低峰

1、需要对时间串截取

2、开窗取上、取下 -> 辅助类，相同标1、不同标0，不同才会跳变一次，辅助类相同就是同一个字段

写了15min，开始针对此进行：数据倾斜、窗口函数使用

----

面试官人很好，很开心的过去，就是我能力不够