已OC,评论区有意向群大家可以加入交流
一面:
挺走流程的,项目+八股+性格
二面:
项目+做题+性格,题目是一个实时指标,一个离线指标,居然要求在web上写flink,然我选择用SQL写离线,题目是统计一个直播间的最大在线人数,感觉挺好的,但是说方向偏业务,问了我的意向,我没表达出兴趣。
三面:
1.自我介绍
2.项目介绍
3.Hudi项目难点
1).FlinkJob怎么配置采集表的个数:个数太多会导致单个slot输入数据量太多,Hudi累计的数据存在state里(超过阈值会flush),累计太多做ck的时候需要的时间就越长,CK的GAP需要加长,会影响实时采集的时效性。所以对数据库的采集需要多个Job来保证时效性,同时要保证每个Job的表大小尽可能相等(Job里业务表的TPS需要大概相同)
2).Hudi的bucket数量,bucket对应一个分区下面的file group,他也是写并发的最大值,它数量过多会导致一个小文件问题,数量过小会导致File group里面的parquet+log过大,影响下游的查找优化。(社区说是用hashMap的方式,也看到RFC使用一致性hash来动态扩展Buket数量)
4.Ozone项目
5. B+树和LSM-T区别
5.各自使用的场景
6.OLTP和OLAP *
7.范式建模和维度建模 *
8.优缺点-各自优势 (这里可以扩展很多,列存储和行存储,指令的向量化优化,AP提前聚合宽边来构建指标,TP范式拆分来支持快速修改)
四面:HRBP
问对小红书的了解,优缺点
#小红书校招#