写在前面:这段时间经过了一段高强度笔面,但还是颗粒无收
面试
面试官进来就说:你不会flink?
我:了解的不多
那我们这次可能通过概率不大,但我们仍然可以就大数据来一波交流
实时:
Flink的checkpoint
Flink的反压
Flink的状态后端
离线:
Kafka的有序性(不可全局有序,但可分区有序)面试官说不对??我让他下去再好好看看
Kafka一定不会丢数据嘛?
Spark的内存模型(yarn-client,yarn——cluster)
数据仓库的意义
怎么衡量一个好的数仓(一致,质量,复用,统一口径。。。。)数据治理相关知识
Hive的执行计划看过没?看过,通过stage,定位数据倾斜。
维度建模方法:雪花,星型
拉链表
三个sql:连续登录,互相关注,最大直播间人数(全秒了)
无奈啊,面试官说你这离线这边很扎实,但知乎的数仓只用实时,主要做实时推荐。寄!