1、聊一下熟悉的数据库,关系型,非关系型都说一下?
2、介绍一下clickhouse,为什么用它?
3、说一下简历上项目,数仓的分层架构,每一层的作用?
4、入库做数据清洗吗?还是后续在数仓中过滤?说一下实际的做法
5、数据同步是怎么做的?你在项目中的角色?(说了kafka)
6、你这个是离线的数仓吗?你觉得什么需要做数仓?
7、为什么用flinkcdc?
8、spark了解吗?说几个常用的算子?
9、spark和hive的区别?
10、你对实时数据有什么想法吗?为什么用实时?
(答:和业务相关,数据有时效性,数据价值)
(面试官:你说的这个时效性我不是很认同,前一段时间的数据也是有价值的,价值不能只用时间来评估)
(我:冒汗了)
11、如果业务需要前一段时间数据怎么办呢?(答:flink可以用窗口机制和水位线控制,做一下延迟,胡言乱语ing)
12、你一般怎么学习新技术?(官方文档。。。)
1、hive sql 熟悉吗?先投屏写了几道sql题,措手不及。
(1)一行转多行(我居然忘了explode函数,大脑空白)
(2)简单的一个多表关联和分组
(3)三角形取最长的边
(4)窗口函数做top排序,几个排序有什么区别?
2、了解lateral view用法吗?
3、修改表结构用什么关键字?
4、spark了解吗?说一下rdd的特性?
5、spark计算为什么块?
6、spark如何构建rdd?
7、dataframe和dataset的区别是什么?
8、之前的工作有什么指标计算体系吗,概念性的也可以说?
9、指标下钻和上卷知道什么意思吗?
10、数据倾斜问题怎么定位?怎么处理?详细说一下
11、了解shuffle这个概念吗?出现在MapReduce的什么时候?
12、mysql快查询和慢查询了解吗?
13、distinct和group by去除的区别?
14、拉链表之前做过吗?怎么维护的?
15、fine bi用过吗?做过大屏吗?
16、为什么项目最后指标落在clickhouse里面?
17、什么编程语言比较熟?会scala吗,简单介绍一下?
19、linux指令熟悉吗?
20、接触过shell脚本吗?
1、一面反馈:本身的业务敏感性差一些,其他基本符合初级开发的要求。二面反馈:等通知,无情闭麦。
2、开始还不清楚甲方是谁,就接了面试,电脑不在手边,面试官共享屏幕让我做题,我说一句对面敲一句,压力拉满,面试官同一个问题基本都会追问,感觉不着急,不过很少问项目。
3、二面表现自我感觉不好,但是大概三周后,回复通过。hr面,是否结婚?工作地确认?未来发展?加班接受?
4、邮箱收到机试链接,进行机试(hr给题库),同时进行背调,又是一周后谈薪资,发offer
#面试##面经##大数据开发#