当前位置: 首页 > 面试经验 >

某终端外包——大数据开发(最压力拉满的一集)

优质
小牛编辑
86浏览
2024-03-27

某终端外包——大数据开发(最压力拉满的一集)

面试内容

一面(乙方):

1、聊一下熟悉的数据库,关系型,非关系型都说一下?

2、介绍一下clickhouse,为什么用它?

3、说一下简历上项目,数仓的分层架构,每一层的作用?

4、入库做数据清洗吗?还是后续在数仓中过滤?说一下实际的做法

5、数据同步是怎么做的?你在项目中的角色?(说了kafka)

6、你这个是离线的数仓吗?你觉得什么需要做数仓?

7、为什么用flinkcdc?

8、spark了解吗?说几个常用的算子?

9、spark和hive的区别?

10、你对实时数据有什么想法吗?为什么用实时?

(答:和业务相关,数据有时效性,数据价值)

(面试官:你说的这个时效性我不是很认同,前一段时间的数据也是有价值的,价值不能只用时间来评估)

(我:冒汗了)

11、如果业务需要前一段时间数据怎么办呢?(答:flink可以用窗口机制和水位线控制,做一下延迟,胡言乱语ing)

12、你一般怎么学习新技术?(官方文档。。。)

二面(甲方):

1、hive sql 熟悉吗?先投屏写了几道sql题,措手不及。

(1)一行转多行(我居然忘了explode函数,大脑空白)

(2)简单的一个多表关联和分组

(3)三角形取最长的边

(4)窗口函数做top排序,几个排序有什么区别?

2、了解lateral view用法吗?

3、修改表结构用什么关键字?

4、spark了解吗?说一下rdd的特性?

5、spark计算为什么块?

6、spark如何构建rdd?

7、dataframe和dataset的区别是什么?

8、之前的工作有什么指标计算体系吗,概念性的也可以说?

9、指标下钻和上卷知道什么意思吗?

10、数据倾斜问题怎么定位?怎么处理?详细说一下

11、了解shuffle这个概念吗?出现在MapReduce的什么时候?

12、mysql快查询和慢查询了解吗?

13、distinct和group by去除的区别?

14、拉链表之前做过吗?怎么维护的?

15、fine bi用过吗?做过大屏吗?

16、为什么项目最后指标落在clickhouse里面?

17、什么编程语言比较熟?会scala吗,简单介绍一下?

19、linux指令熟悉吗?

20、接触过shell脚本吗?

面试总结:

1、一面反馈:本身的业务敏感性差一些,其他基本符合初级开发的要求。二面反馈:等通知,无情闭麦。

2、开始还不清楚甲方是谁,就接了面试,电脑不在手边,面试官共享屏幕让我做题,我说一句对面敲一句,压力拉满,面试官同一个问题基本都会追问,感觉不着急,不过很少问项目。

3、二面表现自我感觉不好,但是大概三周后,回复通过。hr面,是否结婚?工作地确认?未来发展?加班接受?

4、邮箱收到机试链接,进行机试(hr给题库),同时进行背调,又是一周后谈薪资,发offer

#面试##面经##大数据开发#
 类似资料: