1、自我介绍
2、hive和pyspark是学校有课程还是说自学的
3、本科或研究生期间有学过编程相关的课程吗
4、研究生学的些什么课程
5、你的项目都是自己去做的吗
6、你之前有实习过吗
7、四个SQL题
8、数据开发相关的大数据技术了解哪些
9、介绍一下MR的执行过程
10、hive的四大排序区别
11、UDF、UDTF、UDAF的区别
12、三大排序窗口函数的区别
13、lead、lag、first_value、last_value的区别
14、数据仓库了解吗,主要是用来干什么
15、数据仓库的分层
16、分层的好处
17、实习可以从什么时候开始,实习多长时间,每周几天
18、主要是用python编程是吧
19、count(distinct uid)数据量大的情况下distinct无法统计出来怎么解决
反问
1、自我介绍
2、你是去年读的研究生是吧,中南大学在哪里,重庆大学你是考的吗
3、测绘工程学了哪些课程
4、研究生为什么读应用统计学,自己怎么想的
5、为什么不读计算机,软件工程类的专业
6、做的项目背景是啥
7、讲一讲怎么做的项目(不用说具体,就说这件事情的目标是什么)
8、深挖项目,一边答一边问
9、讲讲你学过哪些计算机相关的课程
10、数据库学了没,数据库原理
11、学了哪些数据结构,现在还记得哪些数据结构
12、讲讲二叉树
13、你的意思是二叉树适合查找,那程序中什么样的场景适合二叉树
14、链表了解吗
15、链表设计的好处和不足
16、数据库就学了SQL是吧,三范式了解吗
17、数据库设计的原理知道吗,数据库设计大概有哪几个阶段
(面试官说他觉得首先要理解数据库才能更好的理解数据仓库)
18、你不是还学过一些算法吗,你现在还记得哪些排序算法
19、说一下冒泡排序和快速排序
20、另一个项目的背景,为什么要做这个项目
21、你在那里去做的这个项目
22、开始深挖这个项目
23、写一个sql,每个类型下电影评分的中位数(只需要求中位数的操作就行)
24、你现在了解的大数据技术有哪些
25、介绍一下group by max在hive的实现原理(从mr介绍一下过程),map阶段在干什么事情,
26、shuffle是在干什么,shuffle阶段影响性能的主要是什么,核心开销是什么
27、hivesql练过吗,在自己电脑上搭建环境执行sql看过执行计划和日志吗
28、spark比hive好在哪里
29、你觉得学一门新的技术,比较好的学习途径是怎么样子
30、你觉得数据岗对技术栈的要求有哪些,你自己去了解过吗
31、那你目前缺哪些
32、目前有什么计划吗
33、为什么要把kafka和clickhouse放在一起学,他们是什么关系
34、kafka一般是来做些什么的
35、你要学的这么多,你时间上怎么安排(例如多久把一个技术栈攻克掉)
36、看你实习时间可以六个月,你来了的话,六个月有什么计划和目标吗
37、这六个月你希望自己得到哪些提升,或者六个月之后,在别人看来,你想成为一个怎么样的自己
38、你觉得自己的核心的优势在哪,不足呢
39、学校里面计算机等级考试考了吗、英语考了级没
反问
还未总结
主要谈部门工作时间,薪资,到岗时间,是否百分百来