1.上来就是三个题
(1)sql:给出一个学生信息表,求出每个班级人数占全年级人数的比例;
(2)hive sql:A表10亿条数据,B表10万条数据,都含有 uid 和 name 两个字段
1)求出A表与B表uid的差(A表中有,B表中没有);
2)求出B表中的所有uid。
(3)有list1= [2, 4 , 7], list2 = [3, 6, 9],都是升序排列,将其合并成一个新的升序链表。
2.了解MapReduce吗?用来干什么的?你写的hive sql里会用到么?分析一下
3.说一下你的实习工作主要做什么?
4.实习工作中你觉得最大的挑战是什么?
5.说一下你简历中那个Hudi的项目。
6.你说是解决了HDFS小文件合并的问题,为什么会有小文件合并的问题?
7.MOR表和COW表的区别的底层原理有了解过吗?
总用时:50min
总结:面试题目不难,问的也很基础,奈何自己太菜了,代码写的不流畅,项目说的也磕磕绊绊,原理没说清楚,凉凉!
#腾讯云智##暑期实习##大数据开发#