自我介绍,科研项目介绍(项目相关问题提问)
1) 内部表和外部表的区别?
2) 窗口函数?
3) 知不知道比HDFS活跃度更高的产品?
4) Zookeeper常用得场景和用法?RATF协议了解吗?
5) CAP原理?一致性的概念?
6) Hadoop如何保证一致性?
7) Hadoop生态圈和MySQL等分布式数据库的区别?
8) Hive支不支持更新数据 ?
9) 拉链表的概念?拉链表是如何更新数据?
10)最新的Hive支持更新数据了,为何这么设计?
11)Spark3.0中如何解决数据倾斜?
12) Azkaban使用流程?其他类似的产品?
13) Kmeans 场景题:分布式环境中如何更好的使用kmeans算法计算k值
15)手撕代码:
1) mxn的方格机器人路径统计
i) 动态规划算法的具体公式
ii) 用数学方法如何解决
2)A表有a行,B表有b行,A left join B ,最坏情况下join后最多有多少行数据?