年前面试的
流程是机考,测评,再面试
(数仓)一面
聊得还行,不知道怎么挂了。。。可能是Spark这一块了解得太少了
自我介绍
你做的项目数据采集用的什么工具和原理?
有没有做过数据治理?
有没有做过数据血缘关系管理?
数据突增问题有没有遇到过?影响HDFS,如何解决?
Hive表格存储用的哪个?什么原理?
数据某个阶段出现问题了,你怎么样定位出来?
数据倾斜有没有遇到过?怎么处理的?
数据之间的关系怎么设计的?
大数据安全管理???
MR和spark的区别?
元数据管理是什么样的?
元数据生命周期管理?
别的团队开发的东西影响你的数据处理过程,怎么样发现和处理?
你的项目中数据分层是怎样的?
RDD概念?
实时的工具有没有用过?Spark、Sparkstreaming有没有用过?Flink有没有用过?