45min
- 自我介绍
- 数仓项目的数据采集模块怎么做的
- flume组成,各个模块的功能
- 为什么要使用这些source或者是sink
- file channel和memory channel有什么区别,分别在什么场景使用
- flume内部原理
- sink消费能力弱,channel会不会丢失数据
- 数千台机器需要采集日志小文件到hdfs上,该怎么办?
- 数千个flume要怎么统一配置,修改就分发吗?
- maxwell做增量同步,采集的是什么数据?
- mysql中binlog文件存储的是什么?展开细节讲一讲
- datax的内部结构是什么样的?
- 为什么不能用datax代替flume?
- 为什么用到kafka?
- java多线程讲一下
- 多线程同步讲一下
- 线程池最小,核心,最大线程数为什么要这样设置?
- scala和java的函数式编程的区别?
- 项目问题排查应该怎么做?
- 最近项目中遇到了什么样的难点吗?
- 最近学习到了什么样的新技术?展开讲讲
面试官评价说,对组件的理解还比较表面,没有想到尝试去开发组件,需要加强业务能力。
感觉很凉
#科大讯飞##大数据开发#