2023年4月,大数据开发面试笔记V3.0发布,过去已经两个月,V4.0终于来了,这次主要新增了企业级调优手法以及数据湖基础等内容。如今面试越来越难,常常会被问到大数据的前沿知识比如数据湖,以及企业级调优手段有哪些等,于是我结合自己在大厂的工作经历进行了补充,最终汇聚成一份全面的大数据开发面试笔记。
此笔记包含大数据开发、Java、计算机基础、数仓理论、常考SQL、大数据开发场景题、大厂面经合集、大厂SQL真题、企业级调优手法、数据湖基础等十大模块,并且所有内容会持续更新。
1.HDFS的架构
2.HDFS的读写流程
3.HDFS中,文件为什么以block块的方式存储
......
1. 简述MapReduce整个流程
2. 手写wordcount
3. join原理
......
1. 简述yarn 集群的架构
2. yarn 的任务提交流程是怎样的
3. yarn的资源调度的三种模型
......
1. 简述leader选举机制
2. 简述什么是CAP理论,zookeeper满足CAP的哪两个
3. zookeeper集群的节点数为什么建议奇数台
......
1. 简述flume基础架构
2. 请说一下你提到的几种source的不同点
3. 简述flume的事务机制
......
1. 为什么要使用kafka
2. 简述kafka的架构
3. 命令行操作
......
1. 简述HBase的数据模型
2. HBase和hive的区别
3. HBase的基本架构
......
1. 简述hive
2. 简述hive读写文件机制
3. hive和传统数据库之间的区别
......
1. 简述hadoop 和 spark 的不同点(为什么spark更快)
2. 谈谈你对RDD的理解
3. 简述spark的shuffle过程
......
1. 简单介绍一下Flink
2. Flink和SparkStreaming区别
3. Flink的重启策略你了解吗
......
1. JDK、JRE、JVM三者区别和联系
2. 基本数据类型和引用数据类型的区别
3. 8种基本数据类型、字节大小
......
1. java运行时一个类是什么时候加载的
2. JVM一个类的加载过程
3. 继承时父子类的初始化顺序是怎样的
......
1. java实现多线程有几种方式
2. 线程池相关内容
3. 线程有哪几种状态
......
1. OSI七层模型
2. TCP连接管理
3. TCP连接建立为什么需要三次握手
......
1. 什么是操作系统
2. 什么是系统调用
3. 进程和线程的区别
......
1. 索引是什么
2. mysql中索引的分类有哪些
3. B+树和B树的区别
......
1. 链表和数组的区别
2. 静态链表和动态链表的区别
3. 栈和队列的区别
......
1.数据仓库是什么
2.数据仓库和数据库有什么区别
3.为什么要对数据仓库分层
......
1.连续问题
2.分组问题
3.间隔连续问题
......
......
美团、蚂蚁、阿里、字节跳动、百度、滴滴、网易、快手、微众、京东、携程
共计100+篇面经
1.job执行三原则
2.shuffle调优
3.yarn调优
.......
1.小文件问题
2.JVM重用
3.count(distinct col)问题
......
1.JVM调优
2.shuffle调优
3.数据倾斜
......
1.你觉得数据仓库有哪些优点和缺点
2.数据湖是什么
3.聊聊数据湖和数仓之间的区别
......
ps:前文列出了大数据开发面试笔记十大模块对应的部分面试题,后续会更新所有的面试题~~~
#数据人的面试交流地##大数据开发面经##大数据开发##面试题刺客退退退##秋招#