40min 面试体验感超好,德子好感+1 Spark sql了解吗?Dateframe 是啥(不会) 项目里数据怎么拉的? Flume+kafka+flume+hdfs 有什么过滤器吗?:3个flume拦截器 判断文件类型+时间戳过滤器+落hdfs小文件检测 数据量:千万 flume拉取时间是多少?(不会,瞎编的10分钟有兄弟了解吗) Spark小文件怎么处理 Kafka 的整体结构:broke+
二面就问了20min不到,吓死我了,不过已经发offer啦,分享下二面问的一些题目。 还是挖简历。 数仓建模核心 拉链表、快照表、全量表的区别 好像就这些~
1. 简历深挖 2. mysql binlog了解吗 3. shell脚本写过吗 4. 两个集群,一张hive表如何进行数据共享,A集群如何同步到B集群中 5. 一张订单表,支付状态会发生变化,如何采集到ods? 面试官说由于每张mysql表都是在系统上有应用的,所以应该用update的方式更新支付状态,不能采用数仓的方式去思考问题,不能用拉链表。数仓可以保存历史数据,但是mysql表必须要用up
一面 实习介绍 mr过程 mr和spark的区别 spark shuffle 举例说明事实表和维度表的设计 拉链表设计 3道sql题 row_number rank dense_rank区别 二面 实习介绍 怎么设计数据指标 集群故障怎么排查解决的 自动化运维脚本怎么写的 实习的收获 项目介绍 讲一张你最熟悉的维度表,怎么设计的,说说都有哪些字段 拉链表优缺点 你觉得实际拉链表用的多吗 用的不多为
年前面试的 流程是机考,测评,再面试 (数仓)一面 聊得还行,不知道怎么挂了。。。可能是Spark这一块了解得太少了 自我介绍 你做的项目数据采集用的什么工具和原理? 有没有做过数据治理? 有没有做过数据血缘关系管理? 数据突增问题有没有遇到过?影响HDFS,如何解决? Hive表格存储用的哪个?什么原理? 数据某个阶段出现问题了,你怎么样定位出来? 数据倾斜有没有遇到过?怎么处理的? 数据之间的
视频ms 前三分钟 自我介绍 数据仓库的了解 怎样设计数据分层 了解的大数据组件 spark用于解决什么问题 spark底层逻辑 sql的join实现方式 举例A(3) join B (5) 有几条数据 join底层逻辑 sql题 查询用户峰值 全程不到30分钟 **我就是一个小菜鸡。问就是面试凉凉 问的其实感觉没有特别难 但就是啥都不会。还是学的太过浅层次。总的来说 项目拷打 底层深挖。G
#秋招# JAVA: 1.java面对对象的特征 2.Java中基本类型有哪些 3.==和equals的区别 4.为什么重写equals要重写hashcode 5.List,map,set什么区别 6.Try,catch,finally 分别作用是什么 大数据: 7.hdfs的读流程 8.项目里用到的 hive on spark 和 普通的hive有什么区别 9.数据倾斜的优化,如果group b
一面:boss直聘,拷打项目,无八股。面试官简单介绍了项目的情况,反问。 二面:电话面,面试官一眼看出项目是网上的,我狂妄发言:“我是有自己的思考的”,然后被拷打,最后只憋出来了一条。 根据我之前的回答,面试官问了 1)数仓,业务系统,大数据平台的关系 根据jd,问了 2)py如何连接数据库,数据库游标、连接不释放会怎么样 3)hive分桶表,如何分桶,如何确定分桶的数量,分桶有什么用 4)怎么处
一面 1.自我介绍 2.实习经历介绍,负责的项目模块,有多少张表,为什么要做这些表,涉及哪些方面的建设 3.对业务的了解,是你和需求方直接对接吗,参与过砍需求的过程吗 4.模型设计到最后交付的数据开发全流程,有没有中途变更过需求,最终有多少个指标和维度 5.你怎么把这么多维度放到一张表里面呢,oltp引擎怎么样使用的 6.指标都是可以累加的吗,有没有想过把可加的和不可加的指标分别放到不同的表中 7
问项目 根据项目问了一个sql如何写 聊七聊八 20min 挂了
1.自我介绍,城市相关 2.你对于大数据哪一块比较了解,展开讲讲 3.结合项目讲数仓建模理论 4.数仓分层的理解和好处,每一层的作用 5.app层如果下面有多个看板,他们有多个指标是重复的,你怎么设计app层才能保证数据查询起来容易又包装数据的一致性呢 6.指标体系的了解 7.原子指标派生指标衍生指标 8.日活留存率怎么算,要得到连续十五天相对于第一天的的留存率,如何优化 9.spark学到什么程
今天面了字节大数据开发的三面,记录一下: 面试官先自我介绍,然后开始问专业知识。 1.你了解实时领域和离线领域的哪些技术? 2.mapreduce和spark作为计算引擎的差异 3.spark的rdd是什么 4.如何理解rdd中弹性的概念 5.spark有哪些调优方法 6.spark中的join操作有哪些 7.数仓建模方法有哪些 7.介绍一下flink的双流join,以及双流join可能会遇到哪些
2024/9/12 16:40 40min - 自我介绍 - 我看你本科不是计算机的,你学过一些专业课程吗? - 你是投的大数据开发吗?还是调过来的? - 开源项目介绍 - 剩下三个项目介绍 - 你的项目Redis是单机的还是集群 - Redis 槽了解过吗 - 对Spring Boot有了解吗? - Redis中基本数据结构 - 如果一个Hash存的对象非常大,会导致什么后果? - 接口可以继承
1.自我介绍 2.项目内容:背景,uv,pv,功能,项目人数,分工 3.数仓的设计思路 4.分层数仓和使用普通数仓的区别 5.为什么ods不直接对接app层,有没有考虑过增加一层数据集市层 6.项目用了哪些技术栈 7.hdfs如何保证高可用 8.hdfs写入数据流程,写入过程中datanode挂了怎么办 9.小文件原因,危害,解决方法 10.数据倾斜介绍,数据倾斜如何排查 11.spark的两种s
介绍开源项目 介绍离线数仓 可视化用的什么框架 spark的submit的参数 了解和做过数据清洗吗 数据怎么清洗 数据倾斜的优化思路 了解scala吗 给场景进行去重 和 选最近一条数据 两道代码 两数之和 数组的小和 1个小时 有些忘了