一面 项目深挖 数仓分几层,每一层的作用 事实表如何设计 维度表如何设计 数据域如何划分 业务总线矩阵的概念 如何设计完整的指标 开发中和上线后数据质量如何保证 如何设计调度,依据是什么 hive数据倾斜解决办法 hivesql常见优化手段 什么是spark宽窄依赖,起到什么作用 sql题:用户连续登录游戏的最大天数,允许间隔一天 反问 做什么业务 教培业务中的线下面授分析 网络问题迟到了一会,面
自我介绍下吧 你这个中台有压测过吗 你写的高并发海量数据存储有哪些体现 分库分表怎么分的 有没有遇到过数据倾斜,已经上线的项目发现分片数据有倾斜怎么解决 讲讲这个项目有哪些技术亮点 布隆过滤器误判对系统不会有影响吗 Apache开源贡献做了什么 再讲一下这个通过删除缓存策略保证数据一致性 其他保证数据一致性的方法有了解过吗 介绍mysql的binlog 介绍其他的日志,redo log undo
1.自我介绍 2.对公司有没有了解 3.inner join的底层实现,有哪些算法 4.两个数组,数组的大小都在数千万级以上,但是值域是在一千万以内,找到两个数组相同的元素(说了bitmap) 换了部门负责人来面试 5.有了解过数仓整体的架构吗(面试官说现在是存算分离,实时和离线一体) 6.有写过UDF吗,当时的场景是什么样的 7.假设现在用的是yarn,pyspark从提交文件到让代码分布到各个
#软件开发2024笔面经# 数据开发面试经历 上海的亿沓科技 Kafka数据重复怎么办? zookeeper了解吗? flume架构 展开说说flume的channel? Kafka架构说说? sql底层原理了解吗? Kafka丢数据咋办? 可以说下Kafka的分配分区策略吗? 讲下数仓项目的全流程 为什么做这个数仓项目?有什么用? hdfs小文件怎么处理? python会吗? 反问 感觉问的还是
#软件开发2024笔面经# 阿里云数据开发岗位面试公司名称:阿里云 面试岗位:大数据开发 整个是大数据开发,我以为是数仓开发,结果问的全是Spark问题,被搞自闭了。1,自我介绍 2,park中RDD的Task数量由什么决定?3,Spark怎么实现算子中的变量共享?4,Spark共享变量的使用条件? 5,可序列化?连接池实例是在算子内还是在算子外? 我一开始没想好,先回答了连接池的作业:是为了连接
#软件开发2024笔面经# mapreduce运行流程 spark hadoop区别 mpp数据库怎么理解 优势是啥,你用过哪些mpp数据库 pb级别数据怎么处理 你是否使用过cube 项目中你们用的什么模型,星型还是雪花 还是其他 讲讲这几种模型的区别和优势 为什么数据仓库不推荐使用三范式,你们用的范式建模还是维度建模 你还有切莫想问的吗? 你之后怎么规划路线的? 有没有想好以后重点往那方面发展
一面——60mins 自我介绍 拉链表的制作,数据量有多少,为什么不用快照表呢 项目有哪些表 数仓分层有哪些,具体做了什么,数仓分层作用 怎么设计表,怎么建模,DIM DWD层的主题分了哪些 如何做的可视化 什么是数据倾斜,数据倾斜的解决方案 Hadoop和spark的区别 Spark的shuffle流程是怎么样的 对哪些数据库了解 Shuffle有哪几种类型 在shuffle的过程中会进行排序吗
投数科打死没有面试 刚刚改成产品了,半小时发面试,阿巴阿巴 #春招##数据分析师#
自我介绍 成绩 聚簇索引和非聚簇索引 b+树说一下,是不是平衡树,怎么实现平衡的 什么是事务,事务的特性 回表 读写锁 mvcc undolog,redolog 创建线程的方式 java中多线程并发怎么处理 问项目经历,一个图像识别的毕业设计,一个web项目,有什么突出的 mybatis怎么实现数据库映射的,怎么配置 自己的优缺点 说7天出结果
贝壳数开实习4.21 再不记录就忘了。 一面 40min+ 项目难点,怎么解决的。数据仓库的定义,分层的好处,维度建模。数据倾斜概念,解决方法。MapReduce过程。一道很简单的sql题。 做数据开发需要具备的能力。 问的八股挺少的,有很多聊天。 二面 40min+ 疯狂拷打Java知识。怎么判断哪些需要回收,内存回收机制。kafka页缓存,怎么实现的,零拷贝怎么实现的,底层,为什么kafka能
面阿里云云计算工程师,阿里云面试官问我意向,脑子一抽说对你们的业务兴趣不是很高,是不寄了。我错了,没有offer还这么嚣张😅
美团数开暑期实习二面 4.24 45分钟左右。 主要问项目和一些零散的八股,意外地没有编程题。 项目:分层意义。卡住最长时间的一个问题,怎么解决的。ADS层指标举例,这个指标是怎么定义的,具体怎么实现的。Maxwell 增量同步的话,中间状态怎么处理的。为什么用HIVE,不直接在MySQL中进行分层处理,这样还不需要采集,答的不是很清楚,就说了个在hive的话可以并行处理。项目虽然很烂大街,但还是
一志愿后端挂 二志愿数开被捞,主要业务是做一个卖药的平台。许愿oc 4.19 一面 4.22 二面 一面: 面试官人很好,一上来说缓减我的紧张,先从我的校园经历开始聊起,然后聊了聊实验室的科研项目和我的java项目。 之后就是java八股环节。能看的出来面试官他们不用java,一边问我java八股,一边看旁边的答案。 问了些 MVCC,GC,hashmap原理。基本都是我说完面试官就说嗯,好,下一
#软件开发2024笔面经# 2024字节跳动面试 数据岗位 1.模型开发的流程,需求调研过程中有哪些人员参加,调研过程,你会输出什么文档? 2.如何保障数据质量(准确性)? 3.spark有什么优缺点?在使用过程如何规避缺点? 4.spark内存模型? 5.spark和MR为什么会进行shuffle,如何减少shuffle? 6.小文件治理的方式? 7.主题域建设的流程? 8.大表join大表的优
实习生岗位,没有转正机会,本牛没有实习经历 1.自我介绍 2.介绍自己一个与数据分析相关的项目(介绍了期末project) 3.学习中掌握的数据分析技能有哪些(答了sql和python) 4.介绍一个学习中的困难以及是怎么克服的(很笼统地说了些学习中遇到的困难),面试官不满意,一定要我具体介绍某一个困境或者很suffer的经历 5.反问:该岗位还需要哪些能力,面试官答曰需要一双发现的眼睛,会探索的