一面 数据同步怎么做的 事实表、维度表怎么设计 数据完整性、唯一性怎么保证 数据怎么分区,如果增量同步,需要历史数据合并分区慢怎么解决 数仓如何进行组件选型,理由 数仓建设过程中有哪些难点 atlas如何获取数据血缘 拉链表怎么设计 你觉得拉链表常用吗,为什么不用 那你为什么要设计拉链表 sql题 分组topn row_number rank dense_rank区别 看两个sql,差异在哪,哪个
一面:2023.2.7 30min 自我介绍 为什么要换实习 了不了解数仓知识 sql题,各城市观看量前10的用户,能不能保证每次刷数的结果一致 sql题,连续登陆 数据倾斜啥情况,怎么解决 了解即时查询组件吗?CK ES Durid之类? hive2ck有啥要注意的 反问 二面:2023.2.8 40min 自我介绍 为啥要换实习 之前实习有没有什么遇到难点,怎么解决的 你觉得什么样的数仓是好数
11.3 一面 1.自我介绍 2.实习时间 3.实习内容 4.学习中遇到的难题 5.最大的收获 6.实习中发现的问题,如何发现问题,解决的效果 7.Union和union all 的区别 8.索引介绍? 9.表经常被修改对索引具体有什么影响 10.公司业务部门规模 11.实习中做需求的速度 12.实习中遇到的问题 13.遇到不好沟通的人怎么办 14.上面派你监督你不负责的任务的做法 15.六级分数
1.介绍滴滴实习经历 2.深挖实习负责的sql优化项目,从方案到数据处理到引入新技术到最后结果评测 八股吟唱 JAVA mysql 1.对着实习经历问的,对mysql索引的了解 2.索引失效的常见场景 jvm 1.垃圾回收器 java基础 1.hashmap和currenthashmap 2.hashmap扩容 3.equals和hashcode 4.hashmap的key只重写了euquals不
30min 自我介绍 项目介绍 项目难点介绍 hadoop组件有哪些 hdfs简单介绍 hdfs怎么实现高可用,具体 是哪个进程在zk上注册临时节点 hdfs怎么防止脑裂 hdfs写流程,写到一半client发生OOM之后该怎么办,datanode宕机怎么办 怎么实现nn切换,而客户端无感的 Spark提交作业的流程 Executor内存管理,分别存储什么 spark shuffle有哪些,讲一下
35min 1面 自我介绍 排序算法知道哪些 稳定的排序算法有哪几种 mr和spark的区别 bitmap解释一下 bitmap用途有哪些 布隆过滤器的原理 一道dp题,口述思路没想出来。。。 三道业务场景题 30min hr面 常规hr面 vivo流程真快,爱了,九月底开奖 #大数据开发##大数据开发工程师#
一面 1、自我介绍 2、先问实习内容,实习涉及了实时数仓,细问了一些点 3、再问项目内容,做的是离线数仓 4、离线数仓的数据源有哪些?是怎么收集这些数据的? 5、离线数仓是怎么分层的?分层依据是什么? 6、JVM的内存模型介绍一下 7、说一下你知道的垃圾回收算法 8、MySQL的存储引擎有哪些? 9、做过哪些HiveSQL优化?或者说你了解哪些优化措施? 10、怎么解决数据倾斜问题? 11、有接触
#互联网公司爆料# 这个公司我是参加的校招,当时面试我的估计是一个组长,问了大数据SQL,以及spark,对于SQL我轻松秒杀,spark当时也学习了没啥压力,面了20分钟直接通过后面是一个技术负责人面我,问了一下hive,MapReduce,Java集合,也是直接通过,感觉技术不难,最后HRBP直接来面我,也是直接过,后面就是直接发offer,薪资真的不高,就11k,13薪吧,我感觉不高直接拒绝
一面 50分钟 自我介绍 http协议是哪一层的协议,讲一下对http的了解 tcp协议和udp协议是哪一层的协议,讲一下他们之间的区别,以及他们各自的应用场景 你知道get和post请求吗,讲一下他们之间的区别 当我们输入美团网址的时候,这个从输入到显示页面的过程 你了解操作系统吗,linux了解吧,你说一下你用过的命令 当我们要查看文件的具体属性用什么命令 讲一下静态链表和动态链表的区别 数据
一面 电话面 40分钟 自我介绍 介绍实时数仓的项目 你这里用到了clickhouse,clickhouse的写入和读取为什么快 flink有哪些算子 flink的窗口函数了解吗 flink的精准一次性如何保证的 kafka是如何保证数据不丢失和不重复的,从生产者和消费者考虑 hbase用过吗,rowkey的设计原则是什么 如何解决热点现象 redis的数据结构了解吗 java的spring会吗
Spark 出问题如何排查 Spark 分区和hdfs block的关系 10000个小文件场景,spark是调整内存配置参数还是调整并行度参数 Spark sql 底层原理 Spark sql如何优化 Hbase region的分裂 #美团#
9.11 一面 1.自我介绍 2.介绍实习内容 3.对数仓分层的了解 4.对ab实验的理解 5.对实时了解吗 6.logistic回归的损失函数 7.口述sql:简单窗口 8.反问 9.19约线下,调整成线上 9.26 二面 两个面试官 面试官1: 1.自我介绍 2.更想做数开的工作还是数科的工作 3.解释spark中的水印 4.对实时数仓的了解 5.spark数据倾斜怎么处理 6.设计一个bi产
一面 spark数据倾斜 实习相关 二面 Sql 找出最长连续子序列(row_number) 算法 二叉树层序遍历 mapreduce运行过程 spark.shuffle.partitions的调参原理 Spark小文件参数 怎么确定reduce的数量 bucket join优化的原理 怎么快速根据spark stage找到对应的代码 主题域划分 事实表怎么建模 数仓建模过程 事务的特性 进程和线
1.自我介绍 2,实习内容 如何实现数据同步 数据同步过程中遇到的问题有哪些 数据同步过后有没有进行验证 你自己设计数据同步系统要注意哪些问题 3,mybatis 与mybatis -plus 的不同之处 4,mysql 怎么优化 对mysql 的看法 5,手撕删除链表的第n个节点 6,jvm了解吗 7,springboot 有看过源码吗 8,动态代理了解吗 感觉不太妙 像是kpi面一样 竟然没有
等的心慌,写面经攒人品 9.15一面(25分钟,纯八股) 问实习的项目 研究生科研项目 疯狂hive,hive调优 一直问联邦学习,问了两遍 等了很久很久才二面,中间还收到了安抚短信。 ———————————————————————————— 9.26二面(30分钟,纯八股) hdfs读写流程 spark算子 spark调优 数据倾斜 对荣耀有什么想了解的(了解到我面试的部门是产品线云服务) 这个