一、spark如何划分job,stage,task 遇到一个action算子开启一个job stage是遇到一个action开始,从后往前以shuffle为边界划分 stage划分成多个task,一个分区对应一个task 二、sql题:一个用户点击记录表t,有三个字段user_id,item_id,category_id 统计每个用户的每个商品类别的点击总量排名中,top3的商品 类别 selec
1、自我介绍(说完之后面试官沉默十秒) 2、介绍项目(介绍完项目之后,面试官沉默了半分钟),针对项目问了几个问题(每个问题之间各有十秒到几十秒不等的沉默) 3、简单介绍下hadoop和spark(答完之后面试官沉默了十几秒) 4、熟悉哪些主流数据库(答了mysql和SQL server)(答完之后面试官沉默了十几秒) 5、mysql有哪些引擎(答完之后面试官沉默了十几秒) 6、innodb的索引基
1.自我介绍 2.MR了解吗 3.MR map任务个数怎么确定的 4.Spark job task等怎么划分的 5.数据倾斜问题 解决方案 6.导致出现问题可能有哪些方面?数据倾斜 oom 小文件问题 7.数仓概念 分层相关 8.事实表和维度表 9.维度和维度属性 10.数仓建模相关 11.实际开发中,是选择维度多一些提高复用性还是少一些再拓展? 12.维度的界限你觉得怎么设置比较合理? 13.平
Spark 出问题如何排查 Spark 分区和hdfs block的关系 10000个小文件场景,spark是调整内存配置参数还是调整并行度参数 Spark sql 底层原理 Spark sql如何优化 Hbase region的分裂 #美团#
#24暑期实习# #如何判断面试是否凉了# #我的实习求职记录# 又凉凉啦新鲜出炉的凉经,攒攒人品,啥时候才能找到实习哇… 1、介绍部门工作 2、自我介绍 3、项目介绍 4、朴素贝叶斯原理 5、过采样解决方法 6、梯度爆炸和梯度消失的解决方法 7、卷积原理 8、了不了解图像识别算法 9、chatgpt原理 10、两道算法题 11、反问
一面: 感觉一上来就是主管面,主业务面,考验业务能力和沟通能力 介绍下专业的课程,说说最喜欢哪一门,为什么 直接问实习经历 实习中的项目,扣细节(大部分时间都在问这个) 在同程做了什么业务 广告业务数仓负责哪些东西 广告投放的指标,如曝光、转化等等 广告有哪些类型 聊聊广告投放流程,投前、投中、投后 投中的过程每一轮具体的事情 对比hive和spark 为什么业界都用spark不用mr了 聊聊fl
电话技术面,业务部门直接打电话,看到很少有牛友发这个岗位所以记录一下。 大概十五分钟左右,也可能是我答的不好所以问题比较少。 1.自我介绍 2.hadoop生态 3.hdfs读写 4.spark运行机制 5.hive内外表区别 6.常用编程语言 7.反问 面试官人很好的,我最先开始没接到电话,给我打了好几次,不太清楚的问题也没有过多为难。不过太久不面好多都忘记了,答的并不全面估计凉了。
4.20一面 纯实习经历问题,不过也能提炼一些泛用性高的问题 1.商业分析经历中的项目框架是怎么做的,分析思路是怎么来的,最后的产出形式是什么 2.再给你一次机会会如何改进这个框架 3.运营实习中对数据链路的监控优化过程里讲一个案例 4.21二面 纯业务问题 1.之前的实习经历学到的最重要的是什么 2.构建短视频app的核心指标体系,你会选什么指标 3.提到的点赞率这个指标从创作者角度如何解读 4
NSQ 消息队列 生产者发消息是 http请求发的吗 还是TCP? 发消息有两种方式,http请求和通过tcp连接发送。java客户端nsq-j是通过tcp连接发送。curl工具是通过http请求发送。 优化了客户端,提供了故障转移和负载均衡,故障转移和负载均衡 怎么转移? 有重试吗? 在发消息之前 会先获取一个连接 故障转移就是如果当前这个连接不可用 那么使用备用的连接,负载均衡就是 每次获取连
4.21面试 1.自我介绍 2.sql:分组内播放最好视频 没写对,然后面试官还亲切地给我讲题了,仿佛在上课 3.经历深挖 4.抽牌算概率 5.费米:北京有多少个数据分析师 6.又考了个概率问题 总而言之,凉透了。让我算概率的时候脑子直接卡壳…… #数据人的面试交流地#
一面 0314 1h 面试官很Nice 数仓基础知识 如何分层,如何评价一个数仓的好与坏 其余不记得了,问题都较为简单 二面 0317 面试官压迫感比较强,应该是业务线的老大 实习项目说一下,现在打开ppt把你的优化方案画一下 数仓基础知识 如何分层,为什么分层等等 除了起初对于实习的问题问的比较尖锐外,八股没什么好说的 hr面 0321 问了一下基本情况,手头的offer,介不介意来北京等
昨天携程一面,数仓,被吊打了五十分钟。 问题太多了,分科目说说吧。 1.linux。常用高级命令,我说了一堆查看内存、进程啊、磁盘啊,还有cut、awk那些,说让我逐个解释各个参数的意思,比如kill -9加9和不加什么意思,netstat -nlp的nlp啥意思。还让我手写一个shell脚本 2.jvm。gc追着我问,追的很深,不想写具体的了,还有线程里面有什么之类的,还有如何查看gc日志…….
1.Spark的运行机制 2.union是宽依赖还是窄依赖 3.常见的action算子 4.reduceByKey和groupByKey的区别 5.Spark的checkpoint 6.Spark的cache和persist区别 7.Flink的checkpoint和Spark的checkpoint区别 8.Flink的两阶段提交问题 反问 用什么做什么 基本大数据组件都会用,shein数据量大而
一面 0317 40min 介绍了实习的内容 具体的治理项目挑了一个讲 然后面试官说和他们的治理目标不一样,它们当前的痛点是埋点多样化的问题,问你有什么想法? 闲聊 二面 0320 48min 什么时候毕业?什么时候可以开始实习?是不是在上海? 为什么当初选择做大数据? 详细说一下实习经历?负责做什么内容? 当时的下游是什么? 治理的效果如何? 实习的数据平台底层用的什么引擎? 实习中感觉最难的是
没有发笔试,直接约面试了(4.20日),面了50分钟,面试官表示所在的组是中台的数分。 1、自我介绍(1分钟) 2、基础知识提问(5分钟): 假设检验详细介绍,原理,引申到各种检验的区别 辛普森悖论 4、介绍之前的实习项目(深挖20分钟) 挖的很深,有很多引申的提问 因为有实习涉及到AB实验,于是引申AB实验的知识(包括样本量如何选取等等) 涉及对实习公司所在赛道商业模式的介绍 对选取指标方法的拓