115、Spark的任务执行流程 driver和executor,结构式一主多从模式,driver:spark的驱动节点,用于执行spark任务中的main方法,负责实际代码的执行工作;主要负责:将代码逻辑转换为任务、在executor之间调度任务、跟踪executor的执行情况。 Executor:spark的执行节点,是jvm的一个进程,负责在spark作业中运行具体的任务,任务之间相互独立,
投nlp挂,转岗大数据开发 一面 算法题:一个只包含1,2,3的数组,排序使得3在最前,2在中间,1在最后。要求时间复杂度O(n),空间复杂度O(1)。 用双指针,类似快排的思路。 二面 算法题:数组中,第一个非0的数位置索引,时间复杂度O(log n)。 二分查找。 两个面试官都很nice,没有因为岗位不匹配为难。#我的秋招日记#
2022.10.14 10min 感觉自己被kpi了... 三个面试官 一个hr + 两个技术(其中一个全程在工作 没有看过摄像头) 1.自我介绍 2.你用过hadoop 说一下hadoop各组件干嘛用的 3.实时项目处理了多少数据 另一个技术没有问题 HR: 1.工作地点填写的全国怎么考虑的 2.应聘期望薪资 (看offershow给的挺低的,就随便报了个10k) 3.反问 哎 虽然面试很轻松
1.Java的数据结构相关 2.HashMap怎么解决哈希冲突的 3.HashMap和HashSet区别 4.Spark shuffle 5.Maven会用吗,怎么解决版本冲突? 6.实习相关 反问 做什么的?用什么? 偏底层,主要是做Spark和Flink底层的一些东西
10.23 非科班,只学了离线的技术栈,没项目,投了一个月全被拒了。(百度 美团 得物 滴滴 蔚来) 一面二面八股问的简单也都答出来了,但是算法题都是暴力求解,竟然过了,三面感觉八股有点冷门,算法题做出来了结果挂了,究极折磨,有点难受! 数仓分层,什么是主题 Kafka怎么保证数据一致性 Hdfs有哪些数据存储类型,有什么区别 Spark和MapReduce的比较 为什么转行 做过的数据分析案例
我记得我没有投递过这个部门,但是约的面试是数据开发部门。 面试官很好,是我这两周最好的面试官了。 1.自我介绍 2.实习具体工作 3.觉得实习工作有哪些价值 4.自己认为自己有哪些比别人强的优势 5.http/https区别,端口是否可修改 6.get/post区别 7.mysql为什么使用b+树索引 8.秋招目标 反问。 面试官直接告诉我 京东基本没有C++技术栈,90%是java 所以感觉大概
一面 1.自我介绍 2.实习经历介绍,负责的项目模块,有多少张表,为什么要做这些表,涉及哪些方面的建设 3.对业务的了解,是你和需求方直接对接吗,参与过砍需求的过程吗 4.模型设计到最后交付的数据开发全流程,有没有中途变更过需求,最终有多少个指标和维度 5.你怎么把这么多维度放到一张表里面呢,oltp引擎怎么样使用的 6.指标都是可以累加的吗,有没有想过把可加的和不可加的指标分别放到不同的表中 7
问项目 根据项目问了一个sql如何写 聊七聊八 20min 挂了
1.自我介绍 2.项目内容:背景,uv,pv,功能,项目人数,分工 3.数仓的设计思路 4.分层数仓和使用普通数仓的区别 5.为什么ods不直接对接app层,有没有考虑过增加一层数据集市层 6.项目用了哪些技术栈 7.hdfs如何保证高可用 8.hdfs写入数据流程,写入过程中datanode挂了怎么办 9.小文件原因,危害,解决方法 10.数据倾斜介绍,数据倾斜如何排查 11.spark的两种s
介绍开源项目 介绍离线数仓 可视化用的什么框架 spark的submit的参数 了解和做过数据清洗吗 数据怎么清洗 数据倾斜的优化思路 了解scala吗 给场景进行去重 和 选最近一条数据 两道代码 两数之和 数组的小和 1个小时 有些忘了
#软件开发2024笔面经# 2024字节跳动面试 数据岗位 1.模型开发的流程,需求调研过程中有哪些人员参加,调研过程,你会输出什么文档? 2.如何保障数据质量(准确性)? 3.spark有什么优缺点?在使用过程如何规避缺点? 4.spark内存模型? 5.spark和MR为什么会进行shuffle,如何减少shuffle? 6.小文件治理的方式? 7.主题域建设的流程? 8.大表join大表的优
1.自我介绍 2.实习 关注准确性和效率等指标的权衡 3.项目 4.sql全勤员工 两天没消息了忍不住打电话问了,hr接起来电话来第一句“你是浙大同学吧,我们交叉面隔壁部门面试官忙” ????浙大去网易干外包做数开?????我是不能理解
最难绷的一集,感觉KPI面 1.自我介绍 2.介绍项目,你这不就是最普通的广告曝光么,有什么区别,客群标签是你们加工的吗,数据流图是什么,有啥用 3.项目难点,业务上的难点,你这种方法也没解决业务的难点啊(我真难绷,业务对接过程的问题我咋解决,我最多减缓) 4.介绍hive or spark 5.数仓开发的关键点,每一层的作用 6.反问:我终于说出了那句一直想说但不敢说的“我没有什么问题要问”,润
如何将数据导入数仓 ods层数据量有多大 flume如何保证数据的一致性和完整性 数仓分了哪几层 维度建模的模型,为什么使用这个模型 表的数据变化如何进行分区 dws层如何设计,举项目中例子 用到了哪些开窗函数 row number遇到数据一样如何排序 left semi join 和???的区别 orderby和sortby的区别 sparksql和hivesql的区别 arraylist和li
一面 项目相关 说一说第三方登录涉及的设计模式 工厂模式有几种实现? AOP的实现原理 动态代理的使用场景 如何实现前缀树 对应MySQL的慢查询如何排查和优化 Linux如何实时查看日志输出 Docker compose是否使用过 聊天 反问#我的实习日记##我的实习求职记录#