陆续分享点面经 虽然大部分都被挂了hh 希望能帮到大家 3.15 一面 1.自我介绍 2.题外话 怎么看待数仓和算法的联系 3.项目 4.介绍一下对大数据技术生态的了解 5. 怎么理解spark和hive 6.hive的逻辑架构 7.MR的流程 8.整个MR有几次排序 9.spark的shuffle 10.怎么确定spark分解成多少个task,即spark任务的并行度怎么指定 11.stage的
1.Java的数据结构相关 2.HashMap怎么解决哈希冲突的 3.HashMap和HashSet区别 4.Spark shuffle 5.Maven会用吗,怎么解决版本冲突? 6.实习相关 反问 做什么的?用什么? 偏底层,主要是做Spark和Flink底层的一些东西
常用数据表说明: dede_archives|文档主表 dede_addonarticle|文章附加表 dede_addonimages|图片附加表 dede_addonshop|商品附加表 dede_addonsoft|软件附加表 dede_addonspec|专题附加表 dede_arctype|栏目表 dede_flink|友情链接表 dede_admin|系统管理用户表 dede_flin
10.23 非科班,只学了离线的技术栈,没项目,投了一个月全被拒了。(百度 美团 得物 滴滴 蔚来) 一面二面八股问的简单也都答出来了,但是算法题都是暴力求解,竟然过了,三面感觉八股有点冷门,算法题做出来了结果挂了,究极折磨,有点难受! 数仓分层,什么是主题 Kafka怎么保证数据一致性 Hdfs有哪些数据存储类型,有什么区别 Spark和MapReduce的比较 为什么转行 做过的数据分析案例
1、自我介绍 2、数仓怎么自学的 3、整个项目架构说一下 4、数据域是什么概念(提到了数据类型),那如何界定数据类型呢 5、总线矩阵构建过程 6、dwd层怎么设计的 7、了解业务过程这个概念吗 8、分域的话,在dws表中有没有可能会跨域(举了个互动域和活动域的例子),结果告诉我这样的话你的互动域设计的其实是有问题的(挖坑给我跳,悲) 9、星形模型和雪花模型 10、缓慢变化纬为什么用拉链表,他说他第
一面 实习介绍 mr过程 mr和spark的区别 spark shuffle 举例说明事实表和维度表的设计 拉链表设计 3道sql题 row_number rank dense_rank区别 二面 实习介绍 怎么设计数据指标 集群故障怎么排查解决的 自动化运维脚本怎么写的 实习的收获 项目介绍 讲一张你最熟悉的维度表,怎么设计的,说说都有哪些字段 拉链表优缺点 你觉得实际拉链表用的多吗 用的不多为
一面 1.自我介绍 2.实习经历介绍,负责的项目模块,有多少张表,为什么要做这些表,涉及哪些方面的建设 3.对业务的了解,是你和需求方直接对接吗,参与过砍需求的过程吗 4.模型设计到最后交付的数据开发全流程,有没有中途变更过需求,最终有多少个指标和维度 5.你怎么把这么多维度放到一张表里面呢,oltp引擎怎么样使用的 6.指标都是可以累加的吗,有没有想过把可加的和不可加的指标分别放到不同的表中 7
问项目 根据项目问了一个sql如何写 聊七聊八 20min 挂了
1.自我介绍 2.项目内容:背景,uv,pv,功能,项目人数,分工 3.数仓的设计思路 4.分层数仓和使用普通数仓的区别 5.为什么ods不直接对接app层,有没有考虑过增加一层数据集市层 6.项目用了哪些技术栈 7.hdfs如何保证高可用 8.hdfs写入数据流程,写入过程中datanode挂了怎么办 9.小文件原因,危害,解决方法 10.数据倾斜介绍,数据倾斜如何排查 11.spark的两种s
介绍开源项目 介绍离线数仓 可视化用的什么框架 spark的submit的参数 了解和做过数据清洗吗 数据怎么清洗 数据倾斜的优化思路 了解scala吗 给场景进行去重 和 选最近一条数据 两道代码 两数之和 数组的小和 1个小时 有些忘了
问的都是数据结构的问题 1.给一个整数,怎么把它翻转(123转成321) 我说用字符串他说不行 2.忘了 3.有两个整数型数组,里面的整数范围都是1-1000w,问怎么找出两个数组中相同的数字 已挂
#软件开发2024笔面经# 2024字节跳动面试 数据岗位 1.模型开发的流程,需求调研过程中有哪些人员参加,调研过程,你会输出什么文档? 2.如何保障数据质量(准确性)? 3.spark有什么优缺点?在使用过程如何规避缺点? 4.spark内存模型? 5.spark和MR为什么会进行shuffle,如何减少shuffle? 6.小文件治理的方式? 7.主题域建设的流程? 8.大表join大表的优
#软件开发2024笔面经# 二战字节 一面 自我介绍 介绍实习工作 平时做什么 数据量多大 数据仓库理解 怎么分层的 Spark执行流程 Spark内存划分 SQL优化方式 布隆过滤器 JVM内存模型 垃圾回收 双亲委派 SQL题 连续登录 算法题 LRU 二面 自我介绍 介绍实习 数仓为什么分层 主要解决什么问题 两道算法题 链表删除元素 和 在数组中快速查询数据 布隆过滤器 半连接查询 gro
1.自我介绍 2.实习 关注准确性和效率等指标的权衡 3.项目 4.sql全勤员工 两天没消息了忍不住打电话问了,hr接起来电话来第一句“你是浙大同学吧,我们交叉面隔壁部门面试官忙” ????浙大去网易干外包做数开?????我是不能理解
岗位:软件开发工程师-数据开发方向 部门:核心本地商业-基础研发平台 技术岗位处女面,运气挺好,没有被问到完全不会的题,感谢团子缓解我的焦虑 4.30 一面(60min) 1.自我介绍 2.介绍项目架构,数据源等 3.项目中遇到的难点 4.数仓为什么要分层,各层的职能 5.讲一下项目中提到的零点漂移问题 6.hive结构, 7.hive优化 8.数据倾斜 9.tcp三次握手 10.进程和线程的区别