1、自我介绍 2、数仓怎么自学的 3、整个项目架构说一下 4、数据域是什么概念(提到了数据类型),那如何界定数据类型呢 5、总线矩阵构建过程 6、dwd层怎么设计的 7、了解业务过程这个概念吗 8、分域的话,在dws表中有没有可能会跨域(举了个互动域和活动域的例子),结果告诉我这样的话你的互动域设计的其实是有问题的(挖坑给我跳,悲) 9、星形模型和雪花模型 10、缓慢变化纬为什么用拉链表,他说他第
我记得我没有投递过这个部门,但是约的面试是数据开发部门。 面试官很好,是我这两周最好的面试官了。 1.自我介绍 2.实习具体工作 3.觉得实习工作有哪些价值 4.自己认为自己有哪些比别人强的优势 5.http/https区别,端口是否可修改 6.get/post区别 7.mysql为什么使用b+树索引 8.秋招目标 反问。 面试官直接告诉我 京东基本没有C++技术栈,90%是java 所以感觉大概
一面 1.自我介绍 2.实习经历介绍,负责的项目模块,有多少张表,为什么要做这些表,涉及哪些方面的建设 3.对业务的了解,是你和需求方直接对接吗,参与过砍需求的过程吗 4.模型设计到最后交付的数据开发全流程,有没有中途变更过需求,最终有多少个指标和维度 5.你怎么把这么多维度放到一张表里面呢,oltp引擎怎么样使用的 6.指标都是可以累加的吗,有没有想过把可加的和不可加的指标分别放到不同的表中 7
问项目 根据项目问了一个sql如何写 聊七聊八 20min 挂了
1.自我介绍 2.项目内容:背景,uv,pv,功能,项目人数,分工 3.数仓的设计思路 4.分层数仓和使用普通数仓的区别 5.为什么ods不直接对接app层,有没有考虑过增加一层数据集市层 6.项目用了哪些技术栈 7.hdfs如何保证高可用 8.hdfs写入数据流程,写入过程中datanode挂了怎么办 9.小文件原因,危害,解决方法 10.数据倾斜介绍,数据倾斜如何排查 11.spark的两种s
介绍开源项目 介绍离线数仓 可视化用的什么框架 spark的submit的参数 了解和做过数据清洗吗 数据怎么清洗 数据倾斜的优化思路 了解scala吗 给场景进行去重 和 选最近一条数据 两道代码 两数之和 数组的小和 1个小时 有些忘了
#软件开发2024笔面经# 2024字节跳动面试 数据岗位 1.模型开发的流程,需求调研过程中有哪些人员参加,调研过程,你会输出什么文档? 2.如何保障数据质量(准确性)? 3.spark有什么优缺点?在使用过程如何规避缺点? 4.spark内存模型? 5.spark和MR为什么会进行shuffle,如何减少shuffle? 6.小文件治理的方式? 7.主题域建设的流程? 8.大表join大表的优
#软件开发2024笔面经# 二战字节 一面 自我介绍 介绍实习工作 平时做什么 数据量多大 数据仓库理解 怎么分层的 Spark执行流程 Spark内存划分 SQL优化方式 布隆过滤器 JVM内存模型 垃圾回收 双亲委派 SQL题 连续登录 算法题 LRU 二面 自我介绍 介绍实习 数仓为什么分层 主要解决什么问题 两道算法题 链表删除元素 和 在数组中快速查询数据 布隆过滤器 半连接查询 gro
1.自我介绍 2.实习 关注准确性和效率等指标的权衡 3.项目 4.sql全勤员工 两天没消息了忍不住打电话问了,hr接起来电话来第一句“你是浙大同学吧,我们交叉面隔壁部门面试官忙” ????浙大去网易干外包做数开?????我是不能理解
最难绷的一集,感觉KPI面 1.自我介绍 2.介绍项目,你这不就是最普通的广告曝光么,有什么区别,客群标签是你们加工的吗,数据流图是什么,有啥用 3.项目难点,业务上的难点,你这种方法也没解决业务的难点啊(我真难绷,业务对接过程的问题我咋解决,我最多减缓) 4.介绍hive or spark 5.数仓开发的关键点,每一层的作用 6.反问:我终于说出了那句一直想说但不敢说的“我没有什么问题要问”,润
游戏开发——数据工程,50分钟 问的都是八股 四类访问权限;四种内部类;反射机制;JMM内存模型;ArrayList和LinkedList;final VS finalize VS finally; 两道编程题: 有序列表合并;最长回文串 等消息
1. 前言 在正式的小节学习之前,我们先来探讨一个问题,你究竟是否有必要使用类似于MongoDB这样的文档性数据库? 这些年,NoSQL以及NewSQL都刮起过一番浪潮,而SQL终究还是岿然不动,不仅没有被打垮,反而变得更加大。PostgreSQL号称世界上最先进的关系数据库,很早的时候便已经开始支持文档性数据类型了,而且在9.3以后的每一个版本,都提供了更多的新特性。 PostgreSQL 最重
9.11 一面 35min: 1.自我介绍 2.专业介绍 3.Mysql索引 4.Mysql事务并发导致的问题 5.Mysql两种引擎的对比 6.Hadoop运行模式 7.job tracker 作用 8.Hdfs小文件问题 9.Hadoop调度器 10.Hadoop脑裂出现的原因 11.Kafka 怎样保证不丢数据 12.Flink task和subtask 的区别 13.并行度和slot的关系
发面经攒人品#投递实习岗位前的准备##我的实习求职记录##实习,投递多份简历没人回复怎么办#
一面 redis: RDB和AOF的区别 AOF中记录的是什么,RDB中记录了什么 过期数据的删除策略 使用这些删除策略可能会出现哪些问题 定期删除是所有数据删除吗 内存淘汰机制 allkeys详细说说 redis使用场景 redis和memcached有什么区别 为什么用单线程不用多线程 clickhouse(实习里用的主要是这个): 简单介绍一下clickhouse,说说为什么用这个 说一下R