一面 50分钟 自我介绍 你学过的大数据掌握的最好的是哪一个 hive里面排序一般怎么使用的 hive内部表和外部表的区别,外部表在什么场景下使用 hive视图用过吗 你对维度和事实的理解 你说到了业务过程,谈谈对它的理解 你刚刚描述的是一个业务过程还是 多个业务过程 多个业务过程放到一张事实表的你举个例子 维度建模中 星型模型和雪花模型 之间的区别 缓慢变化维表如何处理呢 全量表的数据保存多久
#软件开发2024笔面经# 2024字节跳动面试 数据岗位 1.模型开发的流程,需求调研过程中有哪些人员参加,调研过程,你会输出什么文档? 2.如何保障数据质量(准确性)? 3.spark有什么优缺点?在使用过程如何规避缺点? 4.spark内存模型? 5.spark和MR为什么会进行shuffle,如何减少shuffle? 6.小文件治理的方式? 7.主题域建设的流程? 8.大表join大表的优
一面: 1.自我介绍 2.数仓分层 3.来了新的业务怎么建模 4.选用的什么模型,有什么考量 5.如果现在一张事实表一对多一个维度表,此维度表又一对多一个维度表,怎么设计模型 6.实习过程中用的什么计算引擎 7.spark UI会看哪些内容 8.数据倾斜问题怎么解决 9.介绍一下项目 10.为什么有的指标在下沉的时候要拆开来 11.SQL调优,讲一个具体的例子 12.SQL题:求中位数 二面: 1
1、自我介绍 2、跳槽理由 3、介绍团队 4、自己感觉做的最好的项目(扣的很细,聊了很久) 5、遇到过的技术问题 6、数据倾斜如何解决 7、缓慢变化维怎么解决 8、周期变化事实数据,比如七天累计订单表应该放哪一层?为什么? 9、什么数仓才算一个好的数仓 10、雪花模型跟星型模型区别 11、写sql题 12、反问 面了三家 淘天、字节、pdd,都offer了,这个草稿也是当时写的一直忘发了,后面有空
字节整体给我的感觉是不怎么问八股,他们非常想听你的理解是什么,问的很多问题网上都没有答案,高度都很高。 一面(2023.3.22) 自我介绍 为什么选择从全栈开发转到大数据,为什么会对大数据感兴趣 有学习过大数据的一些技术栈或者项目实战么 狂问项目(国电的,问的极其极其细) 问了电商数仓项目(大概介绍了一下维度建模) DWS层都是什么类型的事实表(不知道怎么答,感觉问的很奇怪,就直接答了事务型事实
1.自我介绍 2.实习介绍 3.实习工作内容下游使用方主要有那些? 4.AI团队数据支持 他们使用这个数据做的什么 5.除了对表的支持之外,是否在计算层面做过一些优化 6.boradcast join和sortmergeJoin的区别和 使用场景的不同 然后面试官开始说,我觉得概念你应该都会,我就不问你了,所以我后面会从场景的角度去考验你的技术理解,本人听到这里心凉了半截,因为两段实习全是离线,这
今天面了字节大数据开发的三面,记录一下: 面试官先自我介绍,然后开始问专业知识。 1.你了解实时领域和离线领域的哪些技术? 2.mapreduce和spark作为计算引擎的差异 3.spark的rdd是什么 4.如何理解rdd中弹性的概念 5.spark有哪些调优方法 6.spark中的join操作有哪些 7.数仓建模方法有哪些 7.介绍一下flink的双流join,以及双流join可能会遇到哪些
一面 12月28日 15:00 1h 了解分布式吗,看过哪些相关的分布式数据库和知识 看过哪些论文 深挖minisql项目 2PL 脏读,幻读,不可重复读 这个项目是怎么实现的,从0到1吗,介绍一下实现的过程 支持哪些SQL数据类型 日志系统的设计(支持哪些日志格式) 如果用户写入一个大的blob日志怎么处理 fsync怎么处理的 redo log在commit之前还是之后处理的 是否有丢失数据的
### 一面技术面 自我介绍 四道算法 前两题是sql,其中一个难点的就是求连续登录2天以上的用户 一道快排 一道求二叉树是否是对称二叉树,就是左右节点是对称的 问实习经历(问的很细) 工作中的难点 维度建模过程 聊到数据仓库工具箱这本书的内容,我都不会。。。 数据倾斜(我从原理,场景,解决方案三个角度回答的) 问到一些常用函数,UDF,UDAF,UDTF概念 hive的概述 hadoop,hiv
一面 8.15 45min 0. 现在状况,职业规划 1. 问简历上数据建模的项目 2. 你的理解数据建模应该怎么进行 3. 了解数据库事务吗 4. 主键和唯一索引知道吗 5. 用过hive吗,数据倾斜怎么回事 6. 数据结构/算法怎么样?了解排序吗?哪几种排序?稳定性问题? 7. 编程题 python 给有3个或更多个数的数组,返回最大能组成三角形的周长 8. sql题 简单的group by
视频ms 前三分钟 自我介绍 数据仓库的了解 怎样设计数据分层 了解的大数据组件 spark用于解决什么问题 spark底层逻辑 sql的join实现方式 举例A(3) join B (5) 有几条数据 join底层逻辑 sql题 查询用户峰值 全程不到30分钟 **我就是一个小菜鸡。问就是面试凉凉 问的其实感觉没有特别难 但就是啥都不会。还是学的太过浅层次。总的来说 项目拷打 底层深挖。G
八股 1、lamda表达式的实现原理 2、C++智能指针 3、C++多线程 4、OSI模型与TCP/IP模型,及各层简介 5、数据传输到网络层之后是什么样的? 真的,我尼玛,好难啊! 算法 1、一个序列中元素两两连续出现,找出落单的元素(下标) eg.2 2 1 1 3 4 4 -->3 最优:O(logn) 二分查找:序列的数量是奇数,二分之后,前半部分偶数,后半部分奇数。如果前半最后一个元素和
投递时间:9.25 面试1v1 1、自我介绍 2、测开都做什么 3、自动测试开发你做了什么内容 4、用非侵入式的测试方法(cv)和侵入式的方法(调API)有什么优缺点 5、python的装饰器 6、linux常用命令 8、c++重载、重写、覆盖 9、c++的析构函数什么时候调用 10、进程和线程的区别 11、http状态码5开头是什么 12、手撕,两数之差 反问:面试整体流程多久 该岗位主要职责
2024/07/11 20:00 50分钟 问偏向算法还是开发,回答偏向开发,稍微了解了一下AI经验和后端经验 项目不太相关,竞赛和项目具体的没问太多 八股:堆和栈、淘汰策略(LRU和LFU之类的,虽然不太熟悉,但面试官引导我思考回答到一些点上)以及数据结构实现(也是不熟但引导我自己理解着答) 手撕:给一个数字n和一个个位数集,用集合内的数组合成的数字,求比n小的最大值(类似于数位dp策略,从高位
字节: 1.项目介绍 2.java的容器有哪些,说说map类型的数据结构除了hashmap,如果想要有序遍历map可以如何使用,采用那种数据结构,问hashtable是怎么保证线程安全的,加的锁属于什么锁,这个锁封锁粒度是多少 3.谈谈redis索引,B+数据结构为什么用于索引,不用红黑树,如果让你查询你觉得查询次数两种数据结构次数是不是相同 4.redis支持的数据类型,说说zset的底层数据结