一面 1、自我介绍 2、先问实习内容,实习涉及了实时数仓,细问了一些点 3、再问项目内容,做的是离线数仓 4、离线数仓的数据源有哪些?是怎么收集这些数据的? 5、离线数仓是怎么分层的?分层依据是什么? 6、JVM的内存模型介绍一下 7、说一下你知道的垃圾回收算法 8、MySQL的存储引擎有哪些? 9、做过哪些HiveSQL优化?或者说你了解哪些优化措施? 10、怎么解决数据倾斜问题? 11、有接触
参加赛意在本校的校园宣讲会,投了简历,然后进行了一面(现场投简历的都可以参加面试),一面有两位面试官,一位负责收集基础信息,另一位面试官负责面试。一面之后两天内出结果,进行二面。二面之后两天内出结果,本来是约好的时间,但是老是更改,时间也定的很模糊(上午/下午),(就这一点来说有点不靠谱)。本来二面结束说好谈薪的,结果突然加了一个三面,等了一天没等到谈薪电话,突然通知三面(离谱了)。 一面:数据库
一面 50分钟 自我介绍 http协议是哪一层的协议,讲一下对http的了解 tcp协议和udp协议是哪一层的协议,讲一下他们之间的区别,以及他们各自的应用场景 你知道get和post请求吗,讲一下他们之间的区别 当我们输入美团网址的时候,这个从输入到显示页面的过程 你了解操作系统吗,linux了解吧,你说一下你用过的命令 当我们要查看文件的具体属性用什么命令 讲一下静态链表和动态链表的区别 数据
一面 电话面 40分钟 自我介绍 介绍实时数仓的项目 你这里用到了clickhouse,clickhouse的写入和读取为什么快 flink有哪些算子 flink的窗口函数了解吗 flink的精准一次性如何保证的 kafka是如何保证数据不丢失和不重复的,从生产者和消费者考虑 hbase用过吗,rowkey的设计原则是什么 如何解决热点现象 redis的数据结构了解吗 java的spring会吗
一面 spark数据倾斜 实习相关 二面 Sql 找出最长连续子序列(row_number) 算法 二叉树层序遍历 mapreduce运行过程 spark.shuffle.partitions的调参原理 Spark小文件参数 怎么确定reduce的数量 bucket join优化的原理 怎么快速根据spark stage找到对应的代码 主题域划分 事实表怎么建模 数仓建模过程 事务的特性 进程和线
Timeline: 8.24 投递 9.15 笔试 10.26 一面 10.26 一面 35min: 1.Hadoop工作原理 2.Hive内外部表 3.数仓分层 4.数仓建模 5.Map和flatmap区别 6.Flink slot和并行度关系 7.Flink exactly once 精确一次消费 8.Flink窗口 9.Hive udf 10.并发实现方式 11.线程池了解吗 12.线程池有
等的心慌,写面经攒人品 9.15一面(25分钟,纯八股) 问实习的项目 研究生科研项目 疯狂hive,hive调优 一直问联邦学习,问了两遍 等了很久很久才二面,中间还收到了安抚短信。 ———————————————————————————— 9.26二面(30分钟,纯八股) hdfs读写流程 spark算子 spark调优 数据倾斜 对荣耀有什么想了解的(了解到我面试的部门是产品线云服务) 这个
个人情况:本双一流硕211非科班,一段搞深度学习的实习。项目自己做的。全程面试被追问麻了面试官有问题必追问 自我介绍 项目深挖(20min) 实习工作介绍(5min) 数据倾斜有哪几种解决方法 Group by 倾斜,join倾斜,null值倾斜 分别说说这些倾斜怎么解决:全说上来了,面试官问:还有呢?。。。开启负载均衡,对小文件进行合并,对数据类型进行检查,还有呢?我就记得这些了 Hdfs小文件
部门:优选事业部-美团买菜 timeline: 8.24 一面 8.28二面 8.31 hr面 9.7 oc 一面: 项目介绍 什么是指标体系 指标体系包含元素 指标分类 数仓分层、分层好处 数仓分层和指标分类之间有什么关系 什么是总线矩阵 什么样的数仓是一个比较好的数仓 什么方法可以落实上面说的数仓 缓慢变化维;除了拉链表还有哪些方式 什么情况下可以使用map join 怎么解决数据倾斜问题 J
一面: 面试时间:2024.07.03,共计80分钟 全程项目经历,在工作中做的事情。 按着简历上写的"工作内容",一条一条的问。 问题 自我介绍 后面打算是在上海 or 北京 or 其他地方? 之前工作离职了吗? 介绍之前工作中参与的项目? - 自己承担了哪些工作? - 在承担的工作中,哪些是挑战 or 难点 or 亮点的工作、怎么解决的? 数据开发工作流程? - 一个需求流程走完,大概需要多久
#2025实习##数据开发工程师实习##数据开发##面经##万声音乐# 万声音乐集团 1面: 1. 自我介绍? 2. 数据库和数据仓库区别? 3. 两个建模有什么区别? 4. flume拦截器如何实现? 5. 事实表概念? 6. 事务性事实表的局限性? 7. 拉链表是干什么的,为了解决什么问题? 8. 构建一个指标的流程? 9. sql:活跃用户,七天活跃用户?
自我介绍:是怎样的人,有怎样优势,做怎样改进 岗位是否匹配预期 介绍工作内容 业务方沟通需求 整理数据,提出数据,可视化 提供给业务方 能力:沟通,数据分层实践 数仓了解多少 机器学习拷打 SQL考察 思维题 什么是数据分析 面试官简述数据分析理解 反问
1.自我介绍 2.对公司有没有了解 3.inner join的底层实现,有哪些算法 4.两个数组,数组的大小都在数千万级以上,但是值域是在一千万以内,找到两个数组相同的元素(说了bitmap) 换了部门负责人来面试 5.有了解过数仓整体的架构吗(面试官说现在是存算分离,实时和离线一体) 6.有写过UDF吗,当时的场景是什么样的 7.假设现在用的是yarn,pyspark从提交文件到让代码分布到各个
自我介绍 C语言和C++的区别 C++里面如何使用C语言? 编译器如何编译C语言和C++语言? extern "C" vector的底层实现及常用函数 vector是线程安全的吗? malloc和new的区别和联系,内存在哪个区? 栈区一般存储什么? 如何减少栈内存的使用?(引用传值,避免深层拷贝的发生) 内联函数是在编译的哪个阶段?有类型的检查,安全的 map存储函数(如何存储?函数指针:地址)
自我介绍 为什么选择测开? 研发和测开的岗位区别? 为什么测开的技术要求更高? 对测开的理解 为什么适合测开 未来的规划 测试流程(W模型) 编码之前的局部测试(需求设计,概要设计,接口测试,可行性测试,必要性测试) 编码之前的局部测试和单元测试的区别 接口测试的注意点 if-else系统调用异常值捕获测试(将系统调用使用其他的函数代替,避免系统调用的发生) 登录和未登录状态的fun功能测试 如何