1、自我介绍 2、今后规划,为什么不读研,爱好 3、对美团的了解 4、项目介绍以及分工 5、数仓分层介绍,为什么要分层 6、数仓建模方法(范式建模、纬度建模、实体建模) 7、平常还有什么方式巩固大数据知识(《大数据之路》、博客、课程) 8、写一个快速排序(没写出来) 9、两道简单sql ①每个用户每天访问的第一条记录 ②00后中选课人数最多的课程 10、有没有用过udf 11、hive和spark
1、自我介绍 2、spark宽窄依赖,stage划分 3、rdd的弹性体现在什么方面 4、group by 和reduce by的区别 5、spark内存划分,内存调优参数 6、spark的join有哪些,sort merge(没答出来) 7、spark的shuffle过程,和mr的区别 8、数仓总线业务矩阵是什么 9、数仓分层,dws层存在的必要性是什么 10、spark以及sql的优化经验(数
不知道的还以为是HR面呢,基本没有专业问题 1、base杭州能否接受,有无考研想法 2、自我介绍(要求说优缺点,特长,经历) 3、希望我证明我在学校是一个比别人优秀的人,问我怎么回答 4、补充回答自己的软实力如协调、沟通、分析能力,对自己如何评价 5、觉得大三的自己和大一有什么区别 6、如何自学 7、素质测评写了哪些题,你对哪些题有优势,哪些有劣势 8、你觉得你和别人沟通时,说服能力怎么样 9、讲
- 美团:到店事业群--平台技术部(暑期实习一面) - 上来面试官说看你简历挺匹配的,I'm like whaaaaat - 自我介绍 - 为什么去读研了 - 你们团队多少人 - 你们数仓怎么分层 - 你主要负责哪几层 - ODS 数据从哪来,怎么接入数仓 - ODS 表是什么事实表类型?更新方式? - ODS 到 DWD 做了哪些处理? - DWD 有哪些表,事实表如何设计的? - 你提到了数据
一面前还有笔试 两道算法题挺简单 本来以为进去要转c++的 在自我介绍阶段就没怎么聊java 都在说自己不怎么会c++ 结果最后反问才知道原来是分布式数据库 java是作为计算层的主要实现语言 怪不得这面试官这么了解java 1. jvm调优 有啥常见参数 2. 常见设计模式 3. docker如何打包镜像 4. mmap系统调用 然后基本上都在问项目 面试官对电商业务好像还挺了解 聊了大概35分
简单介绍一下项目 项目里一些点随便聊了一下 没问几个问题 算法 实现一个HashMap 问了面试官是要拉链法还是可以用最简单的开放寻址 回答都可以 然后我就整了个开放寻址 随便写了个测试样例没出啥问题就过了 总时长30min
面试时间:50min 自我介绍 实习内容 工作部门是数据中台,数据中台是什么?和数据仓库有什么区别? 项目用什么采集数据?原理?还了解过其他采集工具吗? 对数仓分层的理解? 你们是按什么标准分主题的?用的什么数仓模型? MR的工作流程? Spark原理?和MR的区别? RDD依赖关系? Job、stage、task划分? Hive介绍,原理?Hsql转换到MR的过程? Hive的文件存储格式? 知
感觉自己和快手的相性不是很好,每次都和面试官不和,感觉应该是无缘快手 1.自我介绍,大数据组件是自学的吗 2.工作内容,定位,成果介绍 3.前期调研也是你做的吗,怎么调研出的指标体系,耗时多久 4.复购率是几日复购率,为什么选择这个天数不选择15天,你这个调研不够深刻,调研他的打法和业务目标不才是第一步要做的事吗 5.有多少个维度和指标,为什么用grouping sets不用cube,介绍coun
1.自我介绍 2.学校大数据有哪些课程,做了哪些实践 3.你觉得大数据是什么,对于社会的帮助 4.大数据和大模型的联系,你在实习或者写sql的时候有没有用过大模型 5.你觉得大模型可以取代你做的这些数据开发工作吗,把大模型甩给业务人员,他们可以用大模型完成数据开发吗 6.针对大模型和大数据,总结一下,从短期来看和长期来看 7.对于spark3.0的新特性了解吗 8.spark的join有几种,和M
1.十分钟自我介绍 2.项目最难点和最有技术的点 3.一句话总结你的问题解决方案 4.一句话总结你的项目的价值 5.手撕:合并k个有序链表 6.问机试题目思路 大部分时间在写算法,感觉面试官对大数据相关的技术栈不太感兴趣,问大数据相关问题就像走过场一样,最后也没有反问,emmmm有点难评 #数据人的面试交流地#
自我介绍 为什么这么快找实习 离线数仓介绍 数据哪里来的 有什么数据 实时数仓和离线数仓的数据是用的同一份数据吗 有什么需要去聚合的指标 做这个项目有什么收获,难点 sql题 第二大薪水 排序秒了 8.19 oc
1.自我介绍 2.jvm的gc全流程,为什么要分这么多区,标记整理等算法对于gc的优缺点,遇到过哪些gc的实际例子,怎么定位这样的问题 3.同一个进程中有三个线程,一个线程发生了内存溢出,另外两个会怎么样,为什么 4.线程共享数据怎么实现的,一致性怎么保证 5.手撕:判断完全二叉树,反转链表 6.sql:窗口函数 7.hdfs架构,读写数据流程,datanode在写数据的时候挂了怎么办 8.小文件
场景题:上游订单数据有问题,时间也是错误的,你怎么从 ODS 中找到这张订单表的位置?(不会) 第一种思路:全表扫描 第二种思路:做一张表,对表id进行hash,表中存储该表id对应的分区 DWS 层能不能没有(答:模型设计中我们一般要做到公共处理逻辑的下沉和单一,所以一般我们会把汇总逻辑放到DWS层,不把它暴露到APP层去实现,所以一般总会设计DWS层的) FlinkCDC MySQL 连接器的
#软件开发2024笔面经# 阿里云数据开发岗位面试公司名称:阿里云 面试岗位:大数据开发 整个是大数据开发,我以为是数仓开发,结果问的全是Spark问题,被搞自闭了。1,自我介绍 2,park中RDD的Task数量由什么决定?3,Spark怎么实现算子中的变量共享?4,Spark共享变量的使用条件? 5,可序列化?连接池实例是在算子内还是在算子外? 我一开始没想好,先回答了连接池的作业:是为了连接
一个小姐姐打电话告诉我会议号的。 进去之后,先自我介绍,然后让我讲项目。 hdfs的读写机制 雪花模型星型模型的区别和适用场景 小文件的弊端 又在问项目 20分钟结束了,反问环节都没有。。。