110分钟,全程无项目和算法,全是八股深挖,被拷打惨了 1、谈一谈你对java面向对象的理解,什么时候用接口,什么时候用抽象类,从本质上讲一下区别? 2、都有了解过哪些设计模式?创建对象的设计模式有哪些?工厂模式和建造者模式分别在什么场景下使用,举一个具体的例子 3、java的hashmap在1.8之前链表中采用的头插法的方式,为什么1.8之后改成尾插法?头插法的方式可能会极限情况连成一个环,举一
很快就18分钟吧 1.自我介绍 2.说说你对C++了解多少,讲讲智能指针 3.说一说C++17 C++20 4.说说你了解的数据结构 5.说一说你了解的Linux,你为什么用这个Linux,对他了解多少,有什么好处 6.内存泄漏怎么处理的,定义是什么 7.讲一讲你对动态规划的理解 8.反问: 感觉G了,岗位不是很匹配 #你都收到了哪些公司的感谢信?##杉岩数据#
1.十分钟自我介绍 2.项目最难点和最有技术的点 3.一句话总结你的问题解决方案 4.一句话总结你的项目的价值 5.手撕:合并k个有序链表 6.问机试题目思路 大部分时间在写算法,感觉面试官对大数据相关的技术栈不太感兴趣,问大数据相关问题就像走过场一样,最后也没有反问,emmmm有点难评 #数据人的面试交流地#
自我介绍 为什么这么快找实习 离线数仓介绍 数据哪里来的 有什么数据 实时数仓和离线数仓的数据是用的同一份数据吗 有什么需要去聚合的指标 做这个项目有什么收获,难点 sql题 第二大薪水 排序秒了 8.19 oc
拷打实时数仓(建模,为什么要分层,为什么选择HBase作为数据库,所有数据都要旁路缓存吗,旁路缓存HBase数据经常变更,Flink工作流程) 怎么处理数据倾斜 数仓常用的维度建模方案有哪些 建模模型有哪几个,分别适用于什么场景 Hadoop生态圈、MapReduce工作流程、 为什么大数据用Kafka多、Kafka工作流程、Kafka怎么保证数据有序、Kafka同一个主题下分区之间是否有序 SQ
一面: 面试时间:2024.07.03,共计80分钟 全程项目经历,在工作中做的事情。 按着简历上写的"工作内容",一条一条的问。 问题 自我介绍 后面打算是在上海 or 北京 or 其他地方? 之前工作离职了吗? 介绍之前工作中参与的项目? - 自己承担了哪些工作? - 在承担的工作中,哪些是挑战 or 难点 or 亮点的工作、怎么解决的? 数据开发工作流程? - 一个需求流程走完,大概需要多久
腾讯二进宫,秒挂,简单题没写出来,太菜了。。。 自我介绍 项目相关 介绍一下java的反射 介绍一下mysql引擎 MyISAM引擎什么时候用 讲一下垃圾回收 讲一下集合 讲一下hashmap 算法题:大数翻转 (乐死了,这么简单的题没做出来,我转了字符串双指针超时) 反问: ∽具体有什么业务 提供大数据内容服务balabala ∽技术栈有什么 大数据开发岗spark之类,后台开发岗golang
#2025实习##数据开发工程师实习##数据开发##面经##万声音乐# 万声音乐集团 1面: 1. 自我介绍? 2. 数据库和数据仓库区别? 3. 两个建模有什么区别? 4. flume拦截器如何实现? 5. 事实表概念? 6. 事务性事实表的局限性? 7. 拉链表是干什么的,为了解决什么问题? 8. 构建一个指标的流程? 9. sql:活跃用户,七天活跃用户?
4/22 一面 4/26 二面 5/ 1 offer emm,昨天加hr微信,没加我,但今天51居然发了offer,可能他工作日忘记发offer了吧..
自我介绍:是怎样的人,有怎样优势,做怎样改进 岗位是否匹配预期 介绍工作内容 业务方沟通需求 整理数据,提出数据,可视化 提供给业务方 能力:沟通,数据分层实践 数仓了解多少 机器学习拷打 SQL考察 思维题 什么是数据分析 面试官简述数据分析理解 反问
1.自我介绍 2.jvm的gc全流程,为什么要分这么多区,标记整理等算法对于gc的优缺点,遇到过哪些gc的实际例子,怎么定位这样的问题 3.同一个进程中有三个线程,一个线程发生了内存溢出,另外两个会怎么样,为什么 4.线程共享数据怎么实现的,一致性怎么保证 5.手撕:判断完全二叉树,反转链表 6.sql:窗口函数 7.hdfs架构,读写数据流程,datanode在写数据的时候挂了怎么办 8.小文件
1.自我介绍 2.实习最大收获 3.odps平台的性能调优与spark的性能调优的共同点和差异点 5.spark的countdistinct算子优化 6.bitmap作用在expload的作用是什么? 7.小文件过多的影响 8.sql countdistinct优化代码手写 9.反问 #大数据开发##数据人的面试交流地#
场景题:上游订单数据有问题,时间也是错误的,你怎么从 ODS 中找到这张订单表的位置?(不会) 第一种思路:全表扫描 第二种思路:做一张表,对表id进行hash,表中存储该表id对应的分区 DWS 层能不能没有(答:模型设计中我们一般要做到公共处理逻辑的下沉和单一,所以一般我们会把汇总逻辑放到DWS层,不把它暴露到APP层去实现,所以一般总会设计DWS层的) FlinkCDC MySQL 连接器的
1.自我介绍 2.对公司有没有了解 3.inner join的底层实现,有哪些算法 4.两个数组,数组的大小都在数千万级以上,但是值域是在一千万以内,找到两个数组相同的元素(说了bitmap) 换了部门负责人来面试 5.有了解过数仓整体的架构吗(面试官说现在是存算分离,实时和离线一体) 6.有写过UDF吗,当时的场景是什么样的 7.假设现在用的是yarn,pyspark从提交文件到让代码分布到各个
#软件开发2024笔面经# 阿里云数据开发岗位面试公司名称:阿里云 面试岗位:大数据开发 整个是大数据开发,我以为是数仓开发,结果问的全是Spark问题,被搞自闭了。1,自我介绍 2,park中RDD的Task数量由什么决定?3,Spark怎么实现算子中的变量共享?4,Spark共享变量的使用条件? 5,可序列化?连接池实例是在算子内还是在算子外? 我一开始没想好,先回答了连接池的作业:是为了连接