总时长30分钟左右 1.自我介绍 2.大数据学习过什么技术? 3.数据工作有哪些岗位? 4.写一个二分法 5.一道sql,从表中提取出所有课程分数大于90的学生id 6.最近在学什么新技术? 7.进程和线程的区别?哪个开销比较小? 8.tcp和udp区别 9.职业规划 10.反问 总结:最近看测试内容比较多,对于大数据了解不多。面试官态度挺好,还要补的东西有点多我,sql都没写出来。找工作找得失去
就面了十几分钟 面试官说我更适合去做算法 1.实习经历 2.数仓和数仓建模的理论知识(我说了维度建模 范式建模 问知不知道维度退化 不知 3.SQL:怎么找A表有B表没有的数据 数据倾斜怎么处理(不会 #发面经攒人品#
腾讯会议一面(30分钟) 自我介绍 项目介绍 数据如何采集,整个流程叙述一遍 项目难点说一下 两个项目的区别讲一下 数仓分层里面的表叙述一下有什么 分析一下两个事物之间的关系,怎么分析(有点抽象的问题),有什么经验
一面 1、自我介绍 2、先问实习内容,实习涉及了实时数仓,细问了一些点 3、再问项目内容,做的是离线数仓 4、离线数仓的数据源有哪些?是怎么收集这些数据的? 5、离线数仓是怎么分层的?分层依据是什么? 6、JVM的内存模型介绍一下 7、说一下你知道的垃圾回收算法 8、MySQL的存储引擎有哪些? 9、做过哪些HiveSQL优化?或者说你了解哪些优化措施? 10、怎么解决数据倾斜问题? 11、有接触
一面 50分钟 自我介绍 http协议是哪一层的协议,讲一下对http的了解 tcp协议和udp协议是哪一层的协议,讲一下他们之间的区别,以及他们各自的应用场景 你知道get和post请求吗,讲一下他们之间的区别 当我们输入美团网址的时候,这个从输入到显示页面的过程 你了解操作系统吗,linux了解吧,你说一下你用过的命令 当我们要查看文件的具体属性用什么命令 讲一下静态链表和动态链表的区别 数据
一面 电话面 40分钟 自我介绍 介绍实时数仓的项目 你这里用到了clickhouse,clickhouse的写入和读取为什么快 flink有哪些算子 flink的窗口函数了解吗 flink的精准一次性如何保证的 kafka是如何保证数据不丢失和不重复的,从生产者和消费者考虑 hbase用过吗,rowkey的设计原则是什么 如何解决热点现象 redis的数据结构了解吗 java的spring会吗
一面 spark数据倾斜 实习相关 二面 Sql 找出最长连续子序列(row_number) 算法 二叉树层序遍历 mapreduce运行过程 spark.shuffle.partitions的调参原理 Spark小文件参数 怎么确定reduce的数量 bucket join优化的原理 怎么快速根据spark stage找到对应的代码 主题域划分 事实表怎么建模 数仓建模过程 事务的特性 进程和线
等的心慌,写面经攒人品 9.15一面(25分钟,纯八股) 问实习的项目 研究生科研项目 疯狂hive,hive调优 一直问联邦学习,问了两遍 等了很久很久才二面,中间还收到了安抚短信。 ———————————————————————————— 9.26二面(30分钟,纯八股) hdfs读写流程 spark算子 spark调优 数据倾斜 对荣耀有什么想了解的(了解到我面试的部门是产品线云服务) 这个
个人情况:本双一流硕211非科班,一段搞深度学习的实习。项目自己做的。全程面试被追问麻了面试官有问题必追问 自我介绍 项目深挖(20min) 实习工作介绍(5min) 数据倾斜有哪几种解决方法 Group by 倾斜,join倾斜,null值倾斜 分别说说这些倾斜怎么解决:全说上来了,面试官问:还有呢?。。。开启负载均衡,对小文件进行合并,对数据类型进行检查,还有呢?我就记得这些了 Hdfs小文件
部门:优选事业部-美团买菜 timeline: 8.24 一面 8.28二面 8.31 hr面 9.7 oc 一面: 项目介绍 什么是指标体系 指标体系包含元素 指标分类 数仓分层、分层好处 数仓分层和指标分类之间有什么关系 什么是总线矩阵 什么样的数仓是一个比较好的数仓 什么方法可以落实上面说的数仓 缓慢变化维;除了拉链表还有哪些方式 什么情况下可以使用map join 怎么解决数据倾斜问题 J
介绍自己,介绍项目 实习公司数仓的分层,优缺点 实习期间遇到的困难,解决方案 维度建模的流程 怎么理解数仓是反应历史变化的集合的 实习时用的是什么任务调度工具 结合谷歌的三篇论文谈谈对Hadoop的理解 对YARN的理解 了解实时吗 反问,无手撕
11.3 一面 1.自我介绍 2.实习时间 3.实习内容 4.学习中遇到的难题 5.最大的收获 6.实习中发现的问题,如何发现问题,解决的效果 7.Union和union all 的区别 8.索引介绍? 9.表经常被修改对索引具体有什么影响 10.公司业务部门规模 11.实习中做需求的速度 12.实习中遇到的问题 13.遇到不好沟通的人怎么办 14.上面派你监督你不负责的任务的做法 15.六级分数
1.hashmap底层数据结构 2.virtual的使用场景,虚函数表 3.设计模式 4.多线程同步的方法 5.三次握手 6.智能指针有哪些,如何设计一个share_ptr? 7. vector是如何实现的,和list相比有何优缺点? 8.想问我网络编程方面的,我说不熟悉,跳过了…… 9.c++ 源文件到可执行文件的过程 9.多线程适用于那些应用场景? 10.stl哪些容器是线程安全的 11.补充
2022-07-22 时长1h 1 自我介绍 2 数仓项目数据量多大 3 几个shell问题,监控spark日志内容并写入到另一个文件、实时监控spark日志内容 4 Java关键字、面向对象三大特征、接口和抽象类区别 5 set list map区别 6 介绍JVM内存区域,String是基本数据类型吗?基本数据类型变量存在哪里 7 垃圾回收机制 8 新生代老年代对象是如何流转的 9 创建线程的
2022-07-27 下午 时长1h5min 百度的面试官真的很好,这点没得说 1 自我介绍 2 数据倾斜——结合业务说了分组聚合和join,大表大表join怎么解决数据倾斜,展开说 3 SQL 没做出来,但是面试官全程提示,沟通交流 4 Hive和Spark哪个比较熟悉,我们聊一聊——都比较熟悉,问了Hive组件和底层执行逻辑,逻辑计划优化有哪些方法,什么是谓词下推(自己提到了) 5 算法:数组