二面40分钟左右结束,没问项目 问对kafka、数仓分层理解 在学校干啥了,学习大数据的途径方式 然后就是两个类似场景题目,讲思路不用写代码 一个是大数据单机处理:对10Tb数据全局排序 一个是判断链表相交 第 一个回答的💩一样,第二个还好 第二天收到感谢信😭 #面试# #大数据# #字节#
1.自我介绍 2.jvm的gc全流程,为什么要分这么多区,标记整理等算法对于gc的优缺点,遇到过哪些gc的实际例子,怎么定位这样的问题 3.同一个进程中有三个线程,一个线程发生了内存溢出,另外两个会怎么样,为什么 4.线程共享数据怎么实现的,一致性怎么保证 5.手撕:判断完全二叉树,反转链表 6.sql:窗口函数 7.hdfs架构,读写数据流程,datanode在写数据的时候挂了怎么办 8.小文件
有选择,简答,sql三类 选择:好几道逻辑思维题,还考了一个关于线性回归的题,不会写 sql:难度不是很高,可惜我把rank函数全忘了,通过率为0(要求输出结果带排名),有一题要用一下窗口函数,也忘了正确的格式了,大寄特寄 问答题:业务场景题(直播效果分析),业务分析题(指标体系搭建和分析思路) 对不起,感谢给了双非dd一次笔试机会,可惜之前没怎么好好复习,sql本来手拿把掐的也给搞砸了,笔试前还
hdfs写文件流程? 什么是RPC通信? 为什么hdfs副本数是3不是4? 为什么一个block默认大小为128m不是200m? pipeline管道是什么? 大数据都问这些吗?#大数据面试题#
推荐阅读文章列表 大数据开发面经汇总【持续更新...】 我的大数据学习之路 大数据开发面试笔记V6.0 SQL题目 来自字节跳动数据开发一面 有一张用户登录日志表ods_login_usr_log, 包含user_id(用户id)和login_dt(登录日期) 问题:计算每个用户最大的连续登录天数,可以间隔一天 -- 举例如下: -- 输入 use_id login_dt 1001 202
1.自我介绍、成绩排名、读研计划、奖学金、是否挂科、有无数模竞赛经历 2.介绍项目,数仓设计中主要考虑的点 3.开发用的语言 4.项目数据量多少,报表用什么软件做的 5.实习工作介绍,dqc怎么用的 6.实习最难的一点是什么 7.机器学习和深度学习了解吗 8.python常用的包 9.rdd和dataframe和dataset的区别 10.hive查询过程怎么优化 11.你的性格在工作中的优势 总
1.自我介绍 2.实习技术难点 3.项目技术难点 4.id timestamp 位置 三个字段完全一样的去重,sql怎么做scala怎么做 挑选同个人最后一个时间戳的记录,sql怎么做scala怎么做 5.spark submit提交参数 6.内存/并行度参数优化方案和技巧 7.当出现数据倾斜的时候怎么排查,怎么处理 不能只提八股,要完善分情况的答 8.两数之和 9.小数之和 10.反问,写sca
总评:一面已挂。有一些题记得不太清楚了,主要考察游戏理解、ABtest、业务。业务和ABtest还需要提升。 1. 自我介绍 2. 玩过哪些游戏。着重问了王者荣耀、决战平安京之类的MOBA手游。 3. 为什么法师一般走中路? 4. 怎么做ABtest? 5. 在完成了ABtest后,要给领导汇报,报表/汇报上该写哪些东西? 6. 游戏中的新手指引,如何从数据分析的角度来看新手指引有没有用?(提示:
字节 数据开发 8.22询问是否有意愿面试 8.28 约面 9.3 一面 自我介绍 1. 数据仓库建模理论 2.数据仓库分层相关 3.3道编程题 (2sql )很简单 面试官挺好。但是感觉要凉,面试官说如果有后续就继续推进,第一次面试,还好小姐姐好说话。
1.自我介绍 2.实习中需求方向源自于哪里,最终交付哪些东西 3.数据倾斜展开聊聊,数据倾斜的本质,热点数据处理 4.bitmap原理和运用场景 5.零点漂移怎么解决 6.常见的维度建模模型和方法 7.java的垃圾回收机制 8.关系型数据库介绍一下,和数据仓库的区别 9.MySQL索引 10.数仓分层介绍一下,分层的好处 11.spark宽窄依赖,算子举例 12.手撕:java二分查找,sql窗
面试官很好,这是我秋招面的时间最长的一个面试,整整1个小时。 1.自我介绍 2.挖项目 3.五个sql手撕,不让切屏 4.python口述手撕 5.奥数题(如何估计一个房间有多少老鼠) 6.详细问经历,每个经历都问
一面30分钟,总体感觉面试官温和还挺好的 1.自我介绍 2.根据简历提问了一点问题 3.要是给你一个场景打标的任务,你会在路口场景怎么打标(回答红绿灯车道线什么的) 4.要是没有红绿灯车道线,也没有标志物,是无保护路口,怎么做 5.怎么捕捉cut in场景,你会用什么判断 6.混淆矩阵 7.sql熟练程度,口头说了一下 8.python写快排 9.linux知道多少,了解ros系统吗 10.反问
太拷打了,我汗都流下来了 1.自我介绍 2.挑一个觉得做的最好的项目介绍一下 3.项目背景 4.你做的项目复杂度体现在哪些地方 5.数据流图是什么 6.为什么你说的数据流图是难点 7.如何确定你选的维表就是数据仓库中最合适的那张表 8.为什么要取最细粒度 9.数仓的了解渠道有哪些 10.讲讲从书中得到的数仓方法论 11.数据域是什么 12.题目:给一个10t的double类型数组,如何用一台内存1
timeline: 8.27一面(当晚发二面)---8.28二面(结束发三面)---8.30三面 一面-hr面 语速较慢,和蔼 1.工作内容和想象的不一样怎么办 2.评价其余互联网企业(大概是) 3.base地选择 二面-业务主管面 语速正常,专业性强,深挖项目 1.项目模型 2.机器学习八股简单问了问 3.业务题(感觉答得有点乱,面试官帮我梳理了夸我答的还不错) 三面-大leader面 超级专业
如何将数据导入数仓 ods层数据量有多大 flume如何保证数据的一致性和完整性 数仓分了哪几层 维度建模的模型,为什么使用这个模型 表的数据变化如何进行分区 dws层如何设计,举项目中例子 用到了哪些开窗函数 row number遇到数据一样如何排序 left semi join 和???的区别 orderby和sortby的区别 sparksql和hivesql的区别 arraylist和li