9.7投递,9号电话约面15号(后因面试官临时有事改为19号) 字节的面试开放性很高,都是根据简历来 自我介绍 根据实习和项目问问题:为什么用线性回归模型,为什么用KNN,怎么向不懂的人直白地介绍KNN,怎么优化预测算法,更多的预测算法 介绍常用的app:网易云音乐,介绍下不足:推荐算法不准确,怎么优化算法,怎么测试优化后的算法:ABtest,怎么给推荐算法的数据集设置权重并验证,怎么确认是推荐算
之前一直在牛客找面经,对自己帮助也很大,意向了也写一篇,感谢! 一面: 1、介绍项目 2、ODS和DWD怎么区分,分别存什么样的数据 4、跨数据域问题,怎么做的 5、有哪些宽表,对应什么指标和业务过程 6、留存率、漏斗分析等,是怎样的开发过程,后续使用 7、任务性能优化或代码方面的优化 8、hive on spark和spark区别,计算时间上有差异吗 9、kylin为什么快 10、两道SQL
2024年9月25日 一面 15:00开始,15:35结束 技术问题 java 中常用集合有哪些? HashMap 的实现原理? HashSet 的实现原理及使用原理? ArrayList 和 LinkedList 有什么区别? 双亲委派策略是什么? 深拷贝和浅拷贝的区别?怎么实现? 序列化和反序列化实现的是深拷贝还是浅拷贝? java创建线程的方式 线程池使用的时候应该注意哪些问题 BIO、NI
可以提前准备好答案,也就那么几题,录制视频后会转成文字,可编辑文字。 一个小时,四题,每题限时6min。 1、分享一段你达成挑战性目标的经历。当时你的目标是什么?挑战在哪里?过程中你做了哪些关键行动最终保证了目标的实现 2、请分享一段你学习新知识和技能并运用于生活或工作的经历。你为什么要学习这个知识技能?过程中遇到哪些困难?你做了什么来掌握?最终如何在实践中应用的? 3、请分享一段通过你的沟通协调
1、自我介绍 2、MR的执行过程,用了几次排序,Reduce怎么知道拉取哪些数据 3、RDD的底层实现(Spark用的不多就没问了) 4、项目介绍(没有针对项目进行提问) 5、SQL优化思路,具体讲了关于数据倾斜这块 6、SQL题:包含班级、学生、课程、分数的表,查询每个班每门课前三的学生 7、SQL题:包含user_id和target_id的表,找到互相关注的用户,优化不用join实现 8、SQ
1、自我介绍 2、为什么要去北京 3、MR的原理 4、为什么环形缓冲区到80%之后才反向溢写 5、SQL中哪些函数走MR,max走不走 6、select a,count(distinct b) from table group by a,MR的流程 7、SQL优化,如果给你两张表,用户视频表和用户粉丝表,怎么处理数据倾斜 8、SQL题:每个用户都有5门成绩,总计6列。请生成两列,其中1列是用户ID
1、自我介绍 2、看我用Java,问我Java程序的执行过程,然后Java怎么跨平台 3、基本数据类型,是否可以相互转换 4、自动装箱自动拆箱,Integer i = 100 是什么过程 5、深拷贝浅拷贝 6、Java是值传递还是引用传递 7、JVM的理解 8、堆是怎么划分的,实际有没有用到有关JVM的地方 9、垃圾清除算法说一下,什么时候FullGC 10、多线程,线程安全,线程通信之类的 11
美团一面3.20 1、聊项目 对我研究生的课题很感兴趣,让我展开讲一讲 2、说说对数据湖的看法,企业里应用数据湖还处于探索阶段,问我觉得这是什么原因 3、hadoop的架构原理是什么呢?有哪几个部分组成 4、hadoop是如何去读取和写入一个文件的 5、HDFS存储文件,是怎么进行存储的? 6、假如我有一个千兆的文件,那是怎么上传到HDFS上呢?具体是什么一个过程? 7、Hadoop默认副本是几个
自我介绍 讲项目(but项目经历貌似不匹配)全程都是我在输出 然后问了一下java new一个对象还有其他方式吗?克隆?? 操作系统进程和线程的区别 讲一些数据科学和数据开发的区别(他说我更适合数据科学qwq) 后面反问:你们是做什么的 好像是爬取数据建数仓emmmmm Over 他让我去做一下笔试题我也不知道这是什么意思emmmmm (可能是看我笔试成绩再决定挂不挂我???)
#你都收到了哪些公司的感谢信?# #晒一晒我的offer# #数据人的面试交流地# #数据人offer决赛圈怎么选# #数据分析#
没想到实习的第一面给了团子,记录一下: 1.面试官上来直接介绍业务:美团金融,负责借贷、理赔的,对这个挺感兴趣 2.发散:说说大数据和计算机专业的区别 3.谈谈对chatgpt的理解 4.介绍一下自己的项目背景(尚硅谷电商离线数仓) 5.两阶段聚合是怎么解决数据倾斜的 6.拉链表如何解决维度缓慢变化 7.数仓的分层结构 8.数仓的建模流程 9.如果产品给了一个用目前技术无法解决的问题,该怎么办?
1.自我介绍 2.实习中需求方向源自于哪里,最终交付哪些东西 3.数据倾斜展开聊聊,数据倾斜的本质,热点数据处理 4.bitmap原理和运用场景 5.零点漂移怎么解决 6.常见的维度建模模型和方法 7.java的垃圾回收机制 8.关系型数据库介绍一下,和数据仓库的区别 9.MySQL索引 10.数仓分层介绍一下,分层的好处 11.spark宽窄依赖,算子举例 12.手撕:java二分查找,sql窗
一面:3.14 1.首先问实习经历,简单说了下是做数据处理跟分析,然后又简单问了一下实验室项目,没有深入问 2.Java的数据结构有哪些 3.聊一下数组这种数据结构,各种操作的时空复杂度,arraylist的扩容。 4.有哪几种树? 5.详细介绍一下b树跟b+树,b+数查询时间复杂度,为什么? 6.b+数有哪些商业用途(答了MySQL索引) 7.增删改比较多的情况下,为什么一段时间后要重新建立索引
时间线: 5.10一面 —— 5.14约二面 —— 5.17二面 —— 5.25直接发offer 无hr面,无oc 美团一面 1.项目 1)项目的总体架构和实现? 2)Flulme 和 Sqoop 如何保证数据不丢失? 3)数仓中的主题是什么,是根据什么来确定的? 4)数仓分层的优点和缺点 5)星座模型 6)数仓分层,每一层的作用? 7)事实表和维度表有什么关系? 8)事实表有哪些类型? 9)除了
2022/06/15 一面 35min 1:介绍项目 2:数仓分为几层?每一层作用? 3:数仓分层的意义? 4:flume导入数据到HDFS 为什么中间加kafka? 5:项目中可视化用什么做的? 6:SQL题 一列为日期 一列为金额 按月统计金额总和 7:MapRedcue原理 8:MapReduce的三个阶段 9:研究生上的课 10:接触过实时的大数据业务吗? 反问:部门技术栈 ?实习的话