时隔4个月 又来牛客求offer了 发面经攒人品 速速来oc timeline:8.29投递-9.2笔试-9.8一面-9.19二面-9.27hr面 2023.02.08 update 泡死啦 现在都没消息!!! 一面 28min 自我介绍 三段实习经历每一段提问一个项目并深入提问 sql 机器学习 反问 二面 25min 自我介绍 然后感觉不知道问啥 随便问了两个问题 就开始反问 这时候才十分钟吧
一面 40min 0906 没有任何八股,全程讨论抖音数仓架构。重点于日常业务与架构优化。 二面 30min 0915 没有任何八股,全程围绕一个问题展开:数仓未来出路。答较烂,最后答案大约是脱离数仓的固有边界,向上走往业务靠拢 吐槽一下这个答案。在一般的大厂,如果划定了公共层与应用两个组,那做公共层是不能也没法向业务方对接的,因为业务方是去找应用同学承接业务。如果公共层数仓同学去接业务,不仅没有
一面 40min 0914 没有问任何八股,主要还是围绕抖音的数仓建设、架构优化、日常业务展开。 关于为什么不具体写数仓建设与架构优化方案,一来是每个公司并不相同,没有可参考性,拿最简单的分层,每个公司的分层都不一样,所以没有在面经中展开这些相关信息。二来这本身属于公司内部信息,没法在平台上展开讲。 #数据仓库与数据分析实习##秋招##秋招面经##2023秋招#
一面 40min 0919 不记得问了什么,大致好像是围绕目前的实习展开。 二面 40min 0920 努力回忆一下,问了一些八股 1. 为什么划分宽窄依赖? 2. Checkpoint和Persist? 3. MR过程? 4. 为什么Spark比Hive快?(这其实不合理,一个计算引擎和一个数仓工具,没法比较,面试官应该想问的是Spark和Hive的默认MR引擎吧,然后按照这个方向回答的) 5.
一面 30min 仍然记不得了,努力回忆一下 实习数据有多大? 这么大的数据量需要多少资源? 多线程的三要素? Java的内存模型? 宽窄依赖? Spark为什么快? Spark的Shuffle有几种? (不记得了 二面 20min 用ES或者HBase跟用Hive有什么区别? 怎么技术选型? 总结:是吉利下面的子部门,主做出行方面数据,数据量较小,且人员较少。 #数据仓库与数据分析实习##秋招#
背景:本硕中上985,本科数学专业,硕士计算机,投递岗位总行数据开发岗位,有两段算法实习,自己跟着CMU做过一个数据库项目,目前还在做一个TInyKV,代码能力一般。 9.30 笔试 笔试内容包括 - 行测 - 基础知识: 1. 大数据开发相关,spark,hive,hadoop等内容,因为没有做过相关工作,基本靠猜 2. 计算机
2022.10.10 一面 1h TDL优化推动存在什么问题? 所有的下游修改代码由公共层实现是合理的吗?如果不合理有什么解决方法? 目前整个数仓多少任务?(母鸡 目前数仓分几层?你觉得目前分层中的平衡应该怎么做到或者有什么思考? SQL题:一个tb表,里面有姓名,课程分数,课程名称,目标:取最高课程分数的学生名字。我的答案用了join,然后提问:join的优化有哪些? Java题:反转字符串,用
#迅雷#数据分析师 #笔试 1.hivesql条件判定语句 2.房间里有产品经理和开发人员,2人离开,1人是产品经理。求房间里开发人员的概率 3.一个部门,五分之二为数据开发,五分之二为数据分析,都从事的有四分之一,求都不从事的人员概率 4.推送会员卡折扣给长期未使用用户,其目的是(营收,流失,用户找回,拉升新增) 5.mapreduce如何解决数据倾斜 count,join,大小表,grou
10.10 一面 12min 明明写的数据开发,招的是数据挖掘..... 全问的算法,一个大数据的东西都没问 满满的槽点,邮件上写的面试时间20min,然后一直等,然后hr说是上一个人还没面完.....再怎么没面完也不会让人等超过20min吧,结果等了半个多小时.......还是3个专业面试官,面试就12min,明明写的是大数据开发岗,说我怎么经历都是数据开发......招的又是数据挖掘,直接单开
笔试(10.11) 岗位是数据开发,一道编程,几十道选择。难度不大,但涉及面挺广。 一面(10.15) 笔试完,隔天约面,效率很高。 项目介绍,自己的分工 特征选择方法 数据挖掘中对于缺失值的处理方案 说一下Python(pandas)中常用的数据处理算子。 Spark的原理,分布式是怎么搭建的。 Sql中union和union all的区别 数据行转列怎么操作 xgboost和gbdt的区别 x
9.28晚上十点电话没接到-9.29下午四点电话没接到-9.29晚上十点半约9.30面试 电话面 35min 自我介绍 讲了两个实习项目均没有深入提问 机器学习 -讲两个无监督 两个有监督学习算法 -讲的算法优缺点都是什么 -过拟合怎么处理 -知道决策树ID3吗 讲一下信息增益的公式 数据分析使用什么工具 sql:每个商家近三个月最大的三笔订单 python:给你一个数列怎么转换成数组 用哪个库的
字节跳动提前批:data-电商 数据科学 一面,部门成员:~50min 1. 自我介绍 2. 机器学习 a) XGBoost:损失函数推导、特征重要性的计算方法 b) 为什么用SHAP计算特征重要性,不用XGBoost自带的方法(实习项目) 3. AB test a) 对于不同类型的指标,分别要怎么做统计检验 b) 用非参数方法检验偏态分布的指标,统计功效较低,有什么其他方法
时间线:9.4投递,9.16一面,9.21二面(和hr改的时间),9.26三面,全程hr电话约面 一面技术 1. 特征工程常用方法 归一化标准化、离散化(分箱、onehot编码)、组合降维等等 2. 分类样本不均衡如何解决 欠采样、过采样 3. 针对A/Btest经历——如果使用抽样调查方法如何确定样本量和分桶(统计学意义上)
部门是战略线-商业决策,看了不少面经,认真准备还是难逃一挂 时间线:9.20投递,10.11一面,10.20二面,当天挂 一面挖简历,70min 针对实习经历 1. 以一个策略为例,说明指标体系和监控标准 追问: XX策略为什么能达到增长的效果 对于增长明显的策略,主要是什么原因促成了增长 2. 对于规模小但是转化率高的活动,如何衡量活动效果(例如两个活动
1101 - 技术面 自我介绍 实习经历 K8S: K8S 和 Spring Cloud 了解 如何基于 K8S 部署服务 K8S 部署服务的流程 基于 Spring 开发过的个人项目,是课程吗 对巨杉了解 算法 1103 - HR 面 自我介绍 校园经历 实习经历 Offer: 手头 Offer 及薪资待遇,偏向程度 期望薪资 相同薪资的 Offer 如何选择 个人优势 反问 #面经##校招##