当前位置: 首页 > 面试经验 >

25校招-字节跳动-数据分析面经

优质
小牛编辑
62浏览
2024-12-31

25校招-字节跳动-数据分析面经

秋招已经结束啦,写个面经攒人品,也欢迎大家就下面的场景题进行讨论,希望下次跳槽可以去字节~
反思自己非科班出身基础不够扎实,也没有过电商和短视频平台的实习经历,很多业务场景都理解的不够透彻,所以到最后还是挂掉啦
一面(考察基础)
1.本硕为什么选择这个专业?非统计/数学/ds出身,做数分的motivation?每段实习的成长是什么?
2.拷打实习项目:侧重提问因果推断和AB实验项目
3.手撕两道SQL,涉及窗口函数和join,不难
4.机器学习:阐述Kmeans和集成学习的原理
5.AB testing:一二类错误、最小样本量公式、实验周期怎么确定,不同指标类型用什么检验方式以及为什么
6.统计学:几种t检验的区别和应用场景
二面(考察ds方法和具体情景的结合)
1.深挖因果推断项目
2.抖音用户增长团队发现app的DAU较上周环比持平,但人均使用时长增长了10%,排除内部数据口径问题,如何做异动拆解?
答:先确定大的影响因素,再拆解细分维度。节假日、竞对产品结束大促等活动、抖音内部上线活动,结合历史10%增长数据情况,识别单因素or多因素影响及对影响的贡献。按营销渠道、用户画像、抖音细分产品版块拆解
3.定位到是内部电商版块双十一活动带来的在线时长增长,具体活动策略是给用户发券(使用app 1小时就可以领5元电商券,时长重复累计)
(1)这种情况下可以开AB嘛?
答:不行,因为活动是平台公开透明的,无法满足AB随机分流的条件
(2)那怎么评估增量效果?
答:PSM+DID,利用活动前的相似用户群体进行DID评估增量,可以从画像属性特征、用户浏览app行为习惯、购买偏好特征进行混杂变量的选取
(3)如果只有30%的用户能匹配上,该怎么办?
答:调整混杂变量的选取方式或者调整匹配过程中的相似度度量方式
(4)除了psm还有其他办法解决吗?可以从DAU一直在稳步增长的趋势考虑
答:时间序列模型预测
(5)具体说说对时间序列的理解
答:粗略分两种,一种是根据所有历史数据预测,另一种通过滑动窗口预测
(6)更细致的话,时间序列模型可以用什么,考虑进什么因素
答:prophet,考虑周期性变化、季节和节假日影响、异常值或缺失值
4.为了进一步提升人均在线时长,内容团队决定优化推荐策略,在海量宠物狗类视频上为用户推荐top10的优质内容:
(1)该如何设计指标体系衡量优质内容(聚焦在用户历史播放行为数据指标上,假设所有指标都可取到)?
答:(重新clarify问题:通过用户历史行为数据设计指标体系来衡量优质内容)
可以分三个方面:
- 播放本身:用户跳出率(设置5s/10s跳出的分段),完播率(设置50%/75%/100%分段)
- 互动情况:转评赞收藏率
- 关注情况:观看后对博主的关注率
(2)追问:假设用了跳出率、点赞率和关注率三个指标衡量内容优质得分,该怎么设计评分标准?
答:结合历史数据或其他领域的内容视频推荐情况,训练回归预测模型,确立各指标的权重
(3)每个指标的取值范围不同,直接建模会有影响,怎么做标准化处理?
答:Min Max Scaler/standard scaler....
反问了对校招生的要求:
面试官说这些题比较灵活,主要考察候选人的思维方式和对待这类问题的态度
三面(什么都会问问,比较全面)
1.仍然拷打因果推断项目,但更关注项目的背景和对业务方的impact
2.除了CI还有别的因果推断方法吗?
答:PSM+阐述应用场景+流程(识别对照用户群体+计算倾向分+找衡量方式matching+DID平行性检验)
问:计算倾向分的方式?以及更喜欢用哪种&为什么?
答:回归/树模型;树模型更好,可以拟合非线性关系
3.AB实验样本量计算涉及的因素
答:犯一二类错误的概率,样本方差和预期提升
【过渡】因为前面的项目涉及到了roi的评估指标,在这里重新定义新指标“体验roi”,下面围绕着这个的场景来问:
---这道题太长了,面试时理解成本有点高,答得不好---
4.假设滴滴打车用户在某次订单结束后有了差体验,平台想要挽留用户,会对他差体验这单进行补贴,这里产生体验成本;但如果平台并不对这部分用户进行补贴,只是道个歉,短期内滴滴也没有更好的替代品,这部分即使体验不好但也会继续使用滴滴,gmv不会降低。但是从长期来看,如果市场出现了一款滴滴竞品,那么这部分有过差体验的用户就会流失掉成为竞对的用户,长期的gmv会下降,想要看补贴这部分用户的“体验roi”,delta gmv没法用短期数据衡量,可以通过短期的用户满意度指标衡量,给出一个方案建立用用户满意度度量长期gmv变化值的系数
答:给了两个方向(1)通过历史数据,加入其他相关指标和用户满意度指标共同拟合出长期gmv变化关系,带入用户满意度的系数;(2)通过其他竞品或公司其他产品的系数作参考
追问:回归方程变量前的系数代表什么?
答:相对的影响权重
追问:这里的满意度怎么取数?按人群取还是by天(我不太懂)
答:按时间分段?某一类人群有失偏颇,不能代表全量用户值
5.滴滴这种平台涉及到合理分配资源,尽量满足供需关系。那如何衡量达到了供需平衡的状态呢?
答:拆分时段x区域(poi)交叉维度,看应答率、完单率以及司机空闲率
问:这是三个指标,怎么根据它们仨判断出一个具体的供需平衡态呢?
答:根据每个细分时段x区域,分别作曲线图找拐点:横坐标为在线车辆(司机)数量,纵坐标为三个率指标,分别找拐点,取三条线都最接近拐点的司机数则为当下时段x区域的供需平衡态
6.美团单车用户中有一部分是羊毛党,他们可能真实骑了半小时、5块钱的单,但是骑行结束付款后找平台客服撒谎:只骑了1块钱的单,是平台多收钱了,要求退款,怎么帮助客服识别这部分羊毛党
答:通过这单骑行路线+时间+相似订单价格+历史沟通(要求refund)记录;其中骑行路线可以细化到骑行路线中是否在某点有停留以及停留时长
7.如果把第4题这种roi的测算专项交给我,我怎么展开工作?
答:先查看团队空间是否有相似需求的历史文档可参考+询问有经验同事的思路,拟定一版思路和业务团队讨论,看是否有没考虑到的业务因素,和业务拉齐后重新修订,再找自己leader review是否在数据侧可行,是否需要做进一步调整
8.三个词评价自己?能接受加班吗?
笑死当然是能加班了!
9.可以更早地到岗提前实习吗?最近组里有大项目需要人跟
人还在国外上学,不能回去打工...orzz
#数据分析##数据分析秋招[话题]##数据科学家##数据分析面经##字节数分##字节跳动#
 类似资料: