当前位置: 首页 > 面试经验 >

23秋招—猿辅导——数据分析(oc)

优质
小牛编辑
86浏览
2023-03-28

23秋招—猿辅导——数据分析(oc)

时间:9.4

问题:

一位小哥面试官,基本上来一直问业务题,节奏比较快

  • 快手部门的组织架构和上下游对接情况
  • 两段实习的取数需求、看板工作等的比重
  • 实习工作内容有差异,自己的倾向----分析比重更大
  • sql和python说思路

表中有user_id 和 friend_id,一共包括100人,去计算最小关系网

  • 预测--1000份面试的样本,抽象出特征,去做预测候选人是否通过的模型,怎么搭建?

(这个开放问题秋招竟然被问过两次,可以准备一下)

  • 试听课,家长还是小朋友的意愿更重,怎么去论证?

① 回答家长更重要,整体的想法是控制变量,在控制小孩子的指标下,去看家长的表现对课堂结果的影响

②小孩子指标(课堂回答率+课后作业完成率+课堂情绪捕捉等)

家长的指标(基本:家长年龄、城市等级、学历水平;行为:购课意愿、是否与班主任助教有交流等)

③第二个想法

○ 高志愿家长低志愿学生>低志愿家长高志愿学生

中低表现的小孩子,高意愿家长仍然转化率更高

面试后的反思新思路:

○ 可以通过决策树等模型的特征重要性去衡量:按照划分决策树的过程中选择特征的先后顺序来判断特征的重要性,或者在sklearn中有一个feature_importances_属性可以输出特征的重要性;

○ 借鉴投票机制,选择一种分类模型,分别训练出在两类特征下的分类器,并在测试集中验证正确率

i. 在训练数据集D下分别训练出四个分类器,每个分类器都是关于单特征的分类器,如分类器是关于小朋友的特征;

ii. 在测试集下分别测试四个分类器的分类效果,并统计正确分类个数分别表示四个特征下的正确分类数;

iii. 对第二步求出的做归一化处理,即可得到特征的权重。

○ 考虑利用缺一法来求得特征权重(适合4个以上的特征),过程如下:

i. 在训练数据集D下,分别训练缺少了第个特征的分类器,如分类器的特征为{收入,有房子,婚否};

ii. 在测试集下分别测试四个分类器的分类效果,并统计错误分类个数分别表示四个特征下的错误分类数。

iii. 对第二步求出的做归一化处理,即可得到特征的权重

  • 控制变量的时候,如果上述存在交叉影响如何排除,比如小孩上课的兴趣会影响到家长的意愿等

  • 试听课结束后,会有考试,怎么评估考试对后续报课是正向还是负向的影响?(类ab)

○ 去选定没有考试的实验组和有考试的对照组,做ab实验,看指标是否显著

○ 实验组:某期小朋友的课程,不设置考试

○ 对照组:往期根据家长、孩子特征(城市等级、教育背景、手机价格等)聚类出的相似人群,有考试

○ 指标选取:核心--报课转化率;辅助指标--听课率,上课回答率,作业完成率等

  • 衡量效果--京东做了618活动,618当时会有销售峰值,但此后两个月也会带来一个购买低谷,同时前期也投入了大量的营销等成本,如何衡量618的这个增量效果值得?

○ 指标就是GMV,用ROI评估活动本身是否增值,同时用618活动的6-8月一季度的gmv,与平时不做活动的6-8月销售额做对比,看是否增长

○ 平时gmv确定:用往年没进行618活动的每月gmv曲线,去拟合当年的数据,对不做活动的几月gmv做出预测,时间序列(往年是还是一个增量市场,可能一直涌入新用户,是用户增长带来6月销售额增多,而不是6月本身消费需求拉高了;时间序列)

总结:

1.非常非常注重业务思维,全程都在抛出一个又一个开放题,去对猿辅导斑马少儿课基本的业务流程要有了解,提前做下功课,找找指标量化

2.让我反思特别多的一场面试,上面的答案有的是我自己面试后复盘写的,思路可以参考,也欢迎交流

另外根据反馈,猿辅导的斑马线还是非常稳定的,其中数分分了增长方向/教研方向/产品方向等,可能有差池,记不太清了。政策影响不大,特别是字节叫停了一些教育线后,基本在少儿教育某些领域是绝对佼佼者,现在也在用户增长中,而且比较wlb,听说不加班,团队氛围很友好。

#数据人的面试交流地#
 类似资料: