TimeLine:一面20220424,二面20220427,三面20220505(已挂)
当时的BG:北邮本硕,管理类专业,两段实习经历:字节数据分析师、美团商业分析师
写在前面的话:该文档记录2023届暑期实习面试的相关问题,因此时间线分布在2022年。以下问题的答案可能存在错误,敬请读者批评指正
1.SQL考察
数据表内容:
播放表play_table,包含字段日期(dt),用户ID(user_id)、视频类型ID(video_type_id)、观看次数(play_cnt)
计算4月1日的7日内(4.2-4.8)的留存率,结果返回日期和留存率
with a as
(
Select distinct uesr_id as user_d0 from play_table where dt = '20220401'
),
with b as
(
select distinct user_id as user_d2_7 from play_table t1, a
where t1.user_id = a.user_d0
and datediff(dt, '20220401') between 1 and 7
)
select count(b.user_d2_7) / count(a.user_d0) as retention_rate
from a, b
2.Python考察
有两张数据表,分别为:
播放表play_table,结构同1.题
字典表video_type_dict,包含字段视频类型ID(video_type_id),视频类型名称(video_type_name)
问:每日每个视频类型观看的总次数
Tmp = play_table.join(video_type_dict, how='inner')
Tmp.groupby(['dt', 'video_type_name']).apply('sum')
3. 解释一下统计学的一类错误和二类错误
阐述一类错误和二类错误的概念,可画图进行辅助讲解
一类错误:原假设H0为真时,作出”拒绝原假设“的错误决策,也被称为弃真错误
二类错误:原假设H0为假时,作出”接受原假设“的错误决策,也被称为取伪错误
该图出自贾俊平、何晓群、金勇进编著的《统计学(第7版)》第158页
(a)图中,阴影部分为一类错误,概率大小等于显著性水平α;(b)图中,阴影部分为二类错误,概率大小通常命名为β,非阴影部分面积为1-β,通常命名为统计功效
由上图可知,一类错误的概率由显著性水平α决定,减小显著性水平会降低一类错误概率(即拒绝域向右移动,(a)图中阴影部分面积减小),但会提升二类错误概率(拒绝域向右移动,(b)图中阴影部分面积增大)
4. 追问:如果样本量增大,对一类错误概率和二类错误概率的影响?
一类错误概率由显著性水平决定,样本量增大不会影响一类错误概率:(此表述为当时的回答,答案的合理性存疑,因为《统计学(第7版)》第158页中写到:”当然,使α和β同时变小的办法也有,这就是增大样本量。“,读者可搜寻更多资料形成自己的观点)
样本量增大,会使得二类错误概率减小:根据3.题中的示意图,想象一下,当样本量增大时,样本观察值的方差减小,样本观察值会越向均值靠拢,因此样本观察值的概率密度曲线会变得更加“瘦高”,这也意味着阴影部分面积减小,即二类错误概率减小,统计功效增大
1.请比较一下逻辑斯蒂回归LR和极端梯度提升机XGBoost的异同?
2.请讲解一下CUPED的原理?(此问题与BG中实习内容相关)
具体可参见有哪些方法可以帮助AB测试显著更快一些?
剩余问题主要集中于简历上的实习经历,就不在此展开了
1. Python中dict插入、查询的时间复杂度分别是?list查询的时间复杂度是?
均为O(1),具体可参见Python常见数据结构的时间复杂度
2.请简要介绍一下SRM(Sample Ratio Mismatch,样本比例偏差)的概念
具体可参见:
策略效果分析中的两个代表性问题
实战干货|容易被忽视的样本比例偏差问题
剩余问题主要集中于简历上的实习经历,就不在此展开了
#数据分析##暑期实习##数据科学##腾讯#