当前位置: 首页 > 面试经验 >

2023届暑期实习面经:腾讯-技术研究(数据科学方向)

优质
小牛编辑
165浏览
2023-03-28

2023届暑期实习面经:腾讯-技术研究(数据科学方向)

TimeLine:一面20220424,二面20220427,三面20220505(已挂)

当时的BG:北邮本硕,管理类专业,两段实习经历:字节数据分析师、美团商业分析师

写在前面的话:该文档记录2023届暑期实习面试的相关问题,因此时间线分布在2022年。以下问题的答案可能存在错误,敬请读者批评指正

一面

1.SQL考察

数据表内容:

播放表play_table,包含字段日期(dt),用户ID(user_id)、视频类型ID(video_type_id)、观看次数(play_cnt)

计算4月1日的7日内(4.2-4.8)的留存率,结果返回日期和留存率


with a as
(
Select distinct uesr_id as user_d0 from play_table where dt = '20220401'
),
with b as
(
select distinct user_id as user_d2_7 from play_table t1, a
where t1.user_id = a.user_d0
and datediff(dt, '20220401') between 1 and 7
)
select count(b.user_d2_7) / count(a.user_d0) as retention_rate
from a, b

2.Python考察

有两张数据表,分别为:

播放表play_table,结构同1.题

字典表video_type_dict,包含字段视频类型ID(video_type_id),视频类型名称(video_type_name)

问:每日每个视频类型观看的总次数


Tmp = play_table.join(video_type_dict, how='inner')
Tmp.groupby(['dt', 'video_type_name']).apply('sum')

3. 解释一下统计学的一类错误和二类错误

阐述一类错误和二类错误的概念,可画图进行辅助讲解

一类错误:原假设H0为真时,作出”拒绝原假设“的错误决策,也被称为弃真错误

二类错误:原假设H0为假时,作出”接受原假设“的错误决策,也被称为取伪错误

该图出自贾俊平、何晓群、金勇进编著的《统计学(第7版)》第158页

(a)图中,阴影部分为一类错误,概率大小等于显著性水平α;(b)图中,阴影部分为二类错误,概率大小通常命名为β,非阴影部分面积为1-β,通常命名为统计功效

由上图可知,一类错误的概率由显著性水平α决定,减小显著性水平会降低一类错误概率(即拒绝域向右移动,(a)图中阴影部分面积减小),但会提升二类错误概率(拒绝域向右移动,(b)图中阴影部分面积增大)

4. 追问:如果样本量增大,对一类错误概率和二类错误概率的影响?

一类错误概率由显著性水平决定,样本量增大不会影响一类错误概率:(此表述为当时的回答,答案的合理性存疑,因为《统计学(第7版)》第158页中写到:”当然,使α和β同时变小的办法也有,这就是增大样本量。“,读者可搜寻更多资料形成自己的观点

样本量增大,会使得二类错误概率减小:根据3.题中的示意图,想象一下,当样本量增大时,样本观察值的方差减小,样本观察值会越向均值靠拢,因此样本观察值的概率密度曲线会变得更加“瘦高”,这也意味着阴影部分面积减小,即二类错误概率减小,统计功效增大

二面

1.请比较一下逻辑斯蒂回归LR和极端梯度提升机XGBoost的异同?

2.请讲解一下CUPED的原理?(此问题与BG中实习内容相关)

具体可参见有哪些方法可以帮助AB测试显著更快一些?

剩余问题主要集中于简历上的实习经历,就不在此展开了

三面

1. Python中dict插入、查询的时间复杂度分别是?list查询的时间复杂度是?

均为O(1),具体可参见Python常见数据结构的时间复杂度

2.请简要介绍一下SRM(Sample Ratio Mismatch,样本比例偏差)的概念

具体可参见:

策略效果分析中的两个代表性问题

实战干货|容易被忽视的样本比例偏差问题

剩余问题主要集中于简历上的实习经历,就不在此展开了

#数据分析##暑期实习##数据科学##腾讯#
 类似资料: