2023届暑期实习面经：腾讯-技术研究（数据科学方向）

优质

小牛编辑

190浏览

2023-03-28

TimeLine：一面20220424，二面20220427，三面20220505（已挂）

当时的BG：北邮本硕，管理类专业，两段实习经历：字节数据分析师、美团商业分析师

写在前面的话：该文档记录2023届暑期实习面试的相关问题，因此时间线分布在2022年。以下问题的答案可能存在错误，敬请读者批评指正

一面

1.SQL考察

数据表内容：

播放表play_table，包含字段日期（dt），用户ID（user_id）、视频类型ID（video_type_id）、观看次数（play_cnt）

计算4月1日的7日内（4.2-4.8）的留存率，结果返回日期和留存率


with a as
(
Select distinct uesr_id as user_d0 from play_table where dt = '20220401'
),
with b as
(
select distinct user_id as user_d2_7 from play_table t1, a
where t1.user_id = a.user_d0
and datediff(dt, '20220401') between 1 and 7
)
select count(b.user_d2_7) / count(a.user_d0) as retention_rate
from a, b

2.Python考察

有两张数据表，分别为：

播放表play_table，结构同1.题

字典表video_type_dict，包含字段视频类型ID（video_type_id），视频类型名称（video_type_name）

问：每日每个视频类型观看的总次数


Tmp = play_table.join(video_type_dict, how='inner')
Tmp.groupby(['dt', 'video_type_name']).apply('sum')

3. 解释一下统计学的一类错误和二类错误

阐述一类错误和二类错误的概念，可画图进行辅助讲解

一类错误：原假设H0为真时，作出”拒绝原假设“的错误决策，也被称为弃真错误

二类错误：原假设H0为假时，作出”接受原假设“的错误决策，也被称为取伪错误

该图出自贾俊平、何晓群、金勇进编著的《统计学（第7版）》第158页

(a)图中，阴影部分为一类错误，概率大小等于显著性水平α；(b)图中，阴影部分为二类错误，概率大小通常命名为β，非阴影部分面积为1-β，通常命名为统计功效

由上图可知，一类错误的概率由显著性水平α决定，减小显著性水平会降低一类错误概率（即拒绝域向右移动，(a)图中阴影部分面积减小），但会提升二类错误概率（拒绝域向右移动，(b)图中阴影部分面积增大）

4. 追问：如果样本量增大，对一类错误概率和二类错误概率的影响？

一类错误概率由显著性水平决定，样本量增大不会影响一类错误概率：（此表述为当时的回答，答案的合理性存疑，因为《统计学（第7版）》第158页中写到：”当然，使α和β同时变小的办法也有，这就是增大样本量。“，读者可搜寻更多资料形成自己的观点）

样本量增大，会使得二类错误概率减小：根据3.题中的示意图，想象一下，当样本量增大时，样本观察值的方差减小，样本观察值会越向均值靠拢，因此样本观察值的概率密度曲线会变得更加“瘦高”，这也意味着阴影部分面积减小，即二类错误概率减小，统计功效增大

二面

1.请比较一下逻辑斯蒂回归LR和极端梯度提升机XGBoost的异同？

2.请讲解一下CUPED的原理？（此问题与BG中实习内容相关）

具体可参见有哪些方法可以帮助AB测试显著更快一些？

剩余问题主要集中于简历上的实习经历，就不在此展开了

三面

1. Python中dict插入、查询的时间复杂度分别是？list查询的时间复杂度是？

均为O(1)，具体可参见Python常见数据结构的时间复杂度

2.请简要介绍一下SRM（Sample Ratio Mismatch，样本比例偏差）的概念

具体可参见：

策略效果分析中的两个代表性问题

实战干货|容易被忽视的样本比例偏差问题

剩余问题主要集中于简历上的实习经历，就不在此展开了

#数据分析##暑期实习##数据科学##腾讯#

2023届暑期实习面经：腾讯-技术研究（数据科学方向）

一面

二面

三面

热门公司

相关阅读

推荐文章

推荐题库

推荐问答