当前位置: 首页 > 面试经验 >

2023届校招面经:第四范式-数据科学家(商业分析)

优质
小牛编辑
112浏览
2023-03-28

2023届校招面经:第四范式-数据科学家(商业分析)

#数据人的面试交流地#

TimeLine一面20220722二面20220727三面20220810HR面20220815,意向20220824

BG:北邮本硕,管理类专业,两段实习经历:字节数据分析师、美团商业分析师

一面

1. 简述p值的概念

定义1:根据检验统计量的样本观察值得出的概率,此概率为原假设可被拒绝的最小显著性水平

本质上是一种概率,可以由统计量的样本观察值计算出来,与显著性水平作比较时可以得出拒绝/不拒绝原假设的判断,这种检验方法也被称为p值法

定义2:当原假设为真时,比所得到的样本观察结果更极端结果出现的概率

拿抛硬币为例子,假设A手上有一个两面都是字的硬币,想通过抛硬币的方式让B来猜自己手上的硬币是不是正常硬币(指一面字一面花)B作假设检验,原假设为”硬币正常“,备择假设为”硬币不正常“

当抛硬币抛到第5次时,概率已经很小了(甚至小于显著性水平0.05),则B可根据小概率原理拒绝原假设(如果硬币是正常的,那么”连续出现5次字“的概率非常低,若实验时观察到”连续5次字“的现象,则说明”连续5次字“不是小概率事件,因此拒绝原假设”硬币是正常的“)

2. 如何向没有统计学基础的业务方从p值的角度解读AB实验的结果

AB实验的核心思想是假设检验,原假设为“策略/功能无效”(线上指标并不显著),备择假设为“策略/功能有效”(线上指标显著)。对于业务方而言,无须特别细究p值的定义,只需要向其说明p值小于AB实验设定的显著性水平即可判定策略或功能有效。

3. 决策树有哪三种?

ID3(仅可分类,判定标准为信息增益)、C4.5(仅可分类,判定标准为信息增益率)、CART(分类的判定标准为基尼系数、回归的判定标准为均方误差MSE)

4. 随机森林对样本的采样方式是什么?

重采样,即有放回采样

5. 追问:样本有多大的可能性不会被选入数据集中?

6. 对深度学习的了解?

本科毕设做的是情感分析,用到了CNN、RNN/LSTM/GRU

7. 两道算法题

问题1:

给定升序的int的array,对每个元素进行平方操作,并返回升序数组。
例如,arr = [-4, -3, 0, 1, 5, 6], 返回 result = [0, 1, 9, 16, 25, 36]


def func(arr):
#解法一:O(nlogn)时间复杂度
return list(map(lamdba x: x**2, arr)).sort(ascending=True)

#解法二:找最大数字,O(n)时间复杂度
result = []
while arr:
if len(arr) != 1:
if abs(arr[0]) > abs(arr[-1]):
result.append(abs(arr[0])**2)
arr = arr[1:]
else:
result.append(abs(arr[-1])**2)
arr = arr[:-1]
else:
reslut.append(abs(arr[0])**2)
arr = []
return result.reverse()

问题2:

给定3个坐标点的集合,如points=[[x1,y1],[x2,y2],[x3,y3]],

如果符合以下条件:1)3个点都是不同的;2)3点不在一直线上,

则返回True,否则返回False


#判断任意两点连线的斜率是否相等
def func(points):
return (points[0][1] - points[1][1]) * (points[0][0] - points[2][0]) != (points[0][0] - points[1][0]) * (points[0][1] - points[2][1])

二面

主要聊简历上的实习经历和项目经历

三面

主要聊简历上的实习经历和项目经历

HR面

1. 学校中导师的项目和实习中的项目有哪些区别?

2. 性格的优劣势?

3. 说说实习过程中最棘手的经历?

4. 如果后期有其他大厂的offer,会优先考虑范式吗?

#数据人的面试交流地##校招##秋招##面经##第四范式#
 类似资料: