TimeLine:一面20220722,二面20220727,三面20220810,HR面20220815,意向20220824
BG:北邮本硕,管理类专业,两段实习经历:字节数据分析师、美团商业分析师
1. 简述p值的概念
定义1:根据检验统计量的样本观察值得出的概率,此概率为原假设可被拒绝的最小显著性水平
本质上是一种概率,可以由统计量的样本观察值计算出来,与显著性水平作比较时可以得出拒绝/不拒绝原假设的判断,这种检验方法也被称为p值法
定义2:当原假设为真时,比所得到的样本观察结果更极端结果出现的概率
拿抛硬币为例子,假设A手上有一个两面都是字的硬币,想通过抛硬币的方式让B来猜自己手上的硬币是不是正常硬币(指一面字一面花)B作假设检验,原假设为”硬币正常“,备择假设为”硬币不正常“
当抛硬币抛到第5次时,概率已经很小了(甚至小于显著性水平0.05),则B可根据小概率原理拒绝原假设(如果硬币是正常的,那么”连续出现5次字“的概率非常低,若实验时观察到”连续5次字“的现象,则说明”连续5次字“不是小概率事件,因此拒绝原假设”硬币是正常的“)
2. 如何向没有统计学基础的业务方从p值的角度解读AB实验的结果
AB实验的核心思想是假设检验,原假设为“策略/功能无效”(线上指标并不显著),备择假设为“策略/功能有效”(线上指标显著)。对于业务方而言,无须特别细究p值的定义,只需要向其说明p值小于AB实验设定的显著性水平即可判定策略或功能有效。
3. 决策树有哪三种?
ID3(仅可分类,判定标准为信息增益)、C4.5(仅可分类,判定标准为信息增益率)、CART(分类的判定标准为基尼系数、回归的判定标准为均方误差MSE)
4. 随机森林对样本的采样方式是什么?
重采样,即有放回采样
5. 追问:样本有多大的可能性不会被选入数据集中?
6. 对深度学习的了解?
本科毕设做的是情感分析,用到了CNN、RNN/LSTM/GRU
7. 两道算法题
问题1:
给定升序的int的array,对每个元素进行平方操作,并返回升序数组。
例如,arr = [-4, -3, 0, 1, 5, 6], 返回 result = [0, 1, 9, 16, 25, 36]
def func(arr):
#解法一:O(nlogn)时间复杂度
return list(map(lamdba x: x**2, arr)).sort(ascending=True)
#解法二:找最大数字,O(n)时间复杂度
result = []
while arr:
if len(arr) != 1:
if abs(arr[0]) > abs(arr[-1]):
result.append(abs(arr[0])**2)
arr = arr[1:]
else:
result.append(abs(arr[-1])**2)
arr = arr[:-1]
else:
reslut.append(abs(arr[0])**2)
arr = []
return result.reverse()
问题2:
给定3个坐标点的集合,如points=[[x1,y1],[x2,y2],[x3,y3]],
如果符合以下条件:1)3个点都是不同的;2)3点不在一直线上,
则返回True,否则返回False
#判断任意两点连线的斜率是否相等
def func(points):
return (points[0][1] - points[1][1]) * (points[0][0] - points[2][0]) != (points[0][0] - points[1][0]) * (points[0][1] - points[2][1])
主要聊简历上的实习经历和项目经历
主要聊简历上的实习经历和项目经历
1. 学校中导师的项目和实习中的项目有哪些区别?
2. 性格的优劣势?
3. 说说实习过程中最棘手的经历?
4. 如果后期有其他大厂的offer,会优先考虑范式吗?
#数据人的面试交流地##校招##秋招##面经##第四范式#