zip函数用于将多个可迭代对象(如列表)的对应元素打包成元组,然后返回一个由这些元组组成的迭代器。如果传入的可迭代对象长度不一致,zip函数会以最短的对象长度为准
setdefault() 是字典提供的一个方法,用于在获取字典中的值时设置默认值,如果字典中包含给定键,则返回该键对应的值;如果字典中不包含给定键,则将该键插入字典,并将其值设为默认值(可选参数),然后返回该默认值
Z-得分规范化并不是离散化方法,而是一种常见的数据规范化方法,用于将数据按照均值和标准差进行线性变换,使得数据服从标准正态分布
关联规则挖掘算法的目的是利用一些度量指标来分辨数据库中存在的强规则,用于知识发现,而不是预测,该方法属于无监督机器学习方法
向上偏移和向下偏移,timestampdiff()函数
进制转换CONV() 函数,第一个参数是要转换的数值,第二个参数是当前数值进制,第三个参数是目标数值的进制,注意单引号,如"5F"
条件概率问题
线性规划问题
ROC曲线,(0, 0) 点表示所有样本的预测结果均为负例,此时设置的阀值很大
numpy中四舍五入和取整函数区别
arr = np.array([-1.5, 1.5])
的处理结果:
np.round(arr)
:这个函数执行标准的四舍五入操作。对于-1.5,由于它处于两个整数的中间,并且负数的四舍五入是向更小的整数方向进行(即向负无穷方向),所以-1.5四舍五入为-2。对于1.5,它四舍五入为2。输出结果:[-2. 2.]np.floor(arr)
:这个函数返回不大于输入元素的最大整数。对于-1.5,不大于它的最大整数是-2;对于1.5,不大于它的最大整数是1。输出结果:[-2. 1.]np.ceil(arr)
:这个函数返回不小于输入元素的最小整数。对于-1.5,不小于它的最小整数是-1(注意,尽管-1比-1.5小,但它是第一个不小于-1.5的整数);对于1.5,不小于它的最小整数是2。输出结果:[-1. 2.]np.trunc(arr)
:这个函数返回输入元素的整数部分,直接截断小数部分。对于-1.5,整数部分是-1;对于1.5,整数部分也是1(注意,这与四舍五入不同,它只是简单地去掉小数部分)。输出结果:[-1. 1.]np.rint(arr)
:这个函数执行“round to nearest even”的舍入模式,也称为银行家舍入法。对于1.5,它舍入为2(与np.round相同)。但对于-1.5,它舍入为-2,尽管它也可以舍入为-1,但根据银行家舍入法,它选择最近的偶数整数(在这种情况下是-2,因为-2是偶数且比-1更近)。然而,在NumPy的实现中,对于正好位于两个整数中间的浮点数(如-1.5和1.5),np.rint的行为可能与np.round相同,具体取决于NumPy的版本和底层的C库。但在这个上下文中,我们可以假设它与np.round的行为相同。输出结果(假设与np.round相同):[-2. 2.]在Pandas中,使用.query()方法时,如果要在查询字符串中引用DataFrame外部的变量,需要使用@前缀来标记这些变量。这是因为.query()方法默认只在其内部作用域中查找变量名,而使用@前缀可以明确地指示Pandas在外部作用域中查找变量
GBDT梯度提升决策树,其中的基学习器通常是CART(Classification and Regression Trees,分类与回归树)决策树
Patsy库,用于标准化的函数是standardize,而用于中心化的函数是center
生成式模型{贝叶斯模型} 和 判别式模型{逻辑回归,SVM支持向量机,条件随机场}
在关联规则挖掘中,支持度置信度比常用于衡量关联规则的强度和重要性
哈夫曼树与带权路径长
入栈出栈
归并排序(完成的前一步)