常用数据挖掘算法
优质
小牛编辑
131浏览
2023-12-01
1.1 KNN
1.1.1 思想
- 计算离待分类点距离最近的 K 个已分类点,K 个点中出现最多点种类为待分类点的种类。
1.1.2 距离
常见距离有欧式距离和余弦距离。余弦距离可以消除量纲的影响。相关系数
2. 聚类算法
2.1 K-means
2.1.1 思想
2.1.1.1 模型训练
- 根据类别个数 N,初始化 N 个点,作为该类别的中点。
- 遍历其他点,计算距离最近的中心点,该中心点的类别为当前点的类别,重新计算该类别的中点,计算方法:(N*x+x1)/(N+1),x 为先前平均坐标,x1 为加入点坐标,N 为点个数。
- 迭代至中心点偏移低于阈值,模型训练结束。
3. 关联算法
3.1 Apriori
3.1.1 算法思想
如果一个商品组合不满足最小支持度,那么所有包含这个商品组合的其他商品组合也不满足最小支持度。
- 第一步:设置最小支持度。
- 第二步:寻找满足最小支持度的单件商品。
- 第三步:从以上满足最小支持度的单件商品中,进行两两组合,以第二步输出订单为源数据,计算满足最小支持度的两件商品组合。
- 第四步:将第二步输出的单件商品和第三步输出的两件商品进行组合,以第三步输出订单为源数据,计算满足最小支持度的两件商品组合。
- 1+3,1+4,迭代至没有满足最小支持度的商品组合。
4. 应用:推荐系统
- 基于人口统计的推荐:使用人口基本信息对用户进行分类,向用户推荐同类用户购买的商品。
- 基于商品属性的推荐:使用商品信息对商品进行分类,根据用户的历史行为对用户进行分类。
- 基于商品的协同过滤推荐:如果两个商品,喜欢它们对用户具有较高的重叠性,就认为它们的距离较近,划分为同类商品,然后进行推荐。
- 基于用户的协同过滤推荐:如果两个用户,喜欢的商品具有较高的重叠性(KNN),就认为它们的距离较近,划分为同类用户,然后进行推荐。