常用数据挖掘算法

优质
小牛编辑
138浏览
2023-12-01

1.1 KNN

1.1.1 思想

  • 计算离待分类点距离最近的 K 个已分类点,K 个点中出现最多点种类为待分类点的种类。

    1.1.2 距离

    常见距离有欧式距离和余弦距离。余弦距离可以消除量纲的影响。相关系数

    2. 聚类算法

    2.1 K-means

    2.1.1 思想

    2.1.1.1 模型训练

  • 根据类别个数 N,初始化 N 个点,作为该类别的中点。
  • 遍历其他点,计算距离最近的中心点,该中心点的类别为当前点的类别,重新计算该类别的中点,计算方法:(N*x+x1)/(N+1),x 为先前平均坐标,x1 为加入点坐标,N 为点个数。
  • 迭代至中心点偏移低于阈值,模型训练结束。

    3. 关联算法

    3.1 Apriori

    3.1.1 算法思想

    如果一个商品组合不满足最小支持度,那么所有包含这个商品组合的其他商品组合也不满足最小支持度。

  • 第一步:设置最小支持度。
  • 第二步:寻找满足最小支持度的单件商品。
  • 第三步:从以上满足最小支持度的单件商品中,进行两两组合,以第二步输出订单为源数据,计算满足最小支持度的两件商品组合。
  • 第四步:将第二步输出的单件商品和第三步输出的两件商品进行组合,以第三步输出订单为源数据,计算满足最小支持度的两件商品组合。
  • 1+3,1+4,迭代至没有满足最小支持度的商品组合。

    4. 应用:推荐系统

  • 基于人口统计的推荐:使用人口基本信息对用户进行分类,向用户推荐同类用户购买的商品。
  • 基于商品属性的推荐:使用商品信息对商品进行分类,根据用户的历史行为对用户进行分类。
  • 基于商品的协同过滤推荐:如果两个商品,喜欢它们对用户具有较高的重叠性,就认为它们的距离较近,划分为同类商品,然后进行推荐。
  • 基于用户的协同过滤推荐:如果两个用户,喜欢的商品具有较高的重叠性(KNN),就认为它们的距离较近,划分为同类用户,然后进行推荐。