常用数据挖掘算法

优质

小牛编辑

138浏览

2023-12-01

1.1 KNN

1.1.1 思想

计算离待分类点距离最近的 K 个已分类点，K 个点中出现最多点种类为待分类点的种类。
1.1.2 距离
常见距离有欧式距离和余弦距离。余弦距离可以消除量纲的影响。相关系数
2. 聚类算法
2.1 K-means
2.1.1 思想
2.1.1.1 模型训练
根据类别个数 N，初始化 N 个点，作为该类别的中点。
遍历其他点，计算距离最近的中心点，该中心点的类别为当前点的类别，重新计算该类别的中点，计算方法：(N*x+x1)/(N+1),x 为先前平均坐标，x1 为加入点坐标，N 为点个数。
迭代至中心点偏移低于阈值，模型训练结束。
3. 关联算法
3.1 Apriori
3.1.1 算法思想
如果一个商品组合不满足最小支持度，那么所有包含这个商品组合的其他商品组合也不满足最小支持度。
第一步：设置最小支持度。
第二步：寻找满足最小支持度的单件商品。
第三步：从以上满足最小支持度的单件商品中，进行两两组合，以第二步输出订单为源数据，计算满足最小支持度的两件商品组合。
第四步：将第二步输出的单件商品和第三步输出的两件商品进行组合，以第三步输出订单为源数据，计算满足最小支持度的两件商品组合。
1+3，1+4，迭代至没有满足最小支持度的商品组合。
4. 应用：推荐系统
基于人口统计的推荐：使用人口基本信息对用户进行分类，向用户推荐同类用户购买的商品。
基于商品属性的推荐：使用商品信息对商品进行分类，根据用户的历史行为对用户进行分类。
基于商品的协同过滤推荐：如果两个商品，喜欢它们对用户具有较高的重叠性，就认为它们的距离较近，划分为同类商品，然后进行推荐。
基于用户的协同过滤推荐：如果两个用户，喜欢的商品具有较高的重叠性（KNN），就认为它们的距离较近，划分为同类用户，然后进行推荐。

常用数据挖掘算法

1.1 KNN

1.1.1 思想

1.1.2 距离

2. 聚类算法

2.1 K-means

2.1.1 思想

2.1.1.1 模型训练

3. 关联算法

3.1 Apriori

3.1.1 算法思想

4. 应用：推荐系统