当前位置: 首页 > 工具软件 > RapidMiner > 使用案例 >

RapidMiner简单入门教程——入门必看超详细

洪浩
2023-12-01

RapidMiner使用指南

01工具简介

02数据准备、导入、导出

数据清理:处理缺失数据、约简数据、处理不一致的数据、约简属性

  • 处理缺失数据:移除观察项、集中趋势算数度量代替缺失值等ReplaceMissingValue

  • 约简数据:屏蔽不需要的数据

  • 处理不一致的属性:与期望值不同

  • 属性约简:p维度数据–>数据集x’,维度小于p,消除冗余和不相关的数据

导入数据库

Tool->available database drivers 驱动的数据库

propoties文件与数据库的添加

管理数据库连接:

Connections->Legacy connections->Manage Database Connections可在其中配置连接信息

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7cLwi7R1-1660987669996)(RapidMiner教程(更新ing)].assets/image-20200418182005056.png)

Name:连接名字 Host:(MySQL)服务器的地址 Port:MySQL服务器的端口号

Database scheme:数据库的实例名字 User Password用户名(好像是root)和密码

Localrepository:本地资源库(将流程保存在process中) data:数据目录

03关联分析和关联规则

Part1关联分析

关联一种统计指标,用于衡量统计量之间的关系强度

数据理解

Insulation 每个家庭的保温层厚度

temperature 每个家庭最近一年的户外平均环境温度

Heating_Oil 最近一年来热燃油用量

Num_Occupants 家庭人口数

Avg_Age 平均年龄

Home_Size 房屋大小

导入数据

File–>import data (演示中的csv文件选择列用逗号分割)

建模

Correlation Matrix 关联矩阵(反应属性值之间的关系强度)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SqUP4SVi-1660987669998)(RapidMiner教程(更新ing)].assets/image-20200418194027781.png)

模型评估和部署

评估:0~1 正关联; -1~0 负关联

部署:根据模型的结果进行

关联关系不等于因果关系,且关联系数并不表示一个属性变化对另一个属性带来的变化值

用于分类、发现趋势(问题中的因素如何相互关联)

Part2关联规则

关联规则是一种数据挖掘方法,旨在寻找数据集内的属性之间的频繁关联

eg. 哪些产品最经常在一起被购买,电商网站推荐

Elapsed_Time 每个调查对象完成调查所用的时间,精确到0.1分钟

Time_in_Community 用于调查对象在区域居住时的时间是0-2年,3-9年还是10年以上(三类)

Gender Working Age 性别,工作,年龄–>个人属性

Family 是否为家庭导向型的社团组织成员

Hobbies 是否为兴趣爱好导向型的社团组织成员

Social_Club 是否为社区社会组织的成员

Political 是否为政治组织成员

Professional 是否为专业组织成员

Religious 是否为社区教会的成员

Support_Group 是否为援助导向型的社团组织成员

导入数据

一般在均值和两个标准差之外的成为离群点

有些属性和社团没有什么影响

模型

Select Attributes:选择属性操作符(选择需要进行到下一步的操作符)

​ 在attribute filter type中可以选择属性子集,在attributes选择需要包含的内容

Numerical to Binomina:数值到二值转换 此时表格属性全为integer,属性过滤类型可选全部

FP-Growth :找到上个操作返回值的关联关系,生成关联矩阵 ( 平凡项模式

​ 属性会伴随着其他属性以什么样的支持度出现

​ min support最小支持度 :前键为True时后键也为True的概率 前提-结论规则

Create Assotiation Rules:可以通过调整建立关系的参数

​ min confidence 例如最小置信度

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4ZXpODot-1660987670000)(RapidMiner教程(更新ing)].assets/image-20200418204119371.png)

模型评估和部署

置信度:有多大信心在一个属性被标记为T是,其关联实行也被标记为T

支持度:规则发生的次数除以数据集中观察项的数量

支持度没有逆值,支持度属性相反不会变化,但置信度的属性相反会会发生变化

  • 将置信度从0.8改为0.5

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uzM55LfP-1660987670001)(RapidMiner教程(更新ing)].assets/image-20200418204457262.png)

  • 修改后关联规则Graph可视化(规则/置信度/支持度)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rVSw0q8T-1660987670002)(RapidMiner教程(更新ing)].assets/image-20200418204721844.png)

相反规则支持度不变,置信度改变

模型部署:通过积极调动家庭组织,宗教组织,兴趣爱好组织可以找到城市中可以开展项目合作的团体。让宗教团体的人改善当地自行车道(Hobbies),清扫公园(Family)等…

04K-means分析和辨别分析

06决策树和神经网络

Part1决策树

  • 决策树的生成:训练集;
  • 决策树的剪枝:测试数据集(校验,修正);
User_IDGenderAgeMarital_StatusWebsite_Activity
唯一标识符性别MF年龄婚姻状况(M已婚S未婚丧偶)活跃程度(分成类别)
Browsed_Electronics_12MoBought_Electronics_12Mo
1年内是否在公司网站上浏览电子产品Yes/No1年内是否在公司网站上购买电子产品Yes/No
Bought_Digital_Media_18MoBought_Digital_BooksPayment_Method
是否上购买过某种形式数字媒体Yes/No购买电子阅读器;可能最佳付款方式

eReader_Adoption:训练集中的标签值

tips:决策树可以处理非数据类型 多类型数据

模型

用户id只是唯一表示符,与分类依据无关

Set Role : attribute name选择User_id,target role选择id

​ 对于训练集还有一个label属性也要进行上述操作,设置角色target role为laebl

​ 想要删除掉标记可以在edit list中remove entry

输出后可以发现被set role后的列会高亮

Decision Tree:决策树模型(不同算法criterion中选择,复杂的精度也高/maximal depth决策树最多拓展几 层/叶子大小等等)

  • 节点:不同属性。敏感程度自上而下降低。
  • 叶子节点:鼠标靠近出现点击图标,可以看出各种结果所占的比例

Apply Model:连接训练集与测试集

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-C3YtzH9O-1660987670003)(RapidMiner教程(更新ing)].assets/image-20200418232957601.png)

模型评估

交叉验证Cross Validation:显示感叹号–>未配置好,运行后返回每个类别的precision和recall

双击进入进行配置:绘制子流程

performance:连接在测试集上进行评价

点击process回到主流程

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PLRBJxht-1660987670005)(RapidMiner教程(更新ing)].assets/image-20200419000101482.png)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-K9tYHMvy-1660987670005)(RapidMiner教程(更新ing)].assets/image-20200419000235258.png)

模型部署

对较早购买者不用促销和广告投放

对较早期购买者可以重点投放,促成购买

对中期主体购买者可以提供一定的优惠政策

对晚期购买者可以放弃广告投放

07 文本挖掘

导入数据

数据与处理

分词处理process Documents from Data :处理关系型数据。exa端口输出单词矢量矩阵;wor单词词频列表

​ 对比:process Document

在“Process Documents from Data”操作符参数设置里,如下图我们可以进行许多的参数调整,例如vector creation中除了可以选择“TF-IDF”以外,我们还可以选择“Term Occurrences”单词出现的频率统计,或者“Binary Term Occurrences”二值属性作为输出结果的统计形式。

  • 通过百分比的范围来约简单词数

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dveZAkI7-1660987670006)(RapidMiner教程(更新ing)].assets/image-20200617170616113.png)

  • 进入分词处理操作器中:

在上述操作符中需要添加英文分词的操作符号tokenize:把输入的text型字段处理成document类型

其他功能:

转换大小写:Transform Cases 词根处理:Stem(Porter)

过滤停用词:Filter Stepword 处理短语:Generate n-Grams(Terms)

预测分析

617170616113.png)

  • 进入分词处理操作器中:

在上述操作符中需要添加英文分词的操作符号tokenize:把输入的text型字段处理成document类型

其他功能:

转换大小写:Transform Cases 词根处理:Stem(Porter)

过滤停用词:Filter Stepword 处理短语:Generate n-Grams(Terms)

预测分析

贝叶斯算法:对于大量的稀疏矩阵做分类效果好

 类似资料: