数据清理:处理缺失数据、约简数据、处理不一致的数据、约简属性
处理缺失数据:移除观察项、集中趋势算数度量代替缺失值等ReplaceMissingValue
约简数据:屏蔽不需要的数据
处理不一致的属性:与期望值不同
属性约简:p维度数据–>数据集x’,维度小于p,消除冗余和不相关的数据
Tool->available database drivers 驱动的数据库
propoties文件与数据库的添加
管理数据库连接:
Connections->Legacy connections->Manage Database Connections可在其中配置连接信息
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7cLwi7R1-1660987669996)(RapidMiner教程(更新ing)].assets/image-20200418182005056.png)
Name:连接名字 Host:(MySQL)服务器的地址 Port:MySQL服务器的端口号
Database scheme:数据库的实例名字 User Password用户名(好像是root)和密码
Localrepository:本地资源库(将流程保存在process中) data:数据目录
关联一种统计指标,用于衡量统计量之间的关系强度
数据理解
Insulation 每个家庭的保温层厚度
temperature 每个家庭最近一年的户外平均环境温度
Heating_Oil 最近一年来热燃油用量
Num_Occupants 家庭人口数
Avg_Age 平均年龄
Home_Size 房屋大小
File–>import data (演示中的csv文件选择列用逗号分割)
Correlation Matrix
关联矩阵(反应属性值之间的关系强度)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SqUP4SVi-1660987669998)(RapidMiner教程(更新ing)].assets/image-20200418194027781.png)
评估:0~1 正关联; -1~0 负关联
部署:根据模型的结果进行
关联关系不等于因果关系,且关联系数并不表示一个属性变化对另一个属性带来的变化值
用于分类、发现趋势(问题中的因素如何相互关联)
关联规则是一种数据挖掘方法,旨在寻找数据集内的属性之间的频繁关联
eg. 哪些产品最经常在一起被购买,电商网站推荐
Elapsed_Time 每个调查对象完成调查所用的时间,精确到0.1分钟
Time_in_Community 用于调查对象在区域居住时的时间是0-2年,3-9年还是10年以上(三类)
Gender Working Age 性别,工作,年龄–>个人属性
Family 是否为家庭导向型的社团组织成员
Hobbies 是否为兴趣爱好导向型的社团组织成员
Social_Club 是否为社区社会组织的成员
Political 是否为政治组织成员
Professional 是否为专业组织成员
Religious 是否为社区教会的成员
Support_Group 是否为援助导向型的社团组织成员
一般在均值和两个标准差之外的成为离群点
有些属性和社团没有什么影响
Select Attributes
:选择属性操作符(选择需要进行到下一步的操作符)
在attribute filter type中可以选择属性子集,在attributes选择需要包含的内容
Numerical to Binomina
:数值到二值转换 此时表格属性全为integer,属性过滤类型可选全部
FP-Growth
:找到上个操作返回值的关联关系,生成关联矩阵 ( 平凡项模式)
属性会伴随着其他属性以什么样的支持度出现
min support最小支持度 :前键为True时后键也为True的概率 前提-结论规则
Create Assotiation Rules
:可以通过调整建立关系的参数
min confidence 例如最小置信度
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4ZXpODot-1660987670000)(RapidMiner教程(更新ing)].assets/image-20200418204119371.png)
置信度:有多大信心在一个属性被标记为T是,其关联实行也被标记为T
支持度:规则发生的次数除以数据集中观察项的数量
支持度没有逆值,支持度属性相反不会变化,但置信度的属性相反会会发生变化
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uzM55LfP-1660987670001)(RapidMiner教程(更新ing)].assets/image-20200418204457262.png)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rVSw0q8T-1660987670002)(RapidMiner教程(更新ing)].assets/image-20200418204721844.png)
相反规则支持度不变,置信度改变
模型部署:通过积极调动家庭组织,宗教组织,兴趣爱好组织可以找到城市中可以开展项目合作的团体。让宗教团体的人改善当地自行车道(Hobbies),清扫公园(Family)等…
User_ID Gender Age Marital_Status Website_Activity 唯一标识符 性别MF 年龄 婚姻状况(M已婚S未婚丧偶) 活跃程度(分成类别)
Browsed_Electronics_12Mo Bought_Electronics_12Mo 1年内是否在公司网站上浏览电子产品Yes/No 1年内是否在公司网站上购买电子产品Yes/No
Bought_Digital_Media_18Mo Bought_Digital_Books Payment_Method 是否上购买过某种形式数字媒体Yes/No 购买电子阅读器;可能最佳 付款方式 eReader_Adoption:训练集中的标签值
tips:决策树可以处理非数据类型 多类型数据
用户id只是唯一表示符,与分类依据无关
Set Role
: attribute name选择User_id,target role选择id
对于训练集还有一个label属性也要进行上述操作,设置角色target role为laebl
想要删除掉标记可以在edit list中remove entry
输出后可以发现被set role后的列会高亮
Decision Tree
:决策树模型(不同算法criterion中选择,复杂的精度也高/maximal depth决策树最多拓展几 层/叶子大小等等)
Apply Model
:连接训练集与测试集
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-C3YtzH9O-1660987670003)(RapidMiner教程(更新ing)].assets/image-20200418232957601.png)
交叉验证Cross Validation
:显示感叹号–>未配置好,运行后返回每个类别的precision和recall
双击进入进行配置:绘制子流程
performance
:连接在测试集上进行评价
点击process回到主流程
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PLRBJxht-1660987670005)(RapidMiner教程(更新ing)].assets/image-20200419000101482.png)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-K9tYHMvy-1660987670005)(RapidMiner教程(更新ing)].assets/image-20200419000235258.png)
对较早购买者不用促销和广告投放
对较早期购买者可以重点投放,促成购买
对中期主体购买者可以提供一定的优惠政策
对晚期购买者可以放弃广告投放
分词处理process Documents from Data
:处理关系型数据。exa端口输出单词矢量矩阵;wor单词词频列表
对比:process Document
在“Process Documents from Data”操作符参数设置里,如下图我们可以进行许多的参数调整,例如vector creation中除了可以选择“TF-IDF”以外,我们还可以选择“Term Occurrences”单词出现的频率统计,或者“Binary Term Occurrences”二值属性作为输出结果的统计形式。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dveZAkI7-1660987670006)(RapidMiner教程(更新ing)].assets/image-20200617170616113.png)
在上述操作符中需要添加英文分词的操作符号tokenize
:把输入的text型字段处理成document类型
其他功能:
转换大小写:Transform Cases
词根处理:Stem(Porter)
过滤停用词:Filter Stepword
处理短语:Generate n-Grams(Terms)
617170616113.png)
在上述操作符中需要添加英文分词的操作符号tokenize
:把输入的text型字段处理成document类型
其他功能:
转换大小写:Transform Cases
词根处理:Stem(Porter)
过滤停用词:Filter Stepword
处理短语:Generate n-Grams(Terms)
贝叶斯算法:对于大量的稀疏矩阵做分类效果好