KEEL,Knowledge Extraction based on Evolutionary Learning的简称,是一款开源的数据挖掘软件工具,也是与WEKA一样出名的分析和实验环境,它提供了简洁的GUI,用于执行包括回归、分类、聚类、监督学习等多种数据挖掘任务。KEEL由JAVA语言编写,包含了多种进化算法以及预处理技术与进化学习的整合,这使得它能够对任何学习模型进行完整的分析。
KEEL是knowledge extraction based on evolutionary learning的简称,它是一款开源的JAVA软件工具,遵循GNU的GPLv3许可,受西班牙项目(TIN-2005-08386-C05-(01, 02, 03, 04 and 05))的支持 [3] 。
KEEL能够用于大量不同的知识发现任务,它提供了一个简单的基于数据流的GUI,可以根据不同的数据集和计算智能算法(特别是进化算法)设计实验、评估算法。它包含了各种各样经典的知识提取算法、预处理技术(如训练集选择、特征选择、离散化、缺失值处理等)、计算智能的学习算法、混合模型、对比实验的统计方法等等,它允许对各种算法进行完整的分析、比较。
突出了进化算法在模型预测、预处理(特征选择、训练集选择)、后期处理(模糊规则的进化调优)中的作用
实现了许多专业文献中的数据挖掘算法,如离散化、噪声滤波等
提供了一个统计库来分析算法结果,库中包含了一组统计测试,用于分析结果的正态性、异态性,比较含参和非参算法的结果
许多算法是基于JAVA类库进行开发的
提供了一个用户友好的界面,并且此界面是面向算法分析的
该工具的目标是设计包含多种数据集和多种算法的实验,并且实验会产生独立的脚本,能够在不同的机器上运行。
同时提供线下实验和线下实验,线上实验的设计目的是帮助学习者学习算法的操作。
包含知识提取算法库,其中整合了多种进化学习算法,也包含经典的学习算法
UCI地址:http://archive.ics.uci.edu/ml/datasets.html 若要查找某条数据集,一条一条找很费时间,可以点击右上角 List View按钮,则数据集按照首字母排序 KEEL地址:https://sci2s.ugr.es/keel/datasets.php 优点:已经按照数据集的特点大致对数据集进行了分类整理
1.用eclisp新建一个工程 2.file-import-general-file system选择源代码所在目录 3.file-export-java-JAR file-export generate class files and resoures,指定好文件路径后finish
http://www.k99k.com/jQuery_getting_started.html 中文版译者:Keel 此文以实例为基础一步步说明了jQuery的工作方式。现以中文翻译(添加我的补充说明)如下。如有相关意见或建议请 EMAIL 告知。或者在 BLOG中留言。 英文原版:http://docs.jquery.com/Tutorials:Getting_Started_with_jQue
数据挖掘 18 大算法实现以及其他相关经典 DM 算法,BIRCH 算法本身上属于一种聚类算法,不过他克服了一些 K-Means 算法的缺点。
一位挖掘专家 tom khabaza 提出了挖掘九律,挺好的东西,特别是九这个数字,深得中华文化精髓,有点独孤九剑的意思: 第一,目标律。 数据挖掘是一个业务过程,必须得有业务目标。无目的,无过程。 第二,知识律。 业务知识贯穿在挖掘这个业务过程的各环节。 第三,准备律。 数据获取、数据准备等数据处理耗时占整个挖掘过程的一半。 第四,NFL律。 NFL,没有免费的午餐。没有一个固定的算法适用所有的
字节跳动 (1h) 1.自我面试 2.挑一个你认为比较成功的项目进行介绍? 3.介绍你做过的特征工程 4.你都有过哪些算法?介绍下随机森林、XGB、GBDT的差异 5.对模型进行评估时候选取的方法 携程控股(45min) 1.自我介绍 2.选择一个项目进行介绍 3.你建模的时候都用到哪些方法 4.项目细节 5.模型评估 腾讯科技(1个小时) 1.自我介绍 2.直接问项目 3.解释下随机森林和GBD
硕士研究cv 可能和数据挖掘不是那么匹配~ 大华一面(1h): 1、增量学习的科研项目(问了具体的细节 以及为什么) 2、语义分割的发展 3、UNet中的跳跃连接的作用 4、残差网络的shortcut连接的作用,数学方面证明残差网络可以避免梯度消失,并且问了一个关于残差网络的改进问题(面试官看最新的论文看到的,我没有理解他所说的问题) 5、宫颈肿瘤分割和pcr预测的项目(细节也问的很详细) 6、预
数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
1.1 KNN 1.1.1 思想 计算离待分类点距离最近的 K 个已分类点,K 个点中出现最多点种类为待分类点的种类。 1.1.2 距离 常见距离有欧式距离和余弦距离。余弦距离可以消除量纲的影响。相关系数 2. 聚类算法 2.1 K-means 2.1.1 思想 2.1.1.1 模型训练 根据类别个数 N,初始化 N 个点,作为该类别的中点。 遍历其他点,计算距离最近的中心点,该中心点的类别为当前
2道编程共40分,5道问答110分,共两个半小时,没做多久就退出来,哎。。。 有一道编程题用例过了,一提交通过0个用例,麻了 大佬给看看: 题目是车牌号识别准确率计算 输入N个车牌号,第一个字母是颜色,最后5个是号码,中间是地区号 每一行一个识别出的号码,一个真实标签 #我的秋招日记##网易雷火笔试##23届秋招笔面经#
时间过去有点久了,纯凭回忆,可能有些遗漏 一面 (1小时多吧) 机器学习基础知识 Bagging & Boosting 常用的聚类算法 Kmeans和DBSCAN的原理和区别 逻辑回归的原理 怎么处理离散数据 支持向量机原理 SVM怎么处理非线性 常用的回归模型 Attention原理 RNN和LSTM的区别 什么是梯度爆炸/梯度消失,什么情况下会出现 梯度渐进的原理 手撕算法 判断是否是回文 找