当前位置：首页 > 面试题库 >

Scikits机器学习中的价值缺失

南宫阳焱

2023-03-14

问题内容：

scikit-learn中是否可能缺少值？应该如何代表他们？我找不到关于此的任何文档。

问题答案：

~~scikit-learn不支持缺少值。以前在邮件列表上已经对此进行了讨论，但是没有尝试实际编写代码来处理它们。~~

~~无论您做什么， 都不要 使用NaN编码缺失值，因为许多算法都拒绝处理包含NaN的样本。~~

上面的答案已经过时；最新版本的scikit-learn具有一个类Imputer，该类可以进行简单的针对每个功能的缺失值估算。您可以向其提供包含NaN的数组，以将其替换为相应特征的均值，中位数或众数。

类似资料：

机器学习

Python 有着海量的可用于数据分析、统计以及机器学习的库，这使得 Python 成为很多数据科学家所选择的语言。下面我们列出了一些被广泛使用的机器学习及其他数据科学应用的 Python 包。 Scipy 技术栈 Scipy 技术栈由一大批在数据科学中被广泛使用的核心辅助包构成，可用于统计分析与数据可视化。由于其丰富的功能和简单易用的特性，这一技术栈已经被视作实现大多数数据科学应用的必备品了。
机器学习

主要内容前言课程列表推荐学习路线数学基础初级程序语言能力机器学习课程初级数学基础中级机器学习课程中级推荐书籍列表机器学习专项领域学习致谢前言我们要求把这些课程的所有Notes,Slides以及作者强烈推荐的论文看懂看明白，并完成所有的老师布置的习题，而推荐的书籍是不做要求的，如果有些书籍是需要看完的，我们会进行额外的说明。课程列表课程机构参考书 Notes等其他资
机器学习

机器学习与人工智能学习笔记，包括机器学习、深度学习以及常用开源框架（Tensorflow、PyTorch）等。机器学习算法 _图片来自scikit-learn_。机器学习全景图 _图片来自http://www.shivonzilis.com/_。
机器学习

机器学习与人工智能学习笔记，包括机器学习、深度学习以及常用开源框架（Tensorflow、PyTorch）等。
机器学习：集成学习

“三个臭皮匠顶个诸葛亮”。集成学习就是利用了这样的思想，通过把多分类器组合在一起的方式，构建出一个强分类器；这些被组合的分类器被称为基分类器。事实上，随机森林就属于集成学习的范畴。通常，集成学习具有更强的泛化能力，大量弱分类器的存在降低了分类错误率，也对于数据的噪声有很好的包容性。
使用Scikit学习的机器学习

从sklearn加载流行数字数据集。数据集模块，并将其分配给可变数字。分割数字。将数据分为两组，分别命名为X_train和X_test。还有，分割数字。目标分为两组Y_训练和Y_测试。提示：使用sklearn中的训练测试分割方法。模型选择；将随机_状态设置为30；并进行分层抽样。使用默认参数，从X_序列集和Y_序列标签构建SVM分类器。将模型命名为svm_clf。在测试数据集上评估模型的准确

Scikits机器学习中的价值缺失

相关阅读

相关文章

相关问答

相关工具

相关文档