问题：

Scikit学习输入降维

农星华

2023-03-14

我有一个332列的数据框。我想计算值，以便能够使用Scikit学习的决策树分类器。我的问题是来自计算机函数的结果数据列只有330。

from sklearn.preprocessing import Imputer
imp = Imputer(missing_values='NaN', strategy='mean', axis=0)
cols = data.columns
new = imp.fit_transform(data)

print(data.shape,new.shape)
(34132, 332) (34132, 330)

共有1个答案

邹誉

2023-03-14

根据sklearn的文档。预处理。输入器：

当axis=0时，变换时将丢弃仅包含拟合时缺失值的列。

因此，这将删除所有缺少的值列。

类似资料：

Scikit学习中的线性回归和梯度下降？

在机器学习课程https://share.coursera.org/wiki/index.php/ML：Linear_Regression_with_Multiple_Variables#Gradient_Descent_for_Multiple_Variables中，它说梯度下降应该收敛。我正在使用scikit学习的线性回归。它不提供梯度下降信息。我已经看到了许多关于stackoverflow
使用Scikit学习的机器学习

从sklearn加载流行数字数据集。数据集模块，并将其分配给可变数字。分割数字。将数据分为两组，分别命名为X_train和X_test。还有，分割数字。目标分为两组Y_训练和Y_测试。提示：使用sklearn中的训练测试分割方法。模型选择；将随机_状态设置为30；并进行分层抽样。使用默认参数，从X_序列集和Y_序列标签构建SVM分类器。将模型命名为svm_clf。在测试数据集上评估模型的准确
导入scikit学习模块时出错

问题内容：我正在尝试从集群模块调用函数，如下所示：我收到以下错误：在IPython中，制表符补全似乎可以访问基本，克隆，外部，re，setup_module，sys和警告模块。sklearn目录中没有其他（包括群集）。遵循以下pbu的建议并使用我得到：我在Windows上使用Python 3.4，scikit-learn 0.16.1。问题答案：问题是scipy / numpy安装
Python scikit学习pca.explained_variance_ratio_截止

问题内容：在选择主成分数（k）时，我们选择k为最小值，以便保留例如99％的方差。但是，在Python Scikit学习中，我不是100％确定等于“保留了99％的方差”吗？谁能启发？谢谢。 Python Scikit学习PCA手册在这里 http://scikit- learn.org/stable/modules/generation/sklearn.decomposition.PCA.htm
Scikit学习平衡子采样

问题内容：我正在尝试为我的大型不平衡数据集创建N个平衡随机子样本。有没有一种方法可以简单地通过scikit-learn / pandas来做到这一点，或者我必须自己实现它？任何指向此功能的代码的指针？这些子样本应该是随机的，并且在我将每个样本送入非常大的分类器集合中的各个分类器时可以重叠。在Weka中，有一个名为spreadsubsample的工具，在sklearn中是否有等效工具？ htt
scikit学习GridSearchCV弃用警告

我正在使用scikit-learn 0.14的GridSearchCV，但总是得到以下警告: /Library/Frameworks/epd 64 . framework/Versions/7.2/lib/python 2.7/site-packages/sk learn/grid _ search . py:706:deprecation warning:忽略GridSearchCV的附加参数！
机器学习：特征降维

主成分分析是一种降维方法，通过将一个大的特征集转换成一个较小的特征集，这个特征集仍然包含了原始数据中的大部分信息，从而降低了原始数据的维数。换句话说就是减少数据集的特征数量，同时尽可能地保留信息。降维是将训练数据中的样本(实例)从高维空间转换到低维空间，该过程与信息论中有损压缩概念密切相关。同时要明白的，不存在完全无损的降维。
带有索引的Scikit学习train_test_split

问题内容：使用train_test_split（）时如何获取数据的原始索引？我所拥有的是以下但这并没有给出原始数据的索引。一种解决方法是将索引添加到数据（例如），然后将其传递到内部，然后再次扩展。有没有更清洁的解决方案？问题答案： Scikit learning在Pandas上的表现非常好，因此我建议您使用它。这是一个例子：您可以直接在DataFrame / Series上调用任何sci

Scikit学习输入降维

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档