在Ubuntu下全新安装的Anaconda …在使用Scikit-Learn进行分类任务之前,我将以各种方式预处理数据。
from sklearn import preprocessing
scaler = preprocessing.MinMaxScaler().fit(train)
train = scaler.transform(train)
test = scaler.transform(test)
这一切都很好,但是如果我有一个要分类的新样本(下面的温度)(因此我想以相同的方式进行预处理,那么我会
temp = [1,2,3,4,5,5,6,....................,7]
temp = scaler.transform(temp)
然后我会收到弃用警告…
DeprecationWarning: Passing 1d arrays as data is deprecated in 0.17
and will raise ValueError in 0.19. Reshape your data either using
X.reshape(-1, 1) if your data has a single feature or X.reshape(1, -1)
if it contains a single sample.
所以问题是我应该如何像这样缩放单个样本?
我想一种替代方法(不是很好)是…
temp = [temp, temp]
temp = scaler.transform(temp)
temp = temp[0]
但是我相信有更好的方法。
只需听听警告告诉您的内容:
如果数据具有单个要素/列,则重塑数据X.reshape(-1,1),如果包含单个样本,则重塑X.reshape(1,-1)。
对于您的示例类型(如果您有多个要素/列):
temp = temp.reshape(1,-1)
对于一个功能/列:
temp = temp.reshape(-1,1)
我正在使用scikit-learn 0.14的GridSearchCV,但总是得到以下警告: /Library/Frameworks/epd 64 . framework/Versions/7.2/lib/python 2.7/site-packages/sk learn/grid _ search . py:706:deprecation warning:忽略GridSearchCV的附加参数!
问题内容: 我正在尝试为我的大型不平衡数据集创建N个平衡随机子样本。有没有一种方法可以简单地通过scikit-learn / pandas来做到这一点,或者我必须自己实现它?任何指向此功能的代码的指针? 这些子样本应该是随机的,并且在我将每个样本送入非常大的分类器集合中的各个分类器时可以重叠。 在Weka中,有一个名为spreadsubsample的工具,在sklearn中是否有等效工具? htt
我有一个熊猫数据框,它有一些行和列。每列都有一个标题。现在,只要我继续在pandas中执行数据操作,我的变量头就会被保留。但是,如果我尝试Sci kit学习库的一些数据预处理功能,我最终会丢失所有的标题,并且帧会转换为一个数字矩阵。 我理解为什么会发生这种情况,因为Scikit学习给出了一个Numpy ndarray作为输出。而Numpy ndarray只是矩阵不会有列名。 但事情是这样的。如果我
从sklearn加载流行数字数据集。数据集模块,并将其分配给可变数字。 分割数字。将数据分为两组,分别命名为X_train和X_test。还有,分割数字。目标分为两组Y_训练和Y_测试。 提示:使用sklearn中的训练测试分割方法。模型选择;将随机_状态设置为30;并进行分层抽样。使用默认参数,从X_序列集和Y_序列标签构建SVM分类器。将模型命名为svm_clf。 在测试数据集上评估模型的准确
先决条件 Numpy, Scipy IPython matplotlib scikit-learn (http://scikit-learn.org) 警告:从版本0.9(在2011年9月发布)起,scikit-learn导入路径从scikits.learn 改为 sklearn 3.5.1 加载样例数据集 首先,我们将加载一些数据来玩玩。我们将使用的数据是知名的非常简单的花数据鸢尾花数据集。 我
如何计算多类文本分类的FPR、TPR、AUC、roc_曲线-我使用了以下代码- 到这里为止,每件事都运行良好-但是一旦我使用以下代码,就会出错- 错误是- Traceback(最近的调用最后): 文件"C:/用户/saurabh/PycharmProjects/getting_started/own_code.py",第32行,打印(metrics.roc_auc_score(y_test,y_p