当前位置: 首页 > 知识库问答 >
问题:

如何对中的多个标签(Trany)使用一个热编码。fit()方法?

养淇
2023-03-14

我有一个移动价格分类数据集,其中我有20个特征和一个目标变量,称为price_range。我需要将手机价格分为低、中、高、非常高。我已经对我的目标变量应用了一个热编码。之后,我将数据拆分为trainX,testX,trainy,testy。所以我对trainX和trainy的形状分别是(1600,20)和(1600,4)。现在,当我试图使trainX和trainy符合后勤计划时,即-

所以现在我完全搞不懂人们在实践中是如何对目标变量使用一个热编码的?请帮帮我。

共有1个答案

陈志
2023-03-14

要训练模型,您应该只在特性上应用OneHotEncoder来获得X,并应用LabelEncoder()来转换y。

from sklearn import preprocessing
le=preprocessing.LabelEncoder()
le.fit_transform(['a','b','a'])

并获得:

output: array([0, 1, 0])
 类似资料:
  • 我试图在Iris数据集中的目标列(“物种”)上使用一个热编码器。 但我得到了以下错误: ValueError:预期的2D数组,得到1D数组代替: 使用数组或数组重塑数据的形状。如果数据具有单个要素或阵列,则重塑(-1,1)。如果(1,-1)包含单个样本,则重塑其形状。 我在谷歌上搜索了这个问题,发现大多数scikit学习估计器都需要2D数组,而不是一维数组。 同时,我还发现,我们可以尝试传递带有索

  • 问题内容: 给出了可变长度特征的列表: 每个样本具有不同数量的功能,并且该功能已经并且很热门。 为了使用sklearn的特征选择实用程序,我必须将转换为2D数组,如下所示: 如何通过sklearn或numpy实现它? 问题答案: 您可以使用scikit中存在的MultiLabelBinarizer专门用于执行此操作。 您的示例代码: 输出: 它也可以与其他feature_selection实用程序

  • 问题内容: 张量流是否具有类似于scikit Learn的一种用于处理分类数据的热编码器?使用tf.string的占位符会表现为分类数据吗? 我意识到我可以在将数据发送到tensorflow之前对其进行手动预处理,但是将其内置非常方便。 问题答案: 从TensorFlow 0.8开始,现在有一个原生的一站式操作,可以将一组稀疏标签转换为密集的一站式表示形式。这是的补充,在某些情况下,您可以使您直接

  • 问题内容: 我想变成 正则表达式的模式是什么? 注意:标签可以连续出现2次以上。 问题答案: 您 可以 使用,但是如果您尝试在HTML上使用正则表达式,则可能做错了什么。 编辑: 如果您有混合休息,可以使用一种更健壮的模式: 这将赶上并为好,这可能是在某些情况下是有用的。

  • 如果我们不确定分类特征的性质,比如它们是名词性的还是序数的,我们应该使用哪种编码?顺序编码还是一个热编码?关于这个话题有没有明确的规定? 我看到很多人对没有方向的分类数据使用顺序编码。假设一个频率表: 有很多人更喜欢在这个专栏上做顺序编码。我非常想用一热编码。我对此的看法是,做序数编码会给这些颜色分配一些有序的数字,这意味着一个排名。而且没有排名第一。换句话说,我的模型不应该认为color_whi