当前位置: 首页 > 知识库问答 >
问题:

KNN分类的字符串数据训练:Python

阎弘
2023-03-14

我一直在努力学习如何训练我的数据,即使用字符串数据实现机器学习。我所能理解的是,您可以将字符串数据类型转换为category,但我无法使用LabelEncoder。我听说,我们不应该绘制数据图并将其更改为数字数据,因为它的预测将是错误的。

以下是数据示例

LP001002,Male,No,0,Graduate,No,5849,0,,360,1,Urban,Y
LP001003,Male,Yes,1,Graduate,No,4583,1508,128,360,1,Rural,N
LP001005,Male,Yes,0,Graduate,Yes,3000,0,66,360,1,Urban,Y
LP001006,Male,Yes,0,Not Graduate,No,2583,2358,120,360,1,Urban,Y
LP001008,Male,No,0,Graduate,No,6000,0,141,360,1,Urban,Y
LP001011,Male,Yes,2,Graduate,Yes,5417,4196,267,360,1,Urban,Y

如您所见,性别(2)、已婚(3)、受抚养人(4)、教育程度(5)、自雇(6)、财产(11)、贷款状态(!2)是字符串。

某些列缺少数据,因此无法使用OneHot编码器。错误:无序类型str()

我想将其转换为分类类型,并将其用作knn的训练模型。我正在使用python 3.6。

共有1个答案

蒙胤
2023-03-14

你要做的是执行one-Hot编码,有一个函数:

http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html

 类似资料:
  • 译者:bat67 最新版会在译者仓库首先同步。 目前为止,我们以及看到了如何定义网络,计算损失,并更新网络的权重。 现在可能会想, 数据呢? 通常来说,当必须处理图像、文本、音频或视频数据时,可以使用python标准库将数据加载到numpy数组里。然后将这个数组转化成torch.*Tensor。 对于图片,有Pillow,OpenCV等包可以使用 对于音频,有scipy和librosa等包可以使用

  • 我想为一个新角色训练我现有的tesseract模型。我已经在 https://github.com/tesseract-ocr/tesseract/wiki/trainingtesseract-4.00#lstmtraining-命令行 (微调?几个字符)(我用的是MAC) 但它不起作用。如果我评估(即使是在训练数据上),它也不能识别±'字符。 我安装了: 通过: 我将以下GitHub存储库克隆到

  • 当用整个集合测试时,当使用分类器对一组新的tweet进行测试时,它只返回“中性”作为标签,但当使用30个时,它只返回正,这是否意味着我的训练数据不完整或过于“加权”中性条目,以及我的分类器在使用大约4000个tweet时只返回中性的原因? 我已经在下面包括了我的完整代码。

  • 问题内容: 我目前正在使用MYSQL中的函数,我有另一个表中的逗号分隔字符串(1,22,344,55),如何在MYSQL中将其拆分为数组(不是temp_table)。另外,MYSQL中有类似的函数可以执行foreach()吗? 问题答案: MySQL不包含拆分定界字符串的函数。但是,创建自己的函数非常容易。 用法 从这里:http : //blog.fedecarg.com/2009/02/22/

  • 本文向大家介绍tensorflow 固定部分参数训练,只训练部分参数的实例,包括了tensorflow 固定部分参数训练,只训练部分参数的实例的使用技巧和注意事项,需要的朋友参考一下 在使用tensorflow来训练一个模型的时候,有时候需要依靠验证集来判断模型是否已经过拟合,是否需要停止训练。 1.首先想到的是用tf.placeholder()载入不同的数据来进行计算,比如 这种方式很简单,也很

  • 我试图用下面的代码训练模型,但我一直在方法上收到错误,它告诉我将更改为。为什么?