我有一个数据集,其中一个列“国家”有28个不同的国家。我需要首先'标签编码'列,然后'一个热编码'它与6个标签只有:前5个最常见的国家:美国,中国,日本,法国,加拿大和第六个标签是'其他'为列中的任何其他国家
您可以使用lambda
尝试这个简单的解决方案。lambda
中的if elif else
条件甚至可以帮助您进一步分类!
top = ['USA', 'CHINA', 'JAPAN', 'FRANCE', 'CANADA']
df['country'] = df['country'].apply(lambda x : 'OTHERS' if x not in top else x)
pd.get_dummies(df['country'])
您可以使用np。其中
:
countries = ['USA', 'CHINA', 'JAPAN', 'FRANCE', 'CANADA']
df['country_cat'] = np.where(df['country'].isin(countries),
df['country'], 'OTHER')
# and then you can use `pd.get_dummies`
pd.get_dummies(df['country_cat'])
我试图在Iris数据集中的目标列(“物种”)上使用一个热编码器。 但我得到了以下错误: ValueError:预期的2D数组,得到1D数组代替: 使用数组或数组重塑数据的形状。如果数据具有单个要素或阵列,则重塑(-1,1)。如果(1,-1)包含单个样本,则重塑其形状。 我在谷歌上搜索了这个问题,发现大多数scikit学习估计器都需要2D数组,而不是一维数组。 同时,我还发现,我们可以尝试传递带有索
问题内容: 张量流是否具有类似于scikit Learn的一种用于处理分类数据的热编码器?使用tf.string的占位符会表现为分类数据吗? 我意识到我可以在将数据发送到tensorflow之前对其进行手动预处理,但是将其内置非常方便。 问题答案: 从TensorFlow 0.8开始,现在有一个原生的一站式操作,可以将一组稀疏标签转换为密集的一站式表示形式。这是的补充,在某些情况下,您可以使您直接
如果我们不确定分类特征的性质,比如它们是名词性的还是序数的,我们应该使用哪种编码?顺序编码还是一个热编码?关于这个话题有没有明确的规定? 我看到很多人对没有方向的分类数据使用顺序编码。假设一个频率表: 有很多人更喜欢在这个专栏上做顺序编码。我非常想用一热编码。我对此的看法是,做序数编码会给这些颜色分配一些有序的数字,这意味着一个排名。而且没有排名第一。换句话说,我的模型不应该认为color_whi
问题内容: 我试图用来创建我的,以确保我的构建/项目的质量。该项目也需要使用和。一切在我的本地计算机上都可以正常运行,但是现在我正在尝试使环境一致,可重现。当我尝试在新的虚拟机中运行时,会中断一个在本机中正常运行但 不在 新vm中运行的。 我检查了版本,,,(其)一切都是一样的。但是,我的Maven项目在此测试中失败了。 我在这里想念什么?任何想法,建议都会受到赞赏,因为我现在还没有想法,到目前为
问题内容: 我在获取某个国家的货币代码时遇到问题。我的任务是获取用户的位置,找出他现在所在的国家/地区,并获取该国家/地区的货币代码。以下是从获取的位置获取国家/地区名称和国家/地区代码的代码: 这工作得很好。现在,我应该使用该类来获取对象。我可以使用该方法。但是类中没有构造函数,仅允许将国家/地区代码作为参数传递。表示我无法为该国家/地区创建对象。如何解决呢?提前致谢。 问题答案: 如果国家/地
我的最终目标是对熊猫专栏进行热编码。在本例中,我想对一列“b”进行热编码,如下所示:保存苹果、香蕉和桔子,并将任何其他水果编码为“其他”。 示例:在下面的代码中,“葡萄柚”将被改写为“其他”,如果“猕猴桃”和“鳄梨”出现在我的数据中,它们也将被改写为“其他”。 以下代码有效: 我的问题是:有没有一种更短的方法来做业务?我尝试了