一个热编码列包含28个不同的国家，只有6个类

洪捷

2023-03-14

我有一个数据集，其中一个列“国家”有28个不同的国家。我需要首先'标签编码'列，然后'一个热编码'它与6个标签只有：前5个最常见的国家：美国，中国，日本，法国，加拿大和第六个标签是'其他'为列中的任何其他国家

共有2个答案

韦宏扬

2023-03-14

您可以使用lambda尝试这个简单的解决方案。lambda中的if elif else条件甚至可以帮助您进一步分类！

top = ['USA', 'CHINA', 'JAPAN', 'FRANCE', 'CANADA']
df['country'] = df['country'].apply(lambda x : 'OTHERS' if x not in top else x)
pd.get_dummies(df['country'])

龚远

2023-03-14

您可以使用np。其中：

countries = ['USA', 'CHINA', 'JAPAN', 'FRANCE', 'CANADA']
df['country_cat'] = np.where(df['country'].isin(countries), 
                             df['country'], 'OTHER')

# and then you can use `pd.get_dummies`
pd.get_dummies(df['country_cat'])

类似资料：

一个热编码一个列

我试图在Iris数据集中的目标列（“物种”）上使用一个热编码器。但我得到了以下错误： ValueError：预期的2D数组，得到1D数组代替：使用数组或数组重塑数据的形状。如果数据具有单个要素或阵列，则重塑（-1，1）。如果（1，-1）包含单个样本，则重塑其形状。我在谷歌上搜索了这个问题，发现大多数scikit学习估计器都需要2D数组，而不是一维数组。同时，我还发现，我们可以尝试传递带有索
Tensorflow一个热编码器？

问题内容：张量流是否具有类似于scikit Learn的一种用于处理分类数据的热编码器？使用tf.string的占位符会表现为分类数据吗？我意识到我可以在将数据发送到tensorflow之前对其进行手动预处理，但是将其内置非常方便。问题答案：从TensorFlow 0.8开始，现在有一个原生的一站式操作，可以将一组稀疏标签转换为密集的一站式表示形式。这是的补充，在某些情况下，您可以使您直接
顺序编码还是一个热编码

如果我们不确定分类特征的性质，比如它们是名词性的还是序数的，我们应该使用哪种编码？顺序编码还是一个热编码？关于这个话题有没有明确的规定？我看到很多人对没有方向的分类数据使用顺序编码。假设一个频率表：有很多人更喜欢在这个专栏上做顺序编码。我非常想用一热编码。我对此的看法是，做序数编码会给这些颜色分配一些有序的数字，这意味着一个排名。而且没有排名第一。换句话说，我的模型不应该认为color_whi
具有不同行为的同一个行家

问题内容：我试图用来创建我的，以确保我的构建/项目的质量。该项目也需要使用和。一切在我的本地计算机上都可以正常运行，但是现在我正在尝试使环境一致，可重现。当我尝试在新的虚拟机中运行时，会中断一个在本机中正常运行但不在新vm中运行的。我检查了版本，，，（其）一切都是一样的。但是，我的Maven项目在此测试中失败了。我在这里想念什么？任何想法，建议都会受到赞赏，因为我现在还没有想法，到目前为
获取一个国家的货币代码

问题内容：我在获取某个国家的货币代码时遇到问题。我的任务是获取用户的位置，找出他现在所在的国家/地区，并获取该国家/地区的货币代码。以下是从获取的位置获取国家/地区名称和国家/地区代码的代码：这工作得很好。现在，我应该使用该类来获取对象。我可以使用该方法。但是类中没有构造函数，仅允许将国家/地区代码作为参数传递。表示我无法为该国家/地区创建对象。如何解决呢？提前致谢。问题答案：如果国家/地
将一个热编码列复制到假人，包括“其他”编码[重复]

我的最终目标是对熊猫专栏进行热编码。在本例中，我想对一列“b”进行热编码，如下所示：保存苹果、香蕉和桔子，并将任何其他水果编码为“其他”。示例：在下面的代码中，“葡萄柚”将被改写为“其他”，如果“猕猴桃”和“鳄梨”出现在我的数据中，它们也将被改写为“其他”。以下代码有效：我的问题是：有没有一种更短的方法来做业务？我尝试了

一个热编码列包含28个不同的国家，只有6个类

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档