当前位置: 首页 > 面试题库 >

估算pandas中类别的缺失值

公沈浪
2023-03-14
问题内容

问题是如何用熊猫数据框中类别列的最频繁级别填充NaN?

在R randomForest软件包中,有
na.roughfix选项:A completed data matrix or data frame. For numeric variables, NAs are replaced with column medians. For factor variables, NAs are replaced with the most frequent levels (breaking ties at random). If object contains no NAs, it is returned unaltered.

在熊猫中使用数字变量,我可以用以下内容填充NaN值:

df = df.fillna(df.median())

问题答案:

您可以使用df = df.fillna(df['Label'].value_counts().index[0])一栏中最频繁的值来填充NaN。

如果要用自己的最常用值填充每一列,则可以使用

df = df.apply(lambda x:x.fillna(x.value_counts().index[0]))

更新 2018-25-10⬇

0.13.1熊猫开始,包括mode用于Series和Dataframe的方法。您可以使用它来填充每一列的缺失值(使用它自己的最频繁的值),就像这样

df = df.fillna(df.mode().iloc[0])


 类似资料:
  • 问题内容: 我有一些文本类型的列的熊猫数据。这些文本列中包含一些NaN值。我想做的是通过(用最常用的值替换NaN )来估算那些NaN 。问题在于实施。假设有一个具有30列的Pandas数据框df,其中10列属于分类性质。一旦我运行: Python会生成一个,其中’run1’是带有分类数据的第一列中的普通(不丢失)值。 任何帮助将非常欢迎 问题答案: 要将平均值用于数字列,将最频繁的值用于非数字列,

  • 主要内容:为什么会存在缺失值?,什么是稀疏数据?,缺失值处理,检查缺失值,缺失数据计算,清理并填充缺失值,删除缺失值在一些数据分析业务中,数据缺失是我们经常遇见的问题,缺失值会导致数据质量的下降,从而影响模型预测的准确性,这对于机器学习和数据挖掘影响尤为严重。因此妥善的处理缺失值能够使模型预测更为准确和有效。 为什么会存在缺失值? 前面章节的示例中,我们遇到过很多 NaN 值,关于缺失值您可能会有很多疑问,数据为什么会丢失数据呢,又是从什么时候丢失的呢?通过下面场景,您会得到答案。 其实在很多时

  • 问题内容: 这应该很简单,但是我发现的最接近的内容是这篇文章: pandas:填充组中的缺失值,但我仍然无法解决我的问题。 假设我有以下数据框 我想在每个“名称”组中用平均值填写,即 我不确定要去哪里: 问题答案: 一种方法是使用:

  • 问题内容: 我有一个回归模型,其中因变量是连续的,但是90%的自变量是分类的(有序和无序),大约30%的记录具有缺失值(更糟糕的是,它们无规律地随机缺失,也就是说,超过百分之四十五的数据至少有一个缺失值)。没有先验理论来选择模型的规格,因此关键任务之一是在运行回归之前进行尺寸缩减。虽然我知道用于连续变量降维的几种方法,但我不知道关于分类数据的类似静态文献(也许,除了作为对应分析的一部分,这基本上是

  • 我在尝试将资源加载到应用程序的包中时遇到了严重的问题。我已经这样做了几个小时,我真的不知道我做错了什么。 我有一个 Java 应用程序,我正在尝试将国际化应用于我的日志记录。Eclipse中一切正常,只有当我尝试将编译的jars部署到测试环境时,才找不到属性文件。我的属性文件称为logging_en.属性。我已经验证了它在文件系统上(顺便说一句,Linux)。当我启动我的应用程序时,我执行以下命令

  • 在 pandas 中,使用np.nan来代替缺失值,这些值将默认不会包含在计算中,详情请参阅:缺失的数据。 1、 reindex()方法可以对指定轴上的索引进行改变/增加/删除操作,这将返回原始数据的一个拷贝: In [55]: df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ['E']) In [56]: df1.loc