当前位置: 首页 > 知识库问答 >
问题:

将不同类型的缺失值转换为熊猫可识别的NA值

翁凯定
2023-03-14

我有一个数据帧,其中包含各种不同的值,表示丢失。我对其进行了修改,现在应将它们全部指定为“NaN”,如下所示:

import numpy as np

import pandas as pd
import numpy as np
data = {'Name':['Tom', 'nick', '-', 'jack'],
        'Age':['20', '0', '19', ''],
       'color':['yellow','Na','blue','red']}

df = pd.DataFrame(data)


def missing_values(x):
    
    missingness_indicators = ["NaN","NAN","NA","Na","n/a", "na", "--","-"," ", "-inf", "inf", "nan", "None", "0", "", np.nan] 
    
    modified_df = df.replace(missingness_indicators,'NaN')

    modified_df["color"] = modified_df.loc[:,'color'].fillna(method='bfill', axis=0) #LOCF
    
    return modified_df

但是使用建立在公认的缺失值上的熊猫函数不起作用,我认为这是由于我没有导入指定值的数据帧(因为这会导致其他问题,我正在处理一个比示例)我现在正在寻找一种方法来在此数据集中应用熊猫函数,如. fillna

共有1个答案

胡劲
2023-03-14

使用np.nan替换“指示器”:

modified_df = df.replace(missingness_indicators,'NaN')

具有

modified_df = df.replace(missingness_indicators, np.nan) 
 类似资料:
  • 我有以下布尔值表: 我想创建一个具有相同索引的新数据帧,但每行都有前一列的前三个 True 列名。 如果一行少于三个真值,则新数据帧将具有空值。

  • 我在Pandas中读取了一个SQL查询,虽然值是字符串、日期和整数,但它们是作为dtype“object”输入的。我能够将日期“对象”转换为datetime数据类型,但在尝试转换字符串和整数时出错。 以下是一个例子: 将转换为日期时间有效: 但我在尝试将转换为整数时出错: 注意:我得到一个类似的错误,当我尝试 当试图转换为字符串时,似乎什么也没有发生。

  • 问题内容: 对于大熊猫,有人会知道,除了 (i), (以及like等的其他变体,等等) (ii) (iii), 如字符串列,总有一个的? 另外,我想知道,如果有来自任何数据类型分开(I),(II)和(iii)在上面的列表中不会使这是一个? 问题答案: pandas1.0.0发布后,于2020年2月编辑 熊猫通常为每个Series使用NumPy数组和dtype(数据帧是Series的集合,每个都有自

  • 问题内容: 我已经读过一个对Pandas的SQL查询,并且值以dtype’object’的形式出现,尽管它们是字符串,日期和整数。我能够将日期“ object”转换为Pandas datetime dtype,但是在尝试转换字符串和整数时遇到错误。 这是一个例子: 将转换为日期时间可以: 但是尝试将转换为整数时出现错误: 注意:我尝试时遇到类似的错误 当尝试转换为字符串时,似乎什么也没有发生。 问

  • 我有一个字段在熊猫DataFrame被导入为字符串格式。它应该是日期时间变量。如何将其转换为日期时间列,然后根据日期进行筛选。 示例: 数据帧名称:原始数据