当前位置: 首页 > 面试题库 >

缺失值的分类数据中的降维

轩辕晔
2023-03-14
问题内容

我有一个回归模型,其中因变量是连续的,但是90%的自变量是分类的(有序和无序),大约30%的记录具有缺失值(更糟糕的是,它们无规律地随机缺失,也就是说,超过百分之四十五的数据至少有一个缺失值)。没有先验理论来选择模型的规格,因此关键任务之一是在运行回归之前进行尺寸缩减。虽然我知道用于连续变量降维的几种方法,但我不知道关于分类数据的类似静态文献(也许,除了作为对应分析的一部分,这基本上是频率表上主成分分析的一种形式)。我还要补充一点,该数据集是具有200个变量的中等大小的500000个观察值。我有两个问题。

  1. 对于分类数据的降维以及稳健的插补,是否有很好的统计参考(我认为第一个问题是插补,然后是降维)?
  2. 这与上述问题的实现有关。我以前已经广泛使用R,并且倾向于将transcan和impute函数大量用于连续变量,并且使用树方法的变体来估算类别值。我对Python有一定的了解,因此,如果为此目的有不错的选择,那么我将使用它。python或R中的任何实现指针都会有很大帮助。谢谢。

问题答案:

关于归类数据,我建议检查小鼠包装。另外,请看一下此演示文稿,该演示文稿解释了它如何估算多元分类数据。不完整的多元数据的多重插补的另一个软件包是Amelia。阿米莉亚(Amelia)处理序数和名义变量的能力有限。

至于分类数据的降维(即一种将变量排列到同类聚类中的方法),我建议使用多重对应分析方法,该方法将为您提供最大化聚类同质性的潜在变量。与在主成分分析(PCA)和因子分析中所做的类似,MCA解决方案也可以旋转以增加组件的简便性。旋转背后的想法是找到变量的子集,这些子集与旋转的分量更清晰地重合。这意味着最大程度地简化组件可以帮助因素解释和变量聚类。R
MCA方法包含在ade4,MASS,FactoMineR和ca软件包中(至少)。至于FactoMineR,如果将它作为Rcmdr软件包已经建议的菜单中的附加菜单添加,则可以通过图形界面使用它,并安装RcmdrPlugin.FactoMineR



 类似资料:
  • 问题内容: 我有一些文本类型的列的熊猫数据。这些文本列中包含一些NaN值。我想做的是通过(用最常用的值替换NaN )来估算那些NaN 。问题在于实施。假设有一个具有30列的Pandas数据框df,其中10列属于分类性质。一旦我运行: Python会生成一个,其中’run1’是带有分类数据的第一列中的普通(不丢失)值。 任何帮助将非常欢迎 问题答案: 要将平均值用于数字列,将最频繁的值用于非数字列,

  • 问题内容: 问题是如何用熊猫数据框中类别列的最频繁级别填充NaN? 在R randomForest软件包中,有 na.roughfix选项: 在熊猫中使用数字变量,我可以用以下内容填充NaN值: 问题答案: 您可以使用一栏中最频繁的值来填充NaN。 如果要用自己的最常用值填充每一列,则可以使用 更新 2018-25-10⬇ 从熊猫开始,包括用于Series和Dataframe的方法。您可以使用它来

  • 输入是https://query.data.world/s/Hfu_PsEuD1Z_yJHmGaxWTxvkz7W_b0 输出应该是

  • 本文向大家介绍如何处理缺失值数据?相关面试题,主要包含被问及如何处理缺失值数据?时的应答技巧和注意事项,需要的朋友参考一下 数据中可能会有缺失值,处理的方法有两种,一种是删除整行或者整列的数据,另一种则是使用其他值去填充这些缺失值。在Pandas库,有两种很有用的函数用于处理缺失值:isnull()和dropna()函数能帮助我们找到数据中的缺失值并且删除它们。如果你想用其他值去填充这些缺失值,则

  • 问题内容: 我正在寻找一种最有效的方法,根据序列中缺少的数字将数字列表分成较小的列表。例如,如果初始列表为: 该函数将产生: 要么 会导致: 问题答案: 旧Python文档中的Python 3版本代码: 每当关键函数更改其返回值时,itertools模块中的函数都会生成中断。诀窍在于,返回值是列表中的数字减去列表中元素的位置。当数字中有空格时,此差异会更改。 该功能来自operator模块,您必须

  • 计算出的 start_date_min 日期当日可能有数据也可能没数据,当没数据就想顺延到有数据的日期,请问怎么改代码,谢谢。。。。 还有个问题就是2020怎么换成年份字符窜,有知道的一起指教,就是怎么求每只 code 每年的最低最高价,一年一年算很麻烦,就想一下算所有的,一并谢了。。。