我们经常会在数据收集过程中发现错误,这些错误可能会导致研究结果不正确。当错误地收集数据时,将使分析师的工作变得困难。显示数据有错误的一种情况是获取字符串代替数字值。因此,我们需要将这些字符串转换为R中的NA,以便我们可以进行预期的分析。
请看以下数据帧-
> x1<-rep(c(1,3,6,7,5,2,"XYZ",12,4,5),times=2) > x2<-rep(c(67,"XYZ",45,32,52),each=4) > df<-data.frame(x1,x2) > df x1 x2 1 1 67 2 3 67 3 6 67 4 7 67 5 5 XYZ 6 2 XYZ 7 XYZ XYZ 8 12 XYZ 9 4 45 10 5 45 11 1 45 12 3 45 13 6 32 14 7 32 15 5 32 16 2 32 17 XYZ 52 18 12 52 19 4 52 20 5 52
将所有XYZ转换为NA-
> df[df=="XYZ"]<-NA > df x1 x2 1 1 67 2 3 67 3 6 67 4 7 67 5 5 <NA> 6 2 <NA> 7 <NA> <NA> 8 12 <NA> 9 4 45 10 5 45 11 1 45 12 3 45 13 6 32 14 7 32 15 5 32 16 2 32 17 <NA> 52 18 12 52 19 4 52 20 5 52
让我们再看一个例子-
> ID<-c("Class",2:20) > ID<-c("Class",1:19) > Group<-rep(c("Class",2,3,4,5),times=4) > df1<-data.frame(ID,Group) > df1 ID Group 1 Class Class 2 1 2 3 2 3 4 3 4 5 4 5 6 5 Class 7 6 2 8 7 3 9 8 4 10 9 5 11 10 Class 12 11 2 13 12 3 14 13 4 15 14 5 16 15 Class 17 16 2 18 17 3 19 18 4 20 19 5 > df1[df1=="Class"]<-NA > df1 ID Group 1 <NA> <NA> 2 1 2 3 2 3 4 3 4 5 4 5 6 5 <NA> 7 6 2 8 7 3 9 8 4 10 9 5 11 10 <NA> 12 11 2 13 12 3 14 13 4 15 14 5 16 15 <NA> 17 16 2 18 17 3 19 18 4 20 19 5
本文向大家介绍如何在R中将数据帧转换为data.table?,包括了如何在R中将数据帧转换为data.table?的使用技巧和注意事项,需要的朋友参考一下 由于对data.table的操作有时比数据帧快,因此我们可能希望将数据帧转换为data.table对象。数据框和data.table之间的主要区别在于,数据框可在基础R中使用,但是要使用data.table,我们必须安装软件包data.tabl
问题内容: 我有一个要转换为json格式的数据框: 我的数据帧称为res1: 当我做: 我得到这个: 我需要这个json输出像这样,有什么想法吗? 问题答案: 怎么样 通过使用,我们实际上将大的data.frame分解为每一行的单独的data.frame。通过从结果列表中删除名称,该函数将结果包装在数组中,而不是命名对象中。
问题内容: 我想将下面的字符串变量转换为spark上的dataframe。 我知道如何从json文件创建数据帧。 但是我不知道如何从字符串变量创建数据框。 如何将json字符串变量转换为dataframe。 问题答案: 对于Spark 2.2+: 对于Spark 2.1.x: 提示:这是使用重载。它也可以直接读取Json文件。 对于旧版本:
本文向大家介绍如何在R数据帧中将空值转换为NA?,包括了如何在R数据帧中将空值转换为NA?的使用技巧和注意事项,需要的朋友参考一下 当我们的数据包含空值时,很难执行分析,我们可能会将这些空值转换为NA,以便我们了解不可用的值的数量。这可以通过使用单个方括号来完成。 示例 请看以下具有一些空值的数据框- 将空值转换为NA-
我有一个pandas数据框架,其中混合了数据类型(DType),我希望将其转换为numpy结构化数组(或记录数组,在本例中基本相同)。对于纯数字数据帧,使用方法很容易做到这一点。我还需要将pandas列的数据类型转换为字符串而不是对象,以便使用numpy方法,该方法将数字和字符串输出到二进制文件,但不会输出对象。 简而言之,我需要将带有的panda列转换为字符串或unicode数据类型的numpy
我想转换一个组织。阿帕奇。火花sql。数据框到组织。阿帕奇。火花rdd。RDD[(字符串,字符串)]在数据块中。有人能帮忙吗? 背景(也欢迎使用更好的解决方案):我有一个Kafka流,它(经过一些步骤)变成了2列数据帧。我想将其放入Redis缓存,第一列作为键,第二列作为值。 更具体地说,输入的类型是:。我尝试将以下内容放入Redis: 错误消息如下所示: 我已经尝试过一些想法(比如函数、rdd)