当前位置: 首页 > 知识库问答 >
问题:

SparkR中的dropDuplicates

柯骏
2023-03-14

共有1个答案

程胡非
2023-03-14

要按所有列执行,它是不同的

distinct(x)

unique(x)

如您所说,要“基于特定的列”进行操作,您的最佳选择是GroupBy,因为spark无法决定要保存哪一个“非独立”记录。

 类似资料:
  • SparkR是AMPLab发布的一个R开发包,为Apache Spark提供了轻量的前端。SparkR提供了Spark中弹性分布式数据集(RDD)的API,用户可以在集群上通过R shell交互性的运行job。

  • 我的理解是,这是SparkR的一个非常基本的功能,所以我真的不知道为什么它不能工作。由于某种原因,当我使用直接从数据源读取时,我没有问题。还有,我注意到错误行中的数字“:stage xxx中的task 0..”每次失败时递增1。 我还注意到,错误似乎来自于执行程序找不到的二进制文件,尽管我不确定为什么这只会发生在从本地data.frames创建的SparkDataFrames中,而不是从外部数据源

  • 按照本帖中的说明操作(https://spark.apache.org/docs/latest/sparkr.html#from-本地数据帧)我正在使用以下代码创建sparkdataframe: 但是函数总是导致以下错误。我得到同样的错误,当我试图运行以及。我也尝试过而不是createDataFrame。我还尝试在我的ipython笔记本中重新启动内核,并重新启动我的火花会话。 我的理解是,这是S

  • 我来自R,刚接触过SparkR,并试图将JSON字符串的SparkDataFrame列拆分为各自的列。Spark DataFrame中的列是具有如下模式的数组: 非常感谢,内特

  • 我是Sparkr的新用户。我正在尝试使用Sparkr将csv文件加载到R中。 我使用纽约航班数据集的子集只是为了测试。它只有4行4列:gyear month day dep_time 2013 1 1 517 201 3 1 1 533 201 3 1 1 542 201 3 1 1 544

  • 背景/概述: 我正试图将函数应用于已加载到Spark中的SparkR DataFrame的列,如下所示: dat2<-withColumn(dat,“nperiod”,gsub(“/”,“-”,dat$period))中的错误(dat,“nperiod”,gsub(“/”,“-”,dat$period)):在为函数“with column”选择方法时计算参数“col”时出错:as.characte