SparkR中的dropDuplicates

柯骏

2023-03-14

共有1个答案

程胡非

2023-03-14

要按所有列执行，它是不同的

distinct(x)

或

unique(x)

如您所说，要“基于特定的列”进行操作，您的最佳选择是GroupBy，因为spark无法决定要保存哪一个“非独立”记录。

类似资料：

SparkR

SparkR是AMPLab发布的一个R开发包，为Apache Spark提供了轻量的前端。SparkR提供了Spark中弹性分布式数据集（RDD）的API，用户可以在集群上通过R shell交互性的运行job。
在SparkR中使用CreateDataFrame时“作业因阶段失败而中止”

我的理解是，这是SparkR的一个非常基本的功能，所以我真的不知道为什么它不能工作。由于某种原因，当我使用直接从数据源读取时，我没有问题。还有，我注意到错误行中的数字“：stage xxx中的task 0..”每次失败时递增1。我还注意到，错误似乎来自于执行程序找不到的二进制文件，尽管我不确定为什么这只会发生在从本地data.frames创建的SparkDataFrames中，而不是从外部数据源
在SparkR中使用CreateDataFrame时“由于阶段失败而中止作业”

按照本帖中的说明操作(https://spark.apache.org/docs/latest/sparkr.html#from-本地数据帧）我正在使用以下代码创建sparkdataframe：但是函数总是导致以下错误。我得到同样的错误，当我试图运行以及。我也尝试过而不是createDataFrame。我还尝试在我的ipython笔记本中重新启动内核，并重新启动我的火花会话。我的理解是，这是S
SparkR，将嵌套JSON字符串的一列拆分为列

我来自R，刚接触过SparkR，并试图将JSON字符串的SparkDataFrame列拆分为各自的列。Spark DataFrame中的列是具有如下模式的数组：非常感谢，内特
使用SparkR将csv文件读入Rstudio时输出为空

我是Sparkr的新用户。我正在尝试使用Sparkr将csv文件加载到R中。我使用纽约航班数据集的子集只是为了测试。它只有4行4列：gyear month day dep_time 2013 1 1 517 201 3 1 1 533 201 3 1 1 542 201 3 1 1 544
在Sparkr中用正则表达式模式应用withColumn函数：重新格式化DataFrame中的string列

背景/概述：我正试图将函数应用于已加载到Spark中的SparkR DataFrame的列，如下所示： dat2<-withColumn（dat,“nperiod”,gsub（“/”,“-”,dat$period））中的错误（dat,“nperiod”,gsub（“/”,“-”,dat$period））：在为函数“with column”选择方法时计算参数“col”时出错：as.characte

SparkR中的dropDuplicates

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档