当前位置: 首页 > 知识库问答 >
问题:

如何在pyspark AWS上跨集群添加文件

益思博
2023-03-14

我是新来的。我正试图从我的主实例读取一个文件,但我得到了这个错误。经过研究,我发现要么需要将数据加载到hdfs,要么需要跨集群复制。我找不到执行这两个命令的命令。

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

/home/ec2-user/spark/python/pyspark/RDD.pyc in first(self)1359
valueerror:RDD为空1360“”“->1361 rs=self.take(1)1362如果rs:1363返回rs[0]

/home/ec2-user/spark/python/pyspark/rdd.pyc in take(self,num)1311“”“1312 items=[]->1313 totalParts=self.getNumPartitions()1314 partsScanned=0 131 5

/home/ec2-user/spark/python/pyspark/rdd.pyc in getNumPartitions(self)2438 2439 def getNumPartitions(self):->2440 return self._prev_jrdd.partitions().size()2441 2442@property

/home/ec2-user/spark/python/lib/py4j-0.10.4-src.zip/py4j/java_gateway.py in call(self,*args)1131应答=self.gateway_client.send_command(command)1132 return_value=get_return_value(->1133应答,self.gateway_client,self.target_id,self.name)1134 1135对于temp_args中的temp_arg:

/home/ec2-user/spark/python/pyspark/sql/utils.pyc in deco(*a,**kw)61 def deco(*a,**kw):62 try:---->63返回f(*a,**kw)64除py4j.protocol.py4jJavaError为E:65 s=e.java_exception.toString()

/home/ec2-user/spark/python/lib/py4j-0.10.4-src.zip/py4j/protocol.py in get_return_value(应答,gateway_client,target_id,name)317 Rise Py4JJavaError(318“调用{0}{1}{2}时出错.\n”。-->319 format(target_id,“.”,name),value)320 else:321 Rise Py4JError(

PY4JJavaError:调用O122.Partitions时出错。:org.apache.hadoop.mapred.invalidinputexception:输入路径不存在:file:/home/ec2-user/pr_data_35.csv(位于org.apache.hadoop.mapred.fileinputformat.singlethreadedliststatus(位于org.apache.hadoop.mapred.fileinputformat.java:285)(位于org.apache.hadoop.mapred.fileinputformat.liststatus(位于org.apache.hadoop.mapred.fileinputformat.java:228)(位于t org.apache.spark.api.java.javarddlike$class.partitions(javarddlike.scala:61)在org.apache.spark.api.java.abstractjavarddlike.partitions(javarddlike.scala:45)在sun.reflect.nativeMethodAccessorInvoke0(原生方法)在sun.reflect.nativeMethodAccessorInvoke(nativeMethodAccessorInvoke.java:62)在

共有1个答案

商佑运
2023-03-14

由于您已经在AWS中,所以将数据文件存储在s3中并直接从那里打开可能会更容易。

 类似资料:
  • 问题内容: 我已使用连接到集群,并使用将程序发送到集群 我想将结果保存在文本文件中,并尝试使用以下几行: 但是,它们都不起作用。程序完成,我在中找不到文本文件。你知道我该怎么做吗? 另外,有没有一种方法可以直接写入本地计算机? 编辑:我发现该目录不存在,所以现在我将结果另存为: 但这会创建一个名为的目录,并且我里面有很多文件,里面有部分结果。但是我想要一个包含最终结果的文件。有什么想法我该怎么做?

  • 卡桑德拉有一张桌子 如何在“排序”列中添加聚类键。不重新创建表

  • 问题内容: 在我的项目中,我使用iText生成PDF文档。 假设页面的高度为500pt(1个用户单位= 1点),并且我在页面上写了一些文本,然后是图像。 如果内容和图像要求小于450pt,则文本在图像之前。如果内容和图像超过450pt,则文本将转发到下一页。 我的问题是:在写图像之前如何获得剩余的可用空间? 问题答案: 首先,第一件事:在页面上添加文本和图像时,iText有时会更改文本内容和图像的

  • 问题内容: 假设您有一个文件 并希望添加一些标头信息,例如 如何添加此“标题”?手动执行似乎很简单。点击几回车,复制/粘贴或写信息,就可以了。当然,在R中,我可以读入,创建,添加标题信息,然后。 我想知道是否还有另一种从“顶部”附加文件的方法。也欢迎使用其他解决方案(来自c ++或Java …)(我很好奇其他语言如何解决此问题)。 问题答案: 在R中,不需要使用额外的文件。您可以这样做: 但是,使

  • 拜托,我需要你的帮助。 自上周以来,我一直在努力尝试在Windows服务器上配置兔子MQ集群。我重新安装了 RabbitMQ 3.7.8 和 ErlangOTP 21-1 超过 15 次,试图找出问题并修复它,但不幸的是,我所有的尝试都失败了。 我的环境: 三个虚拟机与操作系统: Windows 服务器 2012 环境变量设置: 安装步骤:(针对每台服务器) 完成以上服务器的安装后,我开始配置集群

  • 群主/管理员在企业群中,点击机器人图标打开机器人面板,进入添加机器人列表。1个群最多只能添加10个机器人。 详细请参阅:在客户端使用机器人 机器人添加入口: