问题：

如何在pyspark AWS上跨集群添加文件

益思博

2023-03-14

我是新来的。我正试图从我的主实例读取一个文件，但我得到了这个错误。经过研究，我发现要么需要将数据加载到hdfs，要么需要跨集群复制。我找不到执行这两个命令的命令。

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

/home/ec2-user/spark/python/pyspark/RDD.pyc in first（self）1359
valueerror：RDD为空1360“”“->1361 rs=self.take（1）1362如果rs:1363返回rs[0]

/home/ec2-user/spark/python/pyspark/rdd.pyc in take（self,num）1311“”“1312 items=[]->1313 totalParts=self.getNumPartitions（）1314 partsScanned=0 131 5

/home/ec2-user/spark/python/pyspark/rdd.pyc in getNumPartitions（self）2438 2439 def getNumPartitions（self）：->2440 return self._prev_jrdd.partitions（）.size（）2441 2442@property

/home/ec2-user/spark/python/lib/py4j-0.10.4-src.zip/py4j/java_gateway.py in call（self,*args）1131应答=self.gateway_client.send_command（command）1132 return_value=get_return_value(->1133应答,self.gateway_client,self.target_id,self.name)1134 1135对于temp_args中的temp_arg:

/home/ec2-user/spark/python/pyspark/sql/utils.pyc in deco(*a,**kw)61 def deco(*a,**kw):62 try:---->63返回f(*a,**kw)64除py4j.protocol.py4jJavaError为E:65 s=e.java_exception.toString()

/home/ec2-user/spark/python/lib/py4j-0.10.4-src.zip/py4j/protocol.py in get_return_value（应答,gateway_client,target_id,name）317 Rise Py4JJavaError（318“调用{0}{1}{2}时出错.\n”。-->319 format（target_id,“.”,name）,value）320 else：321 Rise Py4JError（

PY4JJavaError：调用O122.Partitions时出错。：org.apache.hadoop.mapred.invalidinputexception：输入路径不存在：file:/home/ec2-user/pr_data_35.csv（位于org.apache.hadoop.mapred.fileinputformat.singlethreadedliststatus（位于org.apache.hadoop.mapred.fileinputformat.java:285)（位于org.apache.hadoop.mapred.fileinputformat.liststatus（位于org.apache.hadoop.mapred.fileinputformat.java:228)（位于t org.apache.spark.api.java.javarddlike$class.partitions(javarddlike.scala:61)在org.apache.spark.api.java.abstractjavarddlike.partitions(javarddlike.scala:45)在sun.reflect.nativeMethodAccessorInvoke0（原生方法）在sun.reflect.nativeMethodAccessorInvoke(nativeMethodAccessorInvoke.java:62)在

共有1个答案

商佑运

2023-03-14

由于您已经在AWS中，所以将数据文件存储在s3中并直接从那里打开可能会更容易。

类似资料：

如何在群集上保存文件

问题内容：我已使用连接到集群，并使用将程序发送到集群我想将结果保存在文本文件中，并尝试使用以下几行：但是，它们都不起作用。程序完成，我在中找不到文本文件。你知道我该怎么做吗？另外，有没有一种方法可以直接写入本地计算机？编辑：我发现该目录不存在，所以现在我将结果另存为：但这会创建一个名为的目录，并且我里面有很多文件，里面有部分结果。但是我想要一个包含最终结果的文件。有什么想法我该怎么做？
Cassandra如何在表中添加集群键？

卡桑德拉有一张桌子如何在“排序”列中添加聚类键。不重新创建表
如何在图像上添加文字？

问题内容：在我的项目中，我使用iText生成PDF文档。假设页面的高度为500pt（1个用户单位= 1点），并且我在页面上写了一些文本，然后是图像。如果内容和图像要求小于450pt，则文本在图像之前。如果内容和图像超过450pt，则文本将转发到下一页。我的问题是：在写图像之前如何获得剩余的可用空间？问题答案：首先，第一件事：在页面上添加文本和图像时，iText有时会更改文本内容和图像的
如何在文件前添加（在顶部添加）

问题内容：假设您有一个文件并希望添加一些标头信息，例如如何添加此“标题”？手动执行似乎很简单。点击几回车，复制/粘贴或写信息，就可以了。当然，在R中，我可以读入，创建，添加标题信息，然后。我想知道是否还有另一种从“顶部”附加文件的方法。也欢迎使用其他解决方案（来自c ++或Java …）（我很好奇其他语言如何解决此问题）。问题答案：在R中，不需要使用额外的文件。您可以这样做：但是，使
如何在Windows上配置RabbitMQ集群

拜托，我需要你的帮助。自上周以来，我一直在努力尝试在Windows服务器上配置兔子MQ集群。我重新安装了 RabbitMQ 3.7.8 和 ErlangOTP 21-1 超过 15 次，试图找出问题并修复它，但不幸的是，我所有的尝试都失败了。我的环境：三个虚拟机与操作系统： Windows 服务器 2012 环境变量设置：安装步骤：（针对每台服务器）完成以上服务器的安装后，我开始配置集群
如何在群聊中添加机器人？

群主/管理员在企业群中，点击机器人图标打开机器人面板，进入添加机器人列表。1个群最多只能添加10个机器人。详细请参阅：在客户端使用机器人机器人添加入口：

如何在pyspark AWS上跨集群添加文件

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档