当前位置: 首页 > 知识库问答 >
问题:

亚马逊电子病历和S3,org。阿帕奇。火花sql。分析异常:路径s3:///var/表已存在

张高义
2023-03-14

我正在试图找到Spark 2.0上的错误源。0,我有一个将表名作为键、数据帧作为值的映射,我循环遍历它,最后使用spark avro(3.0.0-preview2)将所有内容写入S3目录。它在本地运行非常完美(当然是本地路径而不是s3路径),但是当我在Amazon的EMR上运行它时,它运行了一段时间,然后它说文件夹已经存在并终止(这意味着相同的键值在for循环中被使用了不止一次,对吗?)。这可能是线程问题吗?

for ((k, v) <- tableMap) {
  val currTable: DataFrame = tableMap(k)
  val decryptedCurrTable = currTable.withColumn("data", decryptUDF(currTable("data")))
  val decryptedCurrTableData = sparkSession.sqlContext.read.json(decryptedCurrTable.select("data").rdd.map(row => row.toString()))
  decryptedCurrTable.write.avro(s"s3://..../$k/table")
  decryptedCurrTableData.write.avro(s"s3://..../$k/tableData")

共有1个答案

李鸿
2023-03-14

我认为这是一个并发问题,我将代码更改为:

decryptedCurrTable.write.mode("append").avro(s"s3://..../$k/table")
decryptedCurrTableData.write.mode("append").avro(s"s3://..../$k/tableData")  

一切都很顺利。

 类似资料:
  • 我在尝试将spark数据帧的一列从十六进制字符串转换为双精度字符串时遇到了一个问题。我有以下代码: 我无法共享txs数据帧的内容,但以下是元数据: 但当我运行这个程序时,我得到了一个错误: 错误:类型不匹配;找到:MsgRow需要:org.apache.spark.sql.行MsgRow(row.getLong(0),row.getString(1),row.getString(2),hex2in

  • 问题是,我正在尝试获取Amazon S3存储库中的文件。我收到了来自亚马逊的消息“InvalidAccessKeyId” 您提供的AWS访问密钥ID不存在于我们的记录中。(服务:Amazon S3;状态代码:403;错误代码:InvalidAccessKeyId;请求ID:62781C914754D8ED;S3扩展请求ID:fhv2t247XoEK99IZ6/f8lcWUz7IWlGybGfb2H

  • 我正在尝试使用 java 对亚马逊 S3 进行分段上传。我正在使用下面链接中的代码。 http://docs.aws.amazon.com/AmazonS3/latest/dev/llJavaUploadFile.html 方案 1:要上载的文件大小为 31627。我使用 partSize 作为 500000 来指定单个部件的大小。 由于文件的大小小于部分大小,因此文件将上传到 S3。 方案 2:

  • 我正在尝试将图像上传到我的AWS存储桶,我创建了一个新用户授予他完整的控制权 但是,在上传时,我收到以下错误: 05-27 07:09:47.219: W/System.err(20594):com.amazonaws.services.s3.model.Amazon S3异常:访问被拒绝(服务:Amazon S3;状态代码:403;错误代码:访问被拒绝;请求ID:),S3扩展请求ID:/=

  • 问题内容: 我有一个800KB的JPG文件。我尝试上传到S3,并不断收到超时错误。你能弄清楚哪里出了问题吗?800KB很小,无法上传。 错误消息:在超时期限内未读取或写入到服务器的套接字连接。空闲连接将关闭。 HTTP状态码:400 AWS错误代码:RequestTimeout 问题答案: IOUtils.toByteArray是否有可能正在耗尽您的输入流,以便在进行服务调用时不再需要从中读取任何

  • 阅读 https://github.com/apache/spark/blob/master/mllib/src/main/scala/org/apache/spark/mllib/feature/Word2Vec.scala 这种实现的文字是谷歌Word2Vec的一个端口 https://code.google.com/archive/p/word2vec/ 这是“向量空间中单词表示的有效估计”