当前位置: 首页 > 知识库问答 >
问题:

将数组的数组rdd保存到文本文件spark中

杜海
2023-03-14

我有一个类似tmp的RDD。

"org.apache.spark.rdd.RDD[(String, List[(String, String, Double)])]" 

其值如下所示。

Array[(String, List[(String, String, Double)])] = Array((1076486,List((1076486,1076486,0.0), (1076486,431000,0.7438727490345501), (1076486,351632,3.139055446043724), (1076486,431611,6.173095256463185))), (430067,List((430067,430067,0.0), (430067,1037380,4.0390818750047535), (430067,431611,6.396930255172381), (430067,824889,7.265222659014164))))
1076486,1076486,0.0
1076486,431000,0.7438727490345501
.
.
430067,1037380,4.0390818750047535
.mapValues(_.toList).saveAsTextFile
(1076486,List((1076486,1076486,0.0), (1076486,431000,0.7438727490345501), (1076486,351632,3.139055446043724), (1076486,431611,6.173095256463185)))
(430067,List((430067,430067,0.0), (430067,1037380,4.0390818750047535), (430067,431611,6.396930255172381), (430067,824889,7.265222659014164)))
tmp.collect().foreach(a=> {a.foreach(e=>print(e+" "))})

共有1个答案

边银龙
2023-03-14

只需手动创建输出字符串:

tmp.values.flatMap(_.map{case (x, y, z) => s"$x,$y,$z"})
 类似资料:
  • 问题内容: 说我有以下numpy结构化数组: 我想 将其保存到文本文件中的单个空格或制表符分隔的行中 。如果数组都是相同的类型,我可以使用。但是,这似乎不喜欢混合数据类型/结构化数组,例如: 给出此错误: 任何人都可以推荐这样做的方法吗? 问题答案: 编辑 :无论出于什么原因,我似乎都无法单独回答这个问题,因此这是一个更清洁的版本,它不需要使用模块。记录下来,@ askewchan的答案还是更好!

  • 问题内容: 我有使用Spark生成的RDD。现在,如果我将此RDD写入csv文件,则可以使用“ saveAsTextFile()”之类的一些方法,该方法将csv文件输出到HDFS。 我想将文件写入本地文件系统,以便我的SSIS进程可以从系统中选择文件并将它们加载到DB中。 我目前无法使用sqoop。 除了编写Shell脚本之外,Java中是否还有其他地方可以做到这一点? 需要任何清晰度,请告知。

  • 问题内容: 总而言之,我现在面临着将文本文件中的内容存储到数组中的想法。情况就像,文本文件内容: 我希望将它们逐行存储到数组中,这可能吗?我期望的是这样的: 我已经尝试过类似的方法,但似乎对我不起作用。如果有人可以帮助我,真的非常感谢。 代码是: 问题答案: 我建议使用处理动态大小的,而数组将需要预先定义的大小,您可能不知道。您始终可以将列表转回数组。

  • 我收到的流数据()希望保存在S3中(基本上,对于这个问题,我希望将输出保存在哪里并不重要,但我只是为了以防万一而提到它)。 是否可以将每个(这些是JSON字符串)数据保存到JSON文件中,而不是文件夹中?我以为必须使用这个技巧,但它没有。

  • 问题内容: 我的hangman程序有问题。我真的认为我需要做的事超出了我对Java的了解。这是我的代码 我能够使程序读取文件,然后打印到屏幕上,但是我不知道如何将文件中的单词存储到数组中。我一点都没有进步,所以请尝试并做到透彻。 问题答案: 您需要将读取的行保存在一个对象中,并将其分配给数组的某个字段。例如: 这会将值赋给数组的第一个字段。

  • 本文向大家介绍使用pandas将numpy中的数组数据保存到csv文件的方法,包括了使用pandas将numpy中的数组数据保存到csv文件的方法的使用技巧和注意事项,需要的朋友参考一下 接触pandas之后感觉它的很多功能似乎跟numpy有一定的重复,尤其是各种运算。不过,简单的了解之后发现在数据管理上pandas有着更为丰富的管理方式,其中一个很大的优点就是多出了对数据文件的管理。 如果想保存