当前位置: 首页 > 知识库问答 >
问题:

将包含Vector作为特性的spark dataframe转换为CSV文件

太叔逸春
2023-03-14
org.apache.spark.sql.DataFrame = [label: bigint, topicDistribution: vector]

scala> df_new.show
+-----+--------------------+
|label|   topicDistribution|
+-----+--------------------+
|    0|[6.71576085454879...|
|    1|[5.74898984641732...|
|    2|[1.50297841245588...|
|    3|[3.83251655971072...|
|    4|[8.62396858027641...|
|    5|[1.54900186503601...|
|    6|[1.61493761327978...|
|    7|[9.36938609746372...|
|    8|[1.34332824038935...|
|    9|[1.09991943420077...|
|   10|[1.29739085981008...|
|   11|[8.92839698024594...|
|   12|[4.12414455173398...|
|   13|[1.56497583389755...|
|   14|[1.80725990261967...|
|   15|[1.80725990261967...|
|   16|[9.36938609746372...|
|   17|[1.53335069918914...|
|   18|[1.51801264939744...|
|   19|[7.15931646362877...|
+-----+--------------------+
only showing top 20 rows

我不需要将这些数组扩展成一个单独的特性,我只需要按原样转换它。如何将其转换为CSV文件?

共有1个答案

白高逸
2023-03-14

请考虑使用coalesce(1)将影响执行dataframe之前步骤的方式。仅传递1个分区作为coalesce的参数将大大降低并行性,因此您可能面临内存错误。

请尝试repartition,因为这不会影响前面操作的并行性,并且您将得到类似的结果(即只编写一个csv)。

应该是这样的:

df.repartition(1).write.option("header", true).csv("<file output path>")
 类似资料:
  • 问题内容: 我想将从下面的脚本中获取的HTML表转换为CSV文件,但是出现如下类型错误: TypeError:序列项0:预期的字符串,找到标记 将其转换为CSV文件的最简单方法是什么?我尝试为: 但它写了“无” HTML是这样的: 问题答案: 这是csv lib的工作,将每一个td放入每一行并提取文本,它将处理每一行中缺少值的地方: 与您在页面上看到的表格完全匹配的表格: 如果您想使用字幕: 但是

  • 问题内容: 我在一个一维数组中有一个例子。它只会输出列。我的想法是使用2d数组选择行和列。这是我的代码: myfile.csv 输出: 名字蒂姆汤姆 问题答案: 我只是将split结果()添加到a中,如果您确实希望将其作为2d数组,则在事后将其转换。

  • 我从. csv文件读取数据到熊猫数据框如下。对于其中一个列,即,我想将列类型指定为。问题是系列缺少/空值。 当我在读取.csv时尝试将列强制转换为整数时,我得到: 或者,在阅读以下内容后,我尝试转换列类型,但这次我得到: 我如何处理这个问题?

  • 我有一个docx4j生成的文件,其中包含几个表格、标题,最后还有一个excel生成的曲线图。 我尝试了许多方法,以将此文件转换为PDF,但没有得到任何成功的结果。 带有xsl fo的Docx4j不起作用,docx文件中包含的大部分内容尚未实现,并以红色文本显示为“未实现” 我在Apache POI中使用的代码如下: 我不知道该怎么做才能得到PDF中的图表,有人能告诉我如何继续吗? 提前感谢。

  • 我有一本书。obj。具有多个材质的mtl文件对于指定的材质,我要打印顶点及其对应的uv坐标。有没有一种方法可以解析一个。obj,和。mtl文件并将其导出为json?使用时 波前obj分析器 Py波前 meshlab所有这些工具都会生成一个json文件,我认为数据是部分的——我没有看到其中的材料 编辑: 我用一个示例3D模型进行了测试 第1步:转换文件。obj和。mtl将多个材质合并为一个。json