问题：

将包含Vector作为特性的spark dataframe转换为CSV文件

太叔逸春

2023-03-14

org.apache.spark.sql.DataFrame = [label: bigint, topicDistribution: vector]

scala> df_new.show
+-----+--------------------+
|label|   topicDistribution|
+-----+--------------------+
|    0|[6.71576085454879...|
|    1|[5.74898984641732...|
|    2|[1.50297841245588...|
|    3|[3.83251655971072...|
|    4|[8.62396858027641...|
|    5|[1.54900186503601...|
|    6|[1.61493761327978...|
|    7|[9.36938609746372...|
|    8|[1.34332824038935...|
|    9|[1.09991943420077...|
|   10|[1.29739085981008...|
|   11|[8.92839698024594...|
|   12|[4.12414455173398...|
|   13|[1.56497583389755...|
|   14|[1.80725990261967...|
|   15|[1.80725990261967...|
|   16|[9.36938609746372...|
|   17|[1.53335069918914...|
|   18|[1.51801264939744...|
|   19|[7.15931646362877...|
+-----+--------------------+
only showing top 20 rows

我不需要将这些数组扩展成一个单独的特性，我只需要按原样转换它。如何将其转换为CSV文件？

共有1个答案

白高逸

2023-03-14

请考虑使用coalesce(1)将影响执行dataframe之前步骤的方式。仅传递1个分区作为coalesce的参数将大大降低并行性，因此您可能面临内存错误。

请尝试repartition，因为这不会影响前面操作的并行性，并且您将得到类似的结果（即只编写一个csv）。

应该是这样的：

df.repartition(1).write.option("header", true).csv("<file output path>")

类似资料：

将HTML转换为CSV

问题内容：我想将从下面的脚本中获取的HTML表转换为CSV文件，但是出现如下类型错误： TypeError：序列项0：预期的字符串，找到标记将其转换为CSV文件的最简单方法是什么？我尝试为：但它写了“无” HTML是这样的：问题答案：这是csv lib的工作，将每一个td放入每一行并提取文本，它将处理每一行中缺少值的地方：与您在页面上看到的表格完全匹配的表格：如果您想使用字幕：但是
将CSV文件转换为2D数组

问题内容：我在一个一维数组中有一个例子。它只会输出列。我的想法是使用2d数组选择行和列。这是我的代码： myfile.csv 输出：名字蒂姆汤姆问题答案：我只是将split结果（）添加到a中，如果您确实希望将其作为2d数组，则在事后将其转换。
如何将xlsx文件转换为CSV？
将包含NaN的Pandas列转换为dtype'int'

我从. csv文件读取数据到熊猫数据框如下。对于其中一个列，即，我想将列类型指定为。问题是系列缺少/空值。当我在读取.csv时尝试将列强制转换为整数时，我得到：或者，在阅读以下内容后，我尝试转换列类型，但这次我得到：我如何处理这个问题？
将包含图表的docx转换为PDF

我有一个docx4j生成的文件，其中包含几个表格、标题，最后还有一个excel生成的曲线图。我尝试了许多方法，以将此文件转换为PDF，但没有得到任何成功的结果。带有xsl fo的Docx4j不起作用，docx文件中包含的大部分内容尚未实现，并以红色文本显示为“未实现” 我在Apache POI中使用的代码如下：我不知道该怎么做才能得到PDF中的图表，有人能告诉我如何继续吗？提前感谢。
转换obj和。将包含多个材质的mtl文件转换为json

我有一本书。obj。具有多个材质的mtl文件对于指定的材质，我要打印顶点及其对应的uv坐标。有没有一种方法可以解析一个。obj，和。mtl文件并将其导出为json？使用时波前obj分析器 Py波前 meshlab所有这些工具都会生成一个json文件，我认为数据是部分的——我没有看到其中的材料编辑：我用一个示例3D模型进行了测试第1步：转换文件。obj和。mtl将多个材质合并为一个。json

将包含Vector作为特性的spark dataframe转换为CSV文件

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档