org.apache.spark.sql.DataFrame = [label: bigint, topicDistribution: vector]
scala> df_new.show
+-----+--------------------+
|label| topicDistribution|
+-----+--------------------+
| 0|[6.71576085454879...|
| 1|[5.74898984641732...|
| 2|[1.50297841245588...|
| 3|[3.83251655971072...|
| 4|[8.62396858027641...|
| 5|[1.54900186503601...|
| 6|[1.61493761327978...|
| 7|[9.36938609746372...|
| 8|[1.34332824038935...|
| 9|[1.09991943420077...|
| 10|[1.29739085981008...|
| 11|[8.92839698024594...|
| 12|[4.12414455173398...|
| 13|[1.56497583389755...|
| 14|[1.80725990261967...|
| 15|[1.80725990261967...|
| 16|[9.36938609746372...|
| 17|[1.53335069918914...|
| 18|[1.51801264939744...|
| 19|[7.15931646362877...|
+-----+--------------------+
only showing top 20 rows
我不需要将这些数组扩展成一个单独的特性,我只需要按原样转换它。如何将其转换为CSV文件?
请考虑使用coalesce(1)
将影响执行dataframe
之前步骤的方式。仅传递1个分区作为coalesce
的参数将大大降低并行性,因此您可能面临内存错误。
请尝试repartition
,因为这不会影响前面操作的并行性,并且您将得到类似的结果(即只编写一个csv)。
应该是这样的:
df.repartition(1).write.option("header", true).csv("<file output path>")
问题内容: 我想将从下面的脚本中获取的HTML表转换为CSV文件,但是出现如下类型错误: TypeError:序列项0:预期的字符串,找到标记 将其转换为CSV文件的最简单方法是什么?我尝试为: 但它写了“无” HTML是这样的: 问题答案: 这是csv lib的工作,将每一个td放入每一行并提取文本,它将处理每一行中缺少值的地方: 与您在页面上看到的表格完全匹配的表格: 如果您想使用字幕: 但是
问题内容: 我在一个一维数组中有一个例子。它只会输出列。我的想法是使用2d数组选择行和列。这是我的代码: myfile.csv 输出: 名字蒂姆汤姆 问题答案: 我只是将split结果()添加到a中,如果您确实希望将其作为2d数组,则在事后将其转换。
我从. csv文件读取数据到熊猫数据框如下。对于其中一个列,即,我想将列类型指定为。问题是系列缺少/空值。 当我在读取.csv时尝试将列强制转换为整数时,我得到: 或者,在阅读以下内容后,我尝试转换列类型,但这次我得到: 我如何处理这个问题?
我有一个docx4j生成的文件,其中包含几个表格、标题,最后还有一个excel生成的曲线图。 我尝试了许多方法,以将此文件转换为PDF,但没有得到任何成功的结果。 带有xsl fo的Docx4j不起作用,docx文件中包含的大部分内容尚未实现,并以红色文本显示为“未实现” 我在Apache POI中使用的代码如下: 我不知道该怎么做才能得到PDF中的图表,有人能告诉我如何继续吗? 提前感谢。
我有一本书。obj。具有多个材质的mtl文件对于指定的材质,我要打印顶点及其对应的uv坐标。有没有一种方法可以解析一个。obj,和。mtl文件并将其导出为json?使用时 波前obj分析器 Py波前 meshlab所有这些工具都会生成一个json文件,我认为数据是部分的——我没有看到其中的材料 编辑: 我用一个示例3D模型进行了测试 第1步:转换文件。obj和。mtl将多个材质合并为一个。json