我有一个包含以下数据的CSV文件:
1,2,5
2,4
2,3
我想将它们加载到具有数组字符串模式的Dataframe中
输出应如下所示。
[1, 2, 5]
[2, 4]
[2, 3]
这已在此处使用scala进行了回答:
Spark:将字符串列转换为数组
我想让它在Java中实现。
请帮忙
以下是Java中的示例代码。您需要使用spark.read().text(String path)
方法读取文件,然后调用split
函数。
import static org.apache.spark.sql.functions.split;
public class SparkSample {
public static void main(String[] args) {
SparkSession spark = SparkSession
.builder()
.appName("SparkSample")
.master("local[*]")
.getOrCreate();
//Read file
Dataset<Row> ds = spark.read().text("c://tmp//sample.csv").toDF("value");
ds.show(false);
Dataset<Row> ds1 = ds.select(split(ds.col("value"), ",")).toDF("new_value");
ds1.show(false);
ds1.printSchema();
}
}
问题内容: 我一直在尝试重新实现HTML5图像上传程序,例如MozillaHacks网站上的HTML5图像上传程序,但是它可以与WebKit浏览器一起使用。任务的一部分是从对象中提取图像文件,并将其附加到FormData对象以进行上传。 问题在于,虽然具有返回图像文件表示形式的功能,但FormData对象仅接受FileAPI中的 File或Blob对象。 Mozilla解决方案在Firefox上使
我一直在尝试重新实现一个HTML5图像上传程序,就像Mozilla Hacks网站上的一样,但它适用于WebKit浏览器。部分任务是从对象中提取图像文件,并将其附加到FormData对象以供上传。 问题是,虽然具有函数来返回图像文件的表示形式,但FormData对象仅接受来自文件API的文件或Blob对象。 Mozilla解决方案在画布上使用了以下仅限Firefox的函数: ...这在WebKit
问题内容: 我有一个719mb的CSV文件,看起来像: 我想加载到熊猫DataFrame中。现在我知道csv方法有负载: 但我特别想将其加载为“ MultiIndex” DataFrame,其中from和to是索引: 所以最后以: 等等。我不确定该怎么做? 问题答案: 您可以使用: 我曾经摆脱标题行中那些烦人的空格的地方。
问题内容: 我一直在尝试重新实现HTML5图像上传程序,HTML5图像上传程序,但是它可以与WebKit浏览器一起使用。任务的一部分是从对象中提取图像文件,并将其附加到FormData对象以进行上传。 问题在于,虽然具有返回图像文件表示形式的功能,但FormData对象仅接受FileAPI中的 File或Blob对象。 Mozilla解决方案在Firefox上使用了以下仅Firefox功能: …在
问题内容: 我有一组CSV数据要转换为XML。代码看起来不错,但是输出不够完美。它忽略了一些列,因为它们没有值,并且产生了很长的XML数据行,而不是破坏它。 这是我的CSV数据示例: 而我的代码: 当对以上数据执行此代码时,将产生: 我本人以这种形式安排它,但是输出结果很长。产生的输出应为: 问题答案: 我同意Kennet。 我只是添加了 这在元素之间添加了新行,并允许缩进。 更新 首先,我们要介
csv文件中的每一行结构如下: