我试着在谷歌上搜索,但无法找到解决方案。合并两个< code >数组
投入-
[[one, two, three], [four, five, six]]
预期产出-
[ one, two, three, four, five, six]
谁能解释一下如何使用Java在Spark中实现这一点?
由于 Spark 2.4 中引入了新的数组函数,因此您必须转到用户定义函数 (udf)。
Java 中的用户定义函数是具有 apply
方法的 java 对象,可用作数据帧转换中的内置函数。若要创建此类对象,请首先创建一个 UDFx
对象,其中 x
是 udf 的参数数。
然后,您可以从这个UDFx
对象创建您的udf,方法是使用方法sparkSession.sqlContext()。注册()。udf()
(Spark 2.3之前唯一可用的方法)或通过使用函数udf
(用于Spark 2.3及更高版本)创建它,如本答案所述。
最后,您将它与函数调用Udf
一起使用或直接使用应用程序
。因此,Spark 2.3 及更高版本的完整代码如下:
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.api.java.UDF1;
import org.apache.spark.sql.expressions.UserDefinedFunction;
import org.apache.spark.sql.types.DataTypes;
import scala.collection.Seq;
import java.util.stream.Collectors;
import static org.apache.spark.sql.functions.col;
import static org.apache.spark.sql.functions.udf;
import static scala.collection.JavaConverters.asScalaBuffer;
import static scala.collection.JavaConverters.seqAsJavaList;
public class Flattener {
public static Dataset<Row> flattenArray(Dataset<Row> input, String columnName) {
// define what your user-defined function do
UDF1<Seq<Seq<String>>, Seq<String>> flattenArray = new UDF1<Seq<Seq<String>>, Seq<String>>() {
@Override
public Seq<String> call(Seq<Seq<String>> s) {
return asScalaBuffer(
seqAsJavaList(s)
.stream()
.flatMap(x -> seqAsJavaList(x).stream())
.collect(Collectors.toList())
).toSeq();
}
};
// convert it to user-defined function
UserDefinedFunction flatten_array = udf(
flattenArray,
DataTypes.createArrayType(DataTypes.StringType) // output type of your UDF
);
// apply your user-defined function
return input.withColumn(columnName, flatten_array.apply(col(columnName)));
}
}
注意:在java UDF上使用序列时,您需要使用ScalaSeq
而不是javaList
作为序列输入。要从一个转换为另一个,请查看JavaConverters
scala类方法。
然后,可以在数据帧上调用平展数组
方法:
Flattener.flattenArray(dataframe, "name_of_column_you_want_to_flatten");
问题内容: 我有两个像 我希望它们合并成单个数组 问题答案: 您需要该方法。
问题内容: 我需要一个将所有元素组合在一起的新数组,即 做这个的最好方式是什么? 对不起,我忘了,这些ID永远不会匹配,但是从技术上讲,这些名称可能会出现,但不可能出现,它们都必须列在一个数组中。我查看了array_merge,但不确定这是否是最佳方法。另外,您将如何对此进行单元测试? 问题答案: 效率更高,但有两种选择:
问题内容: 这是在采访中问我的,这是我提供的解决方案: 有没有更有效的方法可以做到这一点? 编辑:更正的长度方法。 问题答案: 稍有改进,但是在主循环之后,当到达另一个输入数组的末尾时,可以用来复制其中一个输入数组的结尾。但是,那不会改变你解决方案的性能特征。
问题内容: 我见过类似的问题,但没有一个提供我所要的答案,因此,如果这被认为是重复的,我在此致歉。我正在尝试将数组{1,2,3}和{4,5,6}合并为{1,2,3,4,5,6}。我做错了什么?我是java的新手。抱歉,问题很愚蠢。 问题答案: 代替 您需要调用merge方法,并将结果分配给数组,例如: 您的for循环也应该是:
问题内容: 我有两个像这样的数组: 我想结合这两个数组,使其不包含重复项,并保留其原始键。例如,输出应为: 我已经尝试过了,但是它正在更改其原始键: 有什么办法吗? 问题答案: 只需使用: 那应该解决。因为如果一个键出现多次(例如在您的示例中),则使用字符串键,因此一个键将覆盖具有相同名称的处理键。因为在您的情况下,它们两者都具有相同的值,但这无关紧要,并且还会删除重复项。 更新:我刚刚意识到,P
问题内容: 有没有一种快速的方法来将一个数组的值组合为另一个数组的键? 输入: 预期产量: 我该怎么办? 问题答案: 会完全按照您的意愿做。 引用手册: 通过将keys数组中的值用作键,并将values数组中的值用作对应值来创建数组。 对于您的情况,您必须执行以下操作: 当然,您也可以使用各种循环组合来做到这一点,这可能是最简单的解决方案。