当前位置: 首页 > 知识库问答 >
问题:

Apache Spark 2.3.0 - 如何将两个数组合并为一个数组

鲜于浩淼
2023-03-14

我试着在谷歌上搜索,但无法找到解决方案。合并两个< code >数组

投入-

[[one, two, three], [four, five, six]]

预期产出-

[ one, two, three, four, five, six]

谁能解释一下如何使用Java在Spark中实现这一点?

共有1个答案

解柏
2023-03-14

由于 Spark 2.4 中引入了新的数组函数,因此您必须转到用户定义函数 (udf)。

Java 中的用户定义函数是具有 apply 方法的 java 对象,可用作数据帧转换中的内置函数。若要创建此类对象,请首先创建一个 UDFx 对象,其中 x 是 udf 的参数数。

然后,您可以从这个UDFx对象创建您的udf,方法是使用方法sparkSession.sqlContext()。注册()。udf()(Spark 2.3之前唯一可用的方法)或通过使用函数udf(用于Spark 2.3及更高版本)创建它,如本答案所述。

最后,您将它与函数调用Udf一起使用或直接使用应用程序。因此,Spark 2.3 及更高版本的完整代码如下:

import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.api.java.UDF1;
import org.apache.spark.sql.expressions.UserDefinedFunction;
import org.apache.spark.sql.types.DataTypes;
import scala.collection.Seq;

import java.util.stream.Collectors;

import static org.apache.spark.sql.functions.col;
import static org.apache.spark.sql.functions.udf;
import static scala.collection.JavaConverters.asScalaBuffer;
import static scala.collection.JavaConverters.seqAsJavaList;


public class Flattener {

  public static Dataset<Row> flattenArray(Dataset<Row> input, String columnName) {
    // define what your user-defined function do
    UDF1<Seq<Seq<String>>, Seq<String>> flattenArray = new UDF1<Seq<Seq<String>>, Seq<String>>() {
      @Override
      public Seq<String> call(Seq<Seq<String>> s) {
        return asScalaBuffer(
          seqAsJavaList(s)
            .stream()
            .flatMap(x -> seqAsJavaList(x).stream())
            .collect(Collectors.toList())
        ).toSeq();
      }
    };

    // convert it to user-defined function
    UserDefinedFunction flatten_array = udf(
      flattenArray, 
      DataTypes.createArrayType(DataTypes.StringType) // output type of your UDF
    );

    // apply your user-defined function
    return input.withColumn(columnName, flatten_array.apply(col(columnName)));
  }
}

注意:在java UDF上使用序列时,您需要使用ScalaSeq而不是javaList作为序列输入。要从一个转换为另一个,请查看JavaConvertersscala类方法。

然后,可以在数据帧上调用平展数组方法:

Flattener.flattenArray(dataframe, "name_of_column_you_want_to_flatten");
 类似资料:
  • 问题内容: 我有两个像 我希望它们合并成单个数组 问题答案: 您需要该方法。

  • 问题内容: 我需要一个将所有元​​素组合在一起的新数组,即 做这个的最好方式是什么? 对不起,我忘了,这些ID永远不会匹配,但是从技术上讲,这些名称可能会出现,但不可能出现,它们都必须列在一个数组中。我查看了array_merge,但不确定这是否是最佳方法。另外,您将如何对此进行单元测试? 问题答案: 效率更高,但有两种选择:

  • 问题内容: 这是在采访中问我的,这是我提供的解决方案: 有没有更有效的方法可以做到这一点? 编辑:更正的长度方法。 问题答案: 稍有改进,但是在主循环之后,当到达另一个输入数组的末尾时,可以用来复制其中一个输入数组的结尾。但是,那不会改变你解决方案的性能特征。

  • 问题内容: 我见过类似的问题,但没有一个提供我所要的答案,因此,如果这被认为是重复的,我在此致歉。我正在尝试将数组{1,2,3}和{4,5,6}合并为{1,2,3,4,5,6}。我做错了什么?我是java的新手。抱歉,问题很愚蠢。 问题答案: 代替 您需要调用merge方法,并将结果分配给数组,例如: 您的for循环也应该是:

  • 问题内容: 我有两个像这样的数组: 我想结合这两个数组,使其不包含重复项,并保留其原始键。例如,输出应为: 我已经尝试过了,但是它正在更改其原始键: 有什么办法吗? 问题答案: 只需使用: 那应该解决。因为如果一个键出现多次(例如在您的示例中),则使用字符串键,因此一个键将覆盖具有相同名称的处理键。因为在您的情况下,它们两者都具有相同的值,但这无关紧要,并且还会删除重复项。 更新:我刚刚意识到,P

  • 问题内容: 有没有一种快速的方法来将一个数组的值组合为另一个数组的键? 输入: 预期产量: 我该怎么办? 问题答案: 会完全按照您的意愿做。 引用手册: 通过将keys数组中的值用作键,并将values数组中的值用作对应值来创建数组。 对于您的情况,您必须执行以下操作: 当然,您也可以使用各种循环组合来做到这一点,这可能是最简单的解决方案。