问题：

Java Spark：使用未知联接列名联接数据集的Spark Bug解决方案

甄佐

2023-03-14

我正在使用Spark2.3.1和Java。

public Dataset<Row> compute(Dataset<Row> df1, Dataset<Row> df2, List<String> columns){
    Seq<String> columns_seq = JavaConverters.asScalaIteratorConverter(columns.iterator()).asScala().toSeq();

    final Dataset<Row> join = df1.join(df2, columns_seq);

    join.show()

    join.withColumn("newColumn", abs(col("value1").minus(col("value2")))).show();

    return join;
}

Dataset<Row> myNewDF = compute(MyDataset1, MyDataset2, Arrays.asList("field1","field2","field3","field4"));

2018-08-03 18:48:43 - ERROR main Logging$class -  -  - failed to compile: org.codehaus.commons.compiler.CompileException: File 'generated.java', Line 235, Column 21: Expression "project_isNull_2" is not an rvalue
org.codehaus.commons.compiler.CompileException: File 'generated.java', Line 235, Column 21: Expression "project_isNull_2" is not an rvalue
    at org.codehaus.janino.UnitCompiler.compileError(UnitCompiler.java:11821)
    at org.codehaus.janino.UnitCompiler.toRvalueOrCompileException(UnitCompiler.java:7170)
    at org.codehaus.janino.UnitCompiler.getConstantValue2(UnitCompiler.java:5332)
    at org.codehaus.janino.UnitCompiler.access$9400(UnitCompiler.java:212)
    at org.codehaus.janino.UnitCompiler$13$1.visitAmbiguousName(UnitCompiler.java:5287)
    at org.codehaus.janino.Java$AmbiguousName.accept(Java.java:4053)
    ...

2018-08-03 18:48:47 - WARN main Logging$class -  -  - Whole-stage codegen disabled for plan (id=7):

但它不会停止执行,仍然显示数据集的内容。

然后，在行join.withcolumn（“newcolumn”,abs（col（“value1”）.minus（col（“value2”）））.show（）；

我得到了错误：

Exception in thread "main" org.apache.spark.sql.AnalysisException: Resolved attribute(s) 'value2,'value1 missing from field6#16,field7#3,field8#108,field5#0,field9#4,field10#28,field11#323,value1#298,field12#131,day#52,field3#119,value2#22,field2#35,field1#43,field4#144 in operator 'Project [field1#43, field2#35, field3#119, field4#144, field5#0, field6#16, value2#22, field7#3, field9#4, field10#28, day#52, field8#108, field12#131, value1#298, field11#323, abs(('value1 - 'value2)) AS newColumn#2579]. Attribute(s) with the same name appear in the operation: value2,value1. Please check if the right attribute(s) are used.;;
'Project [field1#43, field2#35, field3#119, field4#144, field5#0, field6#16, value2#22, field7#3, field9#4, field10#28, day#52, field8#108, field12#131, value1#298, field11#323, abs(('value1 - 'value2)) AS newColumn#2579]
+- AnalysisBarrier
...

共有1个答案

谭兴学

2023-03-14

尝试调用此方法：

private static Dataset<Row> cloneDataset(Dataset<Row> ds) {
    List<Column> filterColumns = new ArrayList<>();
    List<String> filterColumnsNames = new ArrayList<>();
    scala.collection.Iterator<StructField> it = ds.exprEnc().schema().toIterator();
    while (it.hasNext()) {
        String columnName = it.next().name();
        filterColumns.add(ds.col(columnName));
        filterColumnsNames.add(columnName);
    }
    ds = ds.select(JavaConversions.asScalaBuffer(filterColumns).seq()).toDF(scala.collection.JavaConverters.asScalaIteratorConverter(filterColumnsNames.iterator()).asScala().toSeq());
    return ds;
}

在连接之前的两个数据集上，如下所示：

df1 = cloneDataset(df1);
df2 = cloneDataset(df2);
final Dataset<Row> join = df1.join(df2, columns_seq);
// or ( based on Nakeuh comment )
final Dataset<Row> join = cloneDataset(df1.join(df2, columns_seq));

类似资料：

Spark 数据帧联接 - 重复列（未联接列）

我有两个数据帧df1（Employee表）和在我连接了df1.dept_id和df2.id上的这两个表之后: 同时将其保存在文件中，它给出错误：我读过有关使用字符串序列来避免列重复的信息，但这适用于要对其执行连接的列。我需要对未连接的列具有类似的功能。有没有一种直接的方法可以将重复列嵌入表名以便保存？我想出了一个解决方案，匹配两个df的列，并重命名重复的列，将表名附加到列名上。但是有直
MySQL左联接（未知列）

问题内容：我的查询有问题。 MySQL查询：我得到的错误是这样的：选择时如何将其作为未知列？我很困扰… 使用者：兴趣：已封锁：问题答案：如语法所示：在MySQL 5.0.12中加入处理更改以前，逗号运算符（）和都具有相同的优先级，因此join表达式被解释为。现在具有更高的优先级，因此该表达式被解释为。此更改会影响使用子句的语句，因为该子句只能引用联接操作数中的列，并且优先级的更
Laravel根据联接表列的条件获取联接数据

嗨，伙计们，我正在使用Laravel5.5，我有两个表，用户和服务用户表 ID 名称电子邮件密码地址城市国家邮政编码 null 提前谢了。热烈问候：阿卜杜拉·沙希德。
当联接列不同时，使用Spark Scala动态联接数据流

在scala spark中连接不同数据帧时动态选择多列从上面的链接，我能够让连接表达式工作，但如果列名不同，我们不能使用Seq（columns）而需要动态地连接它。这里的left_ds和right_ds是我想加入的数据流。下面我想要连接列id=acc_id和“acc_no=number”
MySQL：左联接与右联接的并集

问题内容：假设我们有下表t1和t2：我们希望找到以下结果：这基本上是右连接与左连接的并集。以下代码有效，但感觉很笨拙：有没有更好的方法来实现这一目标？问题答案：
DB2中使用列别名的内部联接

这个简单的查询没有意义，但它是我试图运行的查询的一个简单版本。这应该是没有错误的运行，对吧？如果我删除别名，它运行没有问题… 提前致谢

Java Spark：使用未知联接列名联接数据集的Spark Bug解决方案

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档