基于“SC”代码,我需要将SRCTable与RefTable-1或RefTable-2连接起来
条件:如果SC为“D”,则SRCTable在KEY=KEY1上与RefTable-1连接以获得值。否则,如果SC为“U”,则SRCTable与键=键2上的RefTable-2连接
这是输入spark数据帧。
SRCTable:
-------------
KEY |SC |FK
-------------
66 |D | a
67 |U | b
70 |D | y
71 |U | q
-------------
RefTable-1:
--------------
KEY1 |Value |
--------------
66 |xyz1 |
67 |abc1 |
68 |fgr1 |
69 |yte1 |
70 |erx1 |
71 |ter1 |
--------------
RefTable-2:
--------------------
KEY2 |KEY3 |Value |
--------------------
66 | a |xyz2 |
67 | c |abc2 |
67 | b |fgr2 |
69 | g |yte2 |
70 | y |erx2 |
71 | q |ter2 |
--------------------
预期产出:
--------------------
KEY |SC |FK |Value |
--------------------
66 |D | a |xyz1 |
67 |U | b |fgr2 |
70 |D | y |erx1 |
71 |U | q |ter2 |
---------------------
注意:输入表将有数百万条记录,因此需要一个优化的解决方案
下面是一段代码,您只能在DataFrame
val SRCTable = Seq((66, "D", "a"), (67, "U", "b"), (70, "D", "y"), (71, "U", "q")).toDF("KEY", "SC", "FK")
val RefTable1 = Seq((66, "xyz1"),(67, "abc1"),(68, "fgr1"),(69, "yte1"),(70, "erx1"),(71, "ter1")).toDF("KEY1", "Value")
val RefTable2 = Seq((66, "a", "xyz2"), (67, "c", "abc2"), (67, "b", "fgr2"), (69, "g", "yte2"), (70, "y", "erx2"), (71, "q", "ter2")).toDF("KEY2", "KEY3", "Value")
val join1 = SRCTable.where(SRCTable.col("SC").equalTo("D")).join(RefTable1, SRCTable.col("KEY") === RefTable1.col("KEY1")).select("KEY", "SC", "FK", "Value")
val join2 = SRCTable.where(SRCTable.col("SC").equalTo("U")).join(RefTable2, SRCTable.col("KEY") === RefTable2.col("KEY2") && SRCTable.col("FK") === RefTable2.col("KEY3") ).select("KEY", "SC", "FK", "Value")
join1.unionAll(join2).show
如果你有任何性能问题,我建议你看看如何很好地分区你的数据,如果你的数据帧很小,也看看广播对象
数据帧: df1: df2: 我想将df1中的“col1、col2、col3、col4、col5、col6、col7”列值与df2中的“mapping_value”列相匹配,并在df1中创建一个名为“Scientific value”的新列,该列将包含来自df2中“Scientific value”列的条目。 输出: 谢谢
我有一个数据集,包含以下各列: 现在,我需要添加一个新的column类,并根据以下条件将其赋值为或: 我只在一个条件下完成了它,但我不知道如何在多个条件下完成它。 这里的wIat我已经尝试过: 我查看了所有其他类似的问题,但找不到解决问题的任何方法。我尝试了上述所有帖子,但仍坚持这个错误:
我有以下数据框: 我想根据以下条件对其进行过滤: 创建的角度=范围(87-92) GDT 1和GDT 2之间的距离 到目前为止我尝试了这个(最后一个方法): 此代码的输出是一个没有错误的空数据库。
我试图为数据集创建多水平条形图。这些数据涉及跑步比赛的比赛时间。 Dataframe有以下列:名称、年龄组、完成时间、完成地点、家乡。下面是示例数据。 我想创建一个类似下图的条形图。每个年龄组将有一个条形图,最快的跑步者在图表的底部,跑步者的名字与城市和次数跑了比赛低于他们的名字。 我需要一个for循环还是一个简单的groupby工作?每个年龄组的数量和大小可以根据种族动态变化,因此它不是一个常数
从bugu-mongo 2.11版本开始,支持连接到多个数据库。 在前面的示例代码中,我们都只是连接到一个数据库: //默认的数据库连接 BuguConnection conn = BuguFramework.getInstance().createConnection(); conn.setHost("192.168.0.100"); conn.setPort(27017); conn.setU