问题：

如何根据来自另一个数据包的值（主键）计算spark数据包中的行数？

端木夕

2023-03-14

我有两个数据流df1和DF2。两者都有一个列'date'，如下所示。

+----------+
|      date|
+----------+
|02-01-2015|
|02-02-2015|
|02-03-2015|
+----------+

+---+-------+-----+----------+
| ID|feature|value|      date|
+---+-------+-----+----------+
|  1|balance|  100|01-01-2015|
|  1|balance|  100|05-01-2015|
|  1|balance|  100|30-01-2015|
|  1|balance|  100|01-02-2015|
|  1|balance|  100|01-03-2015|
+---+-------+-----+----------+

+---+-------+-----+----------+
| ID|feature|value|      date|
+---+-------+-----+----------+
|  1|balance|  100|01-01-2015|
+---+-------+-----+----------+

共有1个答案

翟泰

2023-03-14

这将使您在一个新的数据frame中获得所有结果：

val df1 = Seq(
  "02-01-2015",
  "02-02-2015",
  "02-03-2015"
).toDF("date")
  .withColumn("date", from_unixtime(unix_timestamp($"date", "dd-MM-yyyy")))

val df2 = Seq(
  (1, "balance", 100, "01-01-2015"),
  (1, "balance", 100, "05-01-2015"),
  (1, "balance", 100, "30-01-2015"),
  (1, "balance", 100, "01-02-2015"),
  (1, "balance", 100, "01-03-2015")
).toDF("ID", "feature", "value", "date")
  .withColumn("date", from_unixtime(unix_timestamp($"date", "dd-MM-yyyy")))

df1.join(
  df2, df2("date") < df1("date"), "left"
).show()


+-------------------+---+-------+-----+-------------------+
|               date| ID|feature|value|               date|
+-------------------+---+-------+-----+-------------------+
|2015-01-02 00:00:00|  1|balance|  100|2015-01-01 00:00:00|
|2015-02-02 00:00:00|  1|balance|  100|2015-01-01 00:00:00|
|2015-02-02 00:00:00|  1|balance|  100|2015-01-05 00:00:00|
|2015-02-02 00:00:00|  1|balance|  100|2015-01-30 00:00:00|
|2015-02-02 00:00:00|  1|balance|  100|2015-02-01 00:00:00|
|2015-03-02 00:00:00|  1|balance|  100|2015-01-01 00:00:00|
|2015-03-02 00:00:00|  1|balance|  100|2015-01-05 00:00:00|
|2015-03-02 00:00:00|  1|balance|  100|2015-01-30 00:00:00|
|2015-03-02 00:00:00|  1|balance|  100|2015-02-01 00:00:00|
|2015-03-02 00:00:00|  1|balance|  100|2015-03-01 00:00:00|
+-------------------+---+-------+-----+-------------------+

编辑：要从df2中获取matchign记录的数量，请执行：

 df1.join(
    df2, df2("date") < df1("date"), "left"
 )
 .groupBy(df1("date"))
 .count
 .orderBy(df1("date"))
 .show

+-------------------+-----+
|               date|count|
+-------------------+-----+
|2015-01-02 00:00:00|    1|
|2015-02-02 00:00:00|    4|
|2015-03-02 00:00:00|    5|
+-------------------+-----+

类似资料：

Spark根据第一个数据集中的值更新第二个数据集中的值

我有两个火花数据集，其中一个列的帐户和键，键列在数组的格式[key1， key2， key3...]和另一个数据集的两个列的帐户和键值是在json.帐户，{key：值，键，值...}。我需要更新第二个数据集中的值，如果键出现在第一个数据集中。预期产出
根据数据计算中值。R中的表列

我正在尝试计算多个列的中值，但是我的数据有点奇怪。它看起来像下面的示例。在表中到列表示该值的出现次数。我想计算中位数的出现次数。例如对于ID = 1 是我想要创建的计算。对于ID=2 我尝试过使用＜code＞rep（）或＜code＞rep（10,2）），这就是我所期望的。我只是努力创建一个列表或向量，每个列都有重复。
根据来自其他数据帧的多行替换数据帧中的值

我有3个数据帧。第一数据帧（例如df1)具有多行和多列。第二和第三数据帧（例如df2和df3)仅具有来自DF1的一行和列的子集。df2和df3中的列名相同。所以我要做的是将df1中的每一行与df2和DF3中的单行进行比较。如果来自df1的单元格的值与df2的单元格内容匹配，则将df1中单元格的值替换为1；如果来自df1的单元格的值与df3匹配，则将df1中单元格的值替换为2；如果df2的单元格内容
根据另一个数据集中的列的值在一个数据框中创建列

我有两个熊猫数据框步骤1：根据df1中唯一的“val”在df2中创建列，如下所示：步骤2：对于flag=1的行，AA_new将计算为var1（来自df2）*组“A”和val“AA”的df1的'cal1'值*组“A”和val“AA”的df1的'cal2'值，类似地，AB_new将计算为var1（来自df2）*组“A”和val“AB”的df1的'cal1'值*组“A”和val“AB”的df1的'c
如何使用来自另一个数据框的新值更新pyspark数据框？

问题内容：我有两个Spark数据框：数据框A：和数据框B：数据框B可以包含来自数据框A的重复行，更新行和新行。我想在spark中编写操作，在其中可以创建一个新数据框，其中包含数据框A的行以及数据框B的更新行和新行。我首先创建一个仅包含不可更新列的哈希列。这是唯一的ID。所以我们可以说，并可以改变值（可更新），但是是唯一的。我创建了一个哈希函数为：现在，我想编写一些火花代码，基本上从B中
awk 根据表格数据计算列中的值的中位数

本文向大家介绍awk 根据表格数据计算列中的值的中位数，包括了awk 根据表格数据计算列中的值的中位数的使用技巧和注意事项，需要的朋友参考一下示例给定一个;用作列定界符的文件。我们使用以下为GNU awk编写的程序在第二列中计算值的中位数。提供的输入是学生组的成绩列表：该程序的输出为1。请记住，它NR保存了要处理的行数，END因此在块中它保存了文件中的总行数。 awk的许多实现都没有对数组

如何根据来自另一个数据包的值（主键）计算spark数据包中的行数？

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档