问题：

Spark，在Scala中添加具有相同值的新列[重复]

尚声

2023-03-14

Spark-Scala环境中的WithColumn函数有一些问题。我想在我的DataFrame中添加一个新列，如下所示：

+---+----+---+
|  A|   B|  C|
+---+----+---+
|  4|blah|  2|
|  2|    |  3|
| 56| foo|  3|
|100|null|  5|
+---+----+---+

变成：

+---+----+---+-----+
|  A|   B|  C|  D  |
+---+----+---+-----+
|  4|blah|  2|  750|
|  2|    |  3|  750|
| 56| foo|  3|  750|
|100|null|  5|  750|
+---+----+---+-----+

var totVehicles : Double = df_totVehicles(0).getDouble(0); //return 750

var df_nVehicles =
df_carPark.filter(
      substring($"id_time",1,4) < 2013
    ).groupBy(
      $"id_zipcode"
    ).agg(
      sum($"n_vehicles") as 'n_vehicles
    ).select(
      $"id_zipcode" as 'id_zipcode,
      'n_vehicles
    ).orderBy(
      'id_zipcode,
      'n_vehicles
    );

var df_nVehicles2 = df_nVehicles.withColumn(totVehicles, df_nVehicles("n_vehicles") + df_nVehicles("id_zipcode"))

但是Spark返回给我这个错误：

 error: value withColumn is not a member of Unit
         var df_nVehicles2 = df_nVehicles.withColumn(totVehicles, df_nVehicles("n_vehicles") + df_nVehicles("id_zipcode"))

你能帮我吗？非常感谢！

共有1个答案

郗河

2023-03-14

lit函数用于将文字值添加为列

import org.apache.spark.sql.functions._
df.withColumn("D", lit(750))

类似资料：

在Spark DataFrame中添加一个新列，该列包含一个列的所有值之和-Scala/Spark

这是在添加列后拍摄的快照，但它不包含一列所有值的总和我试图在dataframe中添加一列，该列包含同一dataframe中一列的所有值之和。 wa_rating=(rating>3)/总ratings 请帮我找到wa_rating dataframe，它包含一个新列，并使用scala spark
使用Spark Scala使用现有列添加新列

大家好，我想在数据帧的每一行中使用现有列添加新列，我正在Spark Scala中尝试这样做。。。df是包含可变列数的数据帧，只能在运行时确定。但这个错误是eclipse本身无法找到存储在数据集中的类型的编码器。通过导入spark.implicits.支持原始类型（Int，String等）和产品类型（case类）_将在未来版本中添加对其他类型序列化的支持。方法映射没有足够的参数：（隐式证据7美
使用scala基于Spark DataFrame中现有列的聚合添加新列

我有一个如下的数据框。我需要在现有列的基础上创建一个新列。输出数据帧看起来像这样我用来寻找col3的逻辑是如果col1计数我熟悉如何在sql中实现这一点。但很难找到数据帧DSL的解决方案。任何帮助都将不胜感激。谢谢
添加具有默认值的新SQL列

问题内容：我正在寻找将列添加到默认值为0的MySQL数据库的语法参考问题答案：尝试这个：从链接到的文档中：要在页面下方查找搜索语法，请执行以下操作： column_definition子句对ADD和CHANGE使用与CREATE TABLE相同的语法。请参见第12.1.17节“创建表语法”。并从链接页面：注意那里的DEFAULT这个词。
在多列中查找具有相同值的行

问题内容：我试图找到具有重复值，但仅基于选定的列数，而不是单个列或整个行的行。例如，如果我的表如下所示：我的问题是：查找行的“地址和状态”字段与另一行的“地址和状态”字段匹配的行的所有ID。该查询的答案将是：有任何想法吗？意见建议：如何从单个表中选择同一行中的多列值问题答案：请尝试以下方法：
将具有相同值的数组添加到HashSet会导致重复项

我试图创建一组int数组，问题是，如果我尝试这样做：那么s有两个对象，但应该只有一个。注意：它是否是HashSet并不重要现在如果我试着用ArrayList做这个那么s有一个对象。我想了一种方法来避免第一个代码中的错误，并将每个数组的hashcode存储在hashset中，如下所示：它适用于第一种情况（1,2,3），但在有碰撞的情况下它不起作用，所以我必须管理碰撞。所以，我认为我正在做的

Spark，在Scala中添加具有相同值的新列[重复]

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档