问题：

如何使用withColumn创建新列，将两个数字列集中为字符串？[重复]

韦泳

2023-03-14

我的数据框架如下

val employees = sc.parallelize(Array[(String, Int, BigInt)](
  ("Rafferty", 31, 222222222), ("Jones", 33, 111111111), ("Heisenberg", 33, 222222222), ("Robinson", 34, 111111111), ("Smith", 34, 333333333), ("Williams", 15, 222222222)
)).toDF("LastName", "DepartmentID", "Code")

employees.show()

 +----------+------------+---------+
|  LastName|DepartmentID|     Code|
+----------+------------+---------+
|  Rafferty|          31|222222222|
|     Jones|          33|111111111|
|Heisenberg|          33|222222222|
|  Robinson|          34|111111111|
|     Smith|          34|333333333|
|  Williams|          15|222222222|
+----------+------------+---------+

我想创建另一个列作为personal_id作为centrate DepartmentId和Code。例子：拉弗蒂=

所以我写代码如下：

val anotherdf = employees.withColumn("personal_id", $"DepartmentID".cast("String") + $"Code".cast("String"))


 +----------+------------+---------+------------+
|  LastName|DepartmentID|     Code| personal_id|
+----------+------------+---------+------------+
|  Rafferty|          31|222222222|2.22222253E8|
|     Jones|          33|111111111|1.11111144E8|
|Heisenberg|          33|222222222|2.22222255E8|
|  Robinson|          34|111111111|1.11111145E8|
|     Smith|          34|333333333|3.33333367E8|
|  Williams|          15|222222222|2.22222237E8|
+----------+------------+---------+------------+

但我在双人房拿到了个人身份证。

anotherdf.printSchema

root
 |-- LastName: string (nullable = true)
 |-- DepartmentID: integer (nullable = false)
 |-- Code: decimal(38,0) (nullable = true)
 |-- personal_id: double (nullable = true)

共有1个答案

葛桐

2023-03-14

我应该使用concat

import org.apache.spark.sql.functions.concat
val anotherdf2 = employees.withColumn("personal_id", concat($"DepartmentID".cast("String"), $"Code".cast("String")))


 +----------+------------+---------+-----------+
|  LastName|DepartmentID|     Code|personal_id|
+----------+------------+---------+-----------+
|  Rafferty|          31|222222222|31222222222|
|     Jones|          33|111111111|33111111111|
|Heisenberg|          33|222222222|33222222222|
|  Robinson|          34|111111111|34111111111|
|     Smith|          34|333333333|34333333333|
|  Williams|          15|222222222|15222222222|
+----------+------------+---------+-----------+

类似资料：

如何将dataframe字符串列拆分为两列？

我不知道如何使用来实现拆分行单元格的目标。我可以使用添加一个新列，并用填充它。有什么想法吗？
将字符串列表转换为一个字符串[重复]

我对任何编程都非常陌生，所以请原谅我的无知，因为我不知道如何做一些看起来很简单的事情。我所要做的就是获取任何字符串数组（称之为名称），比如：并将其从列表中删除，并将其转换为字符串：我似乎无法理解这一点，也找不到类似的帖子。
如何从字符串列表创建列表？

问题内容：我有一个字符串列表，例如：我想为列表中的每个元素创建一个列表，该列表的名称应与字符串完全相同：如何在Python中做到这一点？问题答案：你可以通过创建一个dict：然后按（例如：）访问每个你不想走单独的变量之路！
如何使用字符串增量为循环创建字符串？[重复]

我用字符串变量在java中创建了一个for循环。我想向变量添加一个字符，直到该变量等于一组字符。我创建了for循环。控制台中没有显示错误。但是也没有输出”（我哪里错了？
如何在sql中为字符串列创建索引？

问题内容：我有一个包含3列的表格：一个列表ID，名称和数字值。目的是使用该表来检索和更新各种列表中名称的数字值。问题是sql拒绝使用name列创建索引，因为它是可变长度的字符串列。如果没有索引，则使用名称进行选择将效率低下，并且使用静态长度文本列的选项将浪费大量存储空间，因为名称可能会很长。建立该表及其索引的最佳方法是什么？（运行sql server 2008）问题答案：无法在或列上
如何使用dplyr将新列名作为字符串重命名选定的列

我有以下小消息：我尝试了这个错误：

如何使用withColumn创建新列，将两个数字列集中为字符串？[重复]

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档