问题：

如何根据其他列的值在PySpark数据帧中创建新的字符串列？[重复]

雷锋

2023-03-14

我有一个PySpark数据帧，它有几个字段，例如：

我想创建一个新列，将其他注释的值混合到一个新字符串中。期望的输出为：

我正在尝试做（伪代码）：

df = df.withColumn("New", "Hey there " + Name + " " + Surname + "!")

如何实现这一点？

共有1个答案

赵河

2023-03-14

您可以使用conat函数或format_string，如下所示：

from pyspark.sql import functions as F

df = df.withColumn(
    "New", 
    F.format_string("Hey there %s %s!", "Name", "Surname")
)

df.show(truncate=False)
# +---+----+-------+-----------------------+
# |Id |Name|Surname|New                    |
# +---+----+-------+-----------------------+
# |1  |John|Johnson|Hey there John Johnson!|
# |2  |Anna|Maria  |Hey there Anna Maria!  |
# +---+----+-------+-----------------------+

如果您喜欢使用concat:

F.concat(F.lit("Hey there "), F.col("Name"), F.lit(" "), F.col("Surname"), F.lit("!"))

类似资料：

基于其他数据帧中的列值在熊猫数据帧中创建列

我有两个熊猫数据框步骤2：对于flag=1的行，AA_new将计算为var1（来自df2）*组“A”和val“AA”的df1的'cal1'值*组“A”和val“AA”的df1的'cal2'值，类似地，AB_new将计算为var1（来自df2）*组“A”和val“AB”的df1的'cal1'值*组“A”和val“AB”的df1的'cal2'值我的预期输出如下所示：以下基于其他stackflow
基于其他列中的值在Python3（熊猫）数据帧中创建新列

我有一个pandas dataframe，需要根据dataframe中其他列的值创建新列。这是数据帧人城市国家国家美国伊利诺伊州芝加哥美国亚利桑那州凤凰城B酒店 C美国加利福尼亚州圣地亚哥我想根据state中的值创建两个新列创建新列df[“城北”]=df[“城市”]其中state=“伊利诺伊” 创建新列df[“城市南部”]=df[“城市”]，其中州不等于“伊利诺伊州” 我试过了但是不等
R：根据多个其他列中的匹配字符串创建单个新列

我有一个数据集，其中有大量表示过程代码的字符串列变量。还有另一列变量表示编码格式(有些是ICD9，有些是其他更神秘的格式)。每次观察都是一个病人。我需要: 搜索每个带有特定前缀的变量名确保正在使用的代码是ICD9代码（由“02”表示）。查找这些代码中哪些与特定字符串的前3个字符匹配如果有任何变量以这三个字符开头，则创建一个新列变量=1，如果没有匹配，则创建一个新列变量=0 变量太多了，通过c
Python-pandas根据其他列的值创建新列/逐行应用多列的功能

问题内容：我想申请我的自定义函数（它使用的梯）这六个列我的数据帧的每一行中）。我尝试了与其他问题不同的方法，但似乎仍然找不到适合我问题的正确答案。关键在于，如果该人被视为西班牙裔，就不能被视为其他任何人。即使他们在另一个种族栏中的得分为“ 1”，他们仍然被视为西班牙裔，而不是两个或两个以上的种族。同样，如果所有ERI列的总和大于1，则将它们计为两个或多个种族，并且不能计为唯一的种族（西班牙裔除
如果某列在另一个Spark数据表中，Pyspark则根据该列创建新列

我试图在Spark Dataframe中创建一个列，如果列的行位于单独的Dataframe中，则为标志。这是我的主Spark Dataframe() 这是我的引用()，这个引用中有数百行，所以我显然不能像这个解决方案或这个解决方案那样硬编码它们我已经尝试了下面的代码，但我不明白图片中的错误是什么意思。
Pyspark 将数据帧字符串列拆分为多个列

我正在Spark 3.0.0上执行Spark结构流的示例，为此，我使用了twitter数据。我在Kafka中推送了twitter数据，单个记录如下所示 2020-07-21 10:48:19|1265200268284588034|RT@narendramodi：与@IBM首席执行官@ArvindKrishna先生进行了广泛的互动。我们讨论了几个与技术相关的主题，…|印度海得拉巴在这里，每个字段

如何根据其他列的值在PySpark数据帧中创建新的字符串列？[重复]

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档