当前位置: 首页 > 知识库问答 >
问题:

使用withcolumn[duplicate]迭代带有静态值列表的spark dataframe

鲜于河
2023-03-14
dq_results=[] 

for a in range(0,len(dq_results)):
    dataFile_df=dataFile_df.withColumn("dq_results",lit(dq_results[a]))
    print lit(dq_results[a])

共有1个答案

臧翰采
2023-03-14
dq_results=[] 

从列表dq_results创建一个数据帧:

df_list=spark.createDataFrame(dq_results_list,schema=dq_results_col)

为df_list id添加一列(它将是行id)

df_list_id = df_list.withColumn("id", monotonically_increasing_id())

为dataFile_df id添加一列(它将是行id)

dataFile_df= df_list.withColumn("id", monotonically_increasing_id())
dataFile_df.join(df_list,"id").show()
 类似资料:
  • 问题内容: 在我的网站上,我正在创建发票功能。发票具有静态信息:公司信息和收件人信息。但是它也具有动态信息:小时数,描述,总金额等。客户可以使用上面的动态信息添加多行。 现在我的问题是,如何将其实现到数据库中? 目前,我有一个名为“发票”的表,其中的列将包含上面的所有信息。但是通过这种方式,行将具有不必要的信息,例如公司和收货人信息,而实际上每个发票只需要插入一次即可。 你们认为我将如何解决这个问

  • 问题内容: 我有一个简单的问题。有没有办法(使用我想的反射)来迭代类的所有静态值? 例如 输出量 谢谢。 问题答案:

  • 我想知道,如何在Java8中使用流API迭代多级列表 根据Java8,我应该做如下的操作 我想要流利地做这件事(使用内部迭代)。任何解释都会很感激。

  • 在上面的代码中,是否可以在方法内部传递的索引。在构建时,我还需要传递索引,但无法使用获取索引。

  • 上周我刚开始在工作中学习Python。我正在尝试与我们的人力资源系统集成,并使用每个API将信息上传到Okta(我们的SSO提供商)。 HR API以以下格式输出一个json文件 然后,我想将它输入到一个名为的变量中,并将其放在我的代码中: 我希望遍历Result>EmployeeId>DisplayValue并将它们打印到一个dict中,然后在代码的另一部分中遍历这些

  • 我正在尝试使用列表迭代器来遍历一个链表,并根据存储在那里的整数值对下一个节点进行一些操作/检查,但我的代码中出现了一些错误。我想我不明白iterator.next()正在返回什么(一些E对象,但我不知道如何从它中访问我想要的值)编辑器希望我做一些如下所述的转换。它摆脱了错误,但我不知道这是否是处理问题的安全方法,或者它是否具有我正在寻找的行为。请解释为什么我会得到错误,以及是否有一个好的方法来处理