当前位置: 首页 > 知识库问答 >
问题:

Pyspark dataframe到python列表

沙岳
2023-03-14

我有下面的pyspark数据文件。

Job_name start_time status
A        09:00:00   Not started
B        09:30:00   Completed
C        09:30:00   Running
lst = ["job A Not started at 09:00:00", "job B Completed at 9:30", "job C Running at 9.30"]

共有1个答案

郭彬郁
2023-03-14

使用DF,稍微重新排列:

df = df.select('Job_name','status','start_time')

>>> df.show()
+--------+-----------+----------+
|Job_name|     status|start_time|
+--------+-----------+----------+
|       A|Not started|  09:00:00|
|       B|  Completed|  09:30:00|
|       C|    Running|  09:30:00|
+--------+-----------+----------+

使用列表理解,尝试下面的操作:

li = []
one = [li.append(' '.join(('Job',row[0],row[1],'at',row[2]))) for row in df.collect()]

>>> li

Out[123]: 

['Job A Not started at 09:00:00',
 'Job B Completed at 09:30:00',
 'Job C Running at 09:30:00']
 类似资料:
  • 问题内容: 我想获取一个HTML表并对其进行解析以获得字典列表。每个列表元素将是一个与表中的一行相对应的字典。 例如,如果我有一个包含三列(用标题标签标记),“事件”,“开始日期”和“结束日期”的HTML表,并且该表有5个条目,我想将该表解析为返回长度为5的列表,其中每个元素都是带有键“事件”,“开始日期”和“结束日期”的字典。 谢谢您的帮助! 问题答案: 您应该使用一些HTML解析库,例如: 版

  • 问题内容: 实际输出: 预期输出: 我们如何在两个列表上实现布尔AND操作(列表交集)? 问题答案: 如果顺序不重要,并且你不必担心重复,则可以使用set相交:

  • 问题内容: 我遇到了我认为在Python中很奇怪的行为,并且我希望有人能解释一下。 我创建了一个空的2D列表 我可以预期以下工作: 产量 产量 但是,当我追加到一个空列表之一时,python追加到所有子列表中,如下所示: 产量。 谁能向我解释为什么会发生这种现象? 问题答案: 您尚未创建三个 不同的 空列表。您已经创建了 一个 空的列表,然后创建了三个引用到一个新的列表 相同的 空单。要解决此问题

  • 问题内容: 我有一个列表列表,每个列表都有一个重复序列。我正在尝试计算列表中重复整数序列的长度: 哪个会返回: 任何建议或技巧都将受到欢迎。我现在正在尝试使用re.compile来解决这个问题,但是它不太正确。 问题答案: 通过迭代2到一半序列长度之间的猜测来猜测序列长度。如果未发现任何模式,则默认返回1。 得到(如预期): 根据要求,此替代方法可提供最长的重复序列。因此,它将为list_b返回4

  • 问题内容: 有没有更优雅的方式来编写此代码? 我在做什么:我有键和日期。可能有多个日期分配给键,因此我正在创建一个包含日期列表的字典来表示这一点。以下代码可以正常工作,但是我希望有一个更优雅和Pythonic的方法。 我期望下面的工作,但我不断得到一个NoneType没有属性附加错误。 这可能与以下事实有关: 但为什么? 问题答案: 返回,因为它是就地操作,并且您将其分配回。因此,下一次您实际要做

  • 问题内容: 给定一个像这样的字典: 如何创建一个字典列表,该列表结合了第一个字典键的各种值?我想要的是: 问题答案: 我认为您想要笛卡尔积,而不是排列,在这种情况下可以提供帮助: