问题：

Pyspark dataframe到python列表

沙岳

2023-03-14

我有下面的pyspark数据文件。

Job_name start_time status
A        09:00:00   Not started
B        09:30:00   Completed
C        09:30:00   Running

lst = ["job A Not started at 09:00:00", "job B Completed at 9:30", "job C Running at 9.30"]

共有1个答案

郭彬郁

2023-03-14

使用DF，稍微重新排列：

df = df.select('Job_name','status','start_time')

>>> df.show()
+--------+-----------+----------+
|Job_name|     status|start_time|
+--------+-----------+----------+
|       A|Not started|  09:00:00|
|       B|  Completed|  09:30:00|
|       C|    Running|  09:30:00|
+--------+-----------+----------+

使用列表理解，尝试下面的操作：

li = []
one = [li.append(' '.join(('Job',row[0],row[1],'at',row[2]))) for row in df.collect()]

>>> li

Out[123]: 

['Job A Not started at 09:00:00',
 'Job B Completed at 09:30:00',
 'Job C Running at 09:30:00']

类似资料：

解析HTML表到Python列表？

问题内容：我想获取一个HTML表并对其进行解析以获得字典列表。每个列表元素将是一个与表中的一行相对应的字典。例如，如果我有一个包含三列（用标题标签标记），“事件”，“开始日期”和“结束日期”的HTML表，并且该表有5个条目，我想将该表解析为返回长度为5的列表，其中每个元素都是带有键“事件”，“开始日期”和“结束日期”的字典。谢谢您的帮助！问题答案：您应该使用一些HTML解析库，例如：版
Python如何找到列表交集？

问题内容：实际输出：预期输出：我们如何在两个列表上实现布尔AND操作（列表交集）？问题答案：如果顺序不重要，并且你不必担心重复，则可以使用set相交：
在Python中附加到2D列表

问题内容：我遇到了我认为在Python中很奇怪的行为，并且我希望有人能解释一下。我创建了一个空的2D列表我可以预期以下工作：产量产量但是，当我追加到一个空列表之一时，python追加到所有子列表中，如下所示：产量。谁能向我解释为什么会发生这种现象？问题答案：您尚未创建三个不同的空列表。您已经创建了一个空的列表，然后创建了三个引用到一个新的列表相同的空单。要解决此问题
Python在整数列表中找到重复序列？

问题内容：我有一个列表列表，每个列表都有一个重复序列。我正在尝试计算列表中重复整数序列的长度：哪个会返回：任何建议或技巧都将受到欢迎。我现在正在尝试使用re.compile来解决这个问题，但是它不太正确。问题答案：通过迭代2到一半序列长度之间的猜测来猜测序列长度。如果未发现任何模式，则默认返回1。得到（如预期）：根据要求，此替代方法可提供最长的重复序列。因此，它将为list_b返回4
附加到Python字典中的列表

问题内容：有没有更优雅的方式来编写此代码？我在做什么：我有键和日期。可能有多个日期分配给键，因此我正在创建一个包含日期列表的字典来表示这一点。以下代码可以正常工作，但是我希望有一个更优雅和Pythonic的方法。我期望下面的工作，但我不断得到一个NoneType没有属性附加错误。这可能与以下事实有关：但为什么？问题答案：返回，因为它是就地操作，并且您将其分配回。因此，下一次您实际要做
将Python词典排列组合到词典列表中

问题内容：给定一个像这样的字典：如何创建一个字典列表，该列表结合了第一个字典键的各种值？我想要的是：问题答案：我认为您想要笛卡尔积，而不是排列，在这种情况下可以提供帮助：

Pyspark dataframe到python列表

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档