当前位置: 首页 > 知识库问答 >
问题:

在Dataframe上“迭代”时查看进度

金子轩
2023-03-14

我想知道是否有更好的方法来查看Pyspark是否取得了进展(同时写入PL/SQL DB)。当前,当我的代码运行时,我看到的唯一输出是:

df_c = df_a.withColumn("new_col", my_udf(df_b["some_col"]))

在做这一步的时候,很高兴看到pyspark的一些进展。

共有1个答案

百里海超
2023-03-14

您可以在Spark-UI上查看Spark集群当前正在做什么。在这里,您可以检查Spark任务是否正在完成,或者是否一切都挂起。Spark UI的默认URL是http:// :4040

如果需要更结构化的数据(例如自动化处理),可以使用Spark-UI的REST接口。

 类似资料:
  • 问题内容: 我有一个DataFrame熊猫来的: 输出: 现在,我要遍历该框架的行。对于每一行,我希望能够通过列名访问其元素(单元格中的值)。例如: pandas有可能这样做吗? 我发现了类似的问题。但这并不能给我我所需的答案。例如,建议在那里使用: 要么 但是我不了解对象是什么以及如何使用它。 问题答案: DataFrame.iterrows是产生索引和行的生成器

  • 问题内容: 我有一个DataFrame来自pandas的: 输出: 现在,我要遍历该框架的行。对于每一行,我希望能够通过列名访问其元素(单元格中的值)。例如: pandas有可能这样做吗? 我发现了类似的问题。但这并不能给我我所需的答案。例如,建议在那里使用: 要么 但是我不了解row对象是什么以及如何使用它。 问题答案: 是一个生成器,它同时生成索引和行(作为系列):

  • 问题内容: 所以我有一个json,我试图只获取活动用户的所有统计信息。当我尝试在for循环中执行以下操作时 它不起作用…但是只要没有记录,只要没有for循环就可以正常工作 这是我的html 这是我的js 这是一个演示链接http://jsfiddle.net/4kzzy/174/ 问题答案: 没什么复杂的,只是语法错误。 for循环需要这样写: 即没有多余的,没有多余的,也没有内部。 参见http

  • 我有包含在DataFrame中的链接行。 我的逻辑如下

  • 我有这样的数据: 我想创建一个新的列,将成本转换为美元。只是提一下,有12种货币。 这是我所写的: 使用这段代码,我得到了一个错误。

  • 问题内容: 我有一个(实际上,我使用的是更复杂的POJO,但是为了我的问题而简化了它) 好像 : 我如何遍历此地图,打印出密钥,然后打印人名,然后打印人年龄,例如: A是Map < String ,Person> 的键 B是Person.getName()的名称 C是Person.getAge()的年龄 我可以使用.values()从地图中提取所有值,如HashMap文档中所述,但是我不确定如何获