当前位置: 首页 > 知识库问答 >
问题:

beam/dataflow:找不到会话文件:/var/opt/google/dataflow/pickled_main_session

冀俊良
2023-03-14

当使用Apache Beam(GCP Dataflow)时,我会在工作日志中看到以下警告:

找不到会话文件:/var/opt/google/dataflow/pickled_main_session。在__main__(交互式会话)中定义的函数可能会失败。

pipeline_options.view_as(SetupOptions).save_main_session = True
with beam.Pipeline(options=pipeline_options) as p:
    # actual pipeline code here

共有1个答案

沈实
2023-03-14

您应该能够安全地忽略此警告。如果管道不需要设置save_main_session,则不需要设置。

 类似资料:
  • 我在beam.groupbykey()中遇到了一个情况,我加载了一个行数为42.854行的文件。 由于业务规则,我需要执行一个GroupByKey();然而,在完成它的执行后,我注意到我得到了几乎双行。如下所示: GroupByKey()之前的步骤: 向你问好,朱利亚诺·梅德罗斯

  • 我有一个Beam应用程序,它在本地使用directrunner成功运行,并在本地控制台的代码中提供了所有日志信息。但是当我尝试在google cloud dataflow环境中运行它时,我只在本地控制台上看到这些日志信息,而在google cloud console for dataflow job上没有显示,在StackDriver日志页面中也没有。 下面是我从本地控制台运行数据流运行器代码的操

  • 上面的链接只针对Java。我很困惑为什么谷歌会指向Java Apache测试。 我希望能够查看两个p集合上的CoGroupByKey联接的结果。我来自Python背景,几乎没有使用beam/dataflow的经验。 下面的代码 打印的内容:

  • 我有一个非常基本的Python Dataflow工作,从pub/sub读取一些数据,应用FixedWindow并写入Google Cloud Storage。 输出被写入--output中特定的位置,但只写入临时阶段,即。 当进一步测试时,我注意到streaming_wordcount示例也有同样的问题,但是标准wordcount示例写得很好。也许问题在于开窗,或者从PubSub阅读? Write

  • 我使用的是Beam Java SDK2.9.0,我的工作读自Kafka中的步骤。我的工作在直跑方面很好。当我在Dataflow上部署它时,工作被卡住了,我看不到任何进展。数据流监视UI显示

  • 在apache Beam中是如何做到这一点的? 谢了!