当前位置: 首页 > 知识库问答 >
问题:

Google dataflow作业根据文件模式从云存储中读取avro文件

子车勇锐
2023-03-14

假设gcs中的文件以以下格式存储:-.avro。尝试在google dataflow作业中使用读取文件,使用apache Beam的fileio.matchall库读取基于时间戳间隔的文件。例如,gcs中的文件:

   gs://test-bucket/abc_20200101000000.txt
    gs://test-bucket/abc_20200201000000.txt
    gs://test-bucket/abc_20200301000000.txt

现在我们要获取所有大于时间戳20200101000000直到当前时间戳的文件,我可以使用什么文件模式?

共有1个答案

夹谷浩宕
2023-03-14

我不确定是否可以使用regex来实现这一点,但是您应该能够将pardo添加到管道中,该管道跟随fileio.matchall到基于文件名(matchresult.metadata.resourceid())的筛选元素(类型为matchresult.metadata)。

 类似资料:
  • 我正在使用Spring引导连接到谷歌云存储。 我能够连接到一个文件,并从谷歌云存储桶中读取内容。 但是我不能得到谷歌云存储桶中所有文件的列表。 请帮帮我。 这很有效 这不工作。 有什么原因吗?

  • 提前谢谢你。我在文件中找不到任何相关的东西。它提供了关于如何创建bucket、如何上传、如何下载、如何授予权限的信息,但没有关于如何读取它的信息。 此外,我如何从我的计算机打开它(在运行'GCloud app deploy'命令之前)?

  • 问题内容: 我需要在存储过程中读入由SSIS包创建的日志文件。 有什么好方法吗? 我尝试使用此代码,但将文件内容显示为乱码。有没有解决的编码问题?有没有更简单的方法? 问题答案: 您是否尝试过将笔直插入?例如:

  • 我将JSON文件&JSON模式解析为AVRO模式。我有点困惑,我是否必须使用AVRO文档中定义的数据类型来编写手动AVRO模式。 或者是否有任何自动化的方法/函数/程序可以完全按照要求工作?

  • 当我试图从Google Cloud Storage(App Engine、Python和Standard Env)中读取文件内容(纯文本)时,我会得到以下跟踪: 虽然设置了“公开共享”,但我在默认的bucket中工作(根据我的理解,应用程序应该具有完全的权限),并且我能够将内容写入/上传到相同的文件中。

  • 问题内容: 我们如何从文本文件读取数据并将其存储在String变量中? 是否有可能在方法中传递文件名,并且它将返回字符串,即文件中的文本。 我必须导入哪种工具?声明列表会很棒。 问题答案: 这些是必需的进口: 这是一种方法,通过将文件名作为参数传递给它,您可以从文件中进行读取,如下所示: