问题：

Apache beam/dataflow管道，用于具有文件名元数据的大量文件(1M+)

阎善

2023-03-14

我一直在编写一个Apache Beam/Dataflow管道，用于在GCS桶中存储1M+文件的usecase；Bigquery行输出还需要每个文件的路径。每个输入文件都是一个单行json文件。

下面是我当前的管道代码片段：

    input_file_path = 'gs://' + BUCKET + '/**'

    with beam.Pipeline(options=options) as p:
        (p | 'Reading input file' >> beam.io.ReadFromTextWithFilename(input_file_path)
         | 'Converting from json to dict' >> beam.ParDo(JSONtoDict())
         | 'Write entries into Bigquery' >> beam.io.WriteToBigQuery(
             table_spec,
             schema=table_schema,
             write_disposition=beam.io.BigQueryDisposition.WRITE_TRUNCATE,
             create_disposition=beam.io.BigQueryDisposition.CREATE_IF_NEEDED)
         )

共有1个答案

翟功

2023-03-14

您可以尝试现有的Python转换。有一个已知的问题，数据流作业可能会由于源创建太多分裂而失败。JavaWithIntMatchesmanyFiles。通过使用pardo读取来解决这个问题，但它将禁用动态工作重新平衡。Dataflow Runner v2支持大型globs，同时支持动态工作再平衡。

类似资料：

JavaMail，IMAP，具有大量文件夹的性能

问题内容：我们正在为IMAP帐户开发基于Java的邮件客户端，并使用最新的Java邮件api（1.5.6）。我们的客户拥有超过400个文件夹的邮件帐户。用户在文件夹上执行检查邮件，并在每个文件夹上进行迭代并获取新消息，例如，或获取未读邮件的数量过多，这是因为文件夹数量巨大。（我们必须遍历400个文件夹）为了提高性能，我们在线程中使用了并行工作连接，并且我们有一个SESSION实例，但是每个线
更改数据库/添加文件/变量文件名？

问题内容：我想将文件/文件组添加到现有数据库中，但是我需要从变量获取路径，因为在此脚本完成后它将有所不同。当我在SQL Management Studio 2008 R2中检查脚本时，它在处返回错误。如何使用该变量？脚本将不会从命令行运行！问题答案：使用动态SQL：
基于文件的数据管理系统

本文向大家介绍基于文件的数据管理系统，包括了基于文件的数据管理系统的使用技巧和注意事项，需要的朋友参考一下用于组织和维护数据文件的系统称为基于文件的数据系统。这些文件系统用于处理单个或多个文件，效率不高。功能性基于文件的数据管理系统的功能如下- 基于文件的系统有助于任何用户的基本数据管理。基于文件的系统中存储的数据应保持一致。在基于文件的系统中完成的任何事务都不应更改一致性属性。基于
Java：具有非静态文件名的Zip文件

问题内容：我在这篇文章中找到了这个ZipUtils类：如何使用java压缩文件夹本身我对其进行了修改，以便可以传递一个zip文件名。但是，它的唯一工作方式是使用硬编码的静态字符串。从数据库中获取zippedFile字符串。我已经将dbZippedFile和hardcodedZippedFile进行了比较，它们都是相同的……也许在FileOutputStream中使用非静态字符串会产生问题吗？
Python将最大数量的文件标识为文件名的一部分

问题内容：我的文件末尾带有数字，例如：我正在寻找一种简单的方法来识别附加了最大数字的文件。有没有实现这一目标的简单方法？…我当时正在考虑导入文件夹中的所有文件名，提取最后一位数字，转换为数字，然后寻找最大数字，但是对于我认为这是一个相对常见的任务，这似乎有些复杂。问题答案：如果文件名确实以一种很好的方式格式化，则可以简单地使用：但请注意：因此，您可能想向函数添加某种验证，和/或使用：
用于大型数据文件和流媒体的数据库

我有一个“数据库选择”和体系结构问题。用例：客户端将上载大型。json文件（或其他格式，如.tsv，不相关），其中每一行都是关于其客户的数据（例如姓名、地址等）我的要求： > 数据库应该有某种复制，因为我们不想丢失数据。不需要索引，因为我们只是流数据。对于这个问题，您对数据库有什么建议？我们尝试将其上传到Amazon S3并让他们处理缩放等问题，但存在读取/流式传输缓慢的问题。谢了伊凡

Apache beam/dataflow管道，用于具有文件名元数据的大量文件(1M+)

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档