当前位置: 首页 > 知识库问答 >
问题:

Java ParquetIO可以写空的parquet文件吗?怎么做?

伍昱
2023-03-14

我有一个使用Apache Beam2.20的Java应用程序。我读取输入文件,进行过滤和转换,然后用parquet格式将结果写入S3。

据我所知,在spark中它可以实现这一点。

共有1个答案

唐永春
2023-03-14

按照Beam模型的工作方式,如果转换的输入PCollection为空,则该转换将永远不会执行。听说TextIO是这样工作的,我有点惊讶,但这可能是它的设置的一个方便的副作用,因为现实世界的实现通常与预期的模型有点不同。

但是对于ParquetIO,不创建文件可能是空pCollections的预期行为。您需要找到一些解决方案来检测何时筛选会导致空的PCollection,然后触发自定义转换以其他方式创建空文件。不幸的是,我所知不多,无法提供关于这种方法的更多细节。

 类似资料:
  • 本文向大家介绍可以使用TypeScript写React应用吗?怎么操作?相关面试题,主要包含被问及可以使用TypeScript写React应用吗?怎么操作?时的应答技巧和注意事项,需要的朋友参考一下 使用ts启动新的 create react app项目 将ts添加到已经创建好的create react app项目中 PS:适用于 及更高版本。

  • Parquet是一种柱状(columnar)格式,可以被许多其它的数据处理系统支持。Spark SQL提供支持读和写Parquet文件的功能,这些文件可以自动地保留原始数据的模式。 加载数据 // sqlContext from the previous example is used in this example. // createSchemaRDD is used to implicitl

  • 问题内容: 找不到更好的标题标题的方法,请随时进行纠正。 我是Python的新手,目前正在尝试使用该语言。.我注意到,所有内置类型都不能用其他成员扩展。.例如,我想向该类型添加一个方法,但这会不可能。我意识到出于效率方面的考虑而设计这种方式,并且大多数内置类型都是用C实现的。 好吧,为什么我发现要覆盖此行为的一个原因是定义了一个新类,该类可以扩展但不执行任何操作。然后,我可以将变量分配给该新类,并

  • vue写的h5可以转为小程序吗?要怎么转呢? 有什么需要注意的吗

  • 问题内容: 因此,我一直试图为我的一个朋友编写一个Bukkit插件,由于某种原因,配置生成无法正常工作。有问题的代码在下面,我很乐意添加人们需要帮助的所有代码。当我运行程序时,创建的配置文件最终空白。测试文件很好(我只是通过注释掉删除文件的行来测试它),但是一旦我尝试获取多行,它就会失败。有人可以帮忙吗? 整个过程包含在try / catch循环中,只是为了捕获可能弹出的任何错误。我感觉到我缺少一

  • 本文向大家介绍input上传文件可以同时选择多张吗?怎么设置?相关面试题,主要包含被问及input上传文件可以同时选择多张吗?怎么设置?时的应答技巧和注意事项,需要的朋友参考一下