问题：

如何在Apache Flink中使用BucketingSink写入ORC文件？

鞠隐水

2023-03-14

我正在开发一个Flink流媒体程序，可以读取Kafka消息，并将消息转储到AWS s3上的ORC文件中。我发现没有关于Flink的BucketingSink和ORC file writer整合的文件。BucketingSink中没有这样的ORC文件编写器实现。

我被困在这里了，有什么想法吗？

共有1个答案

钱震博

2023-03-14

我同意，一个用于ORC文件的BucketingSink编写器将是一个很好的特性。然而，它还没有被贡献给Flink。你必须自己实现这样一个作家。

我相信Flink社区会帮助设计和审查作者，如果你考虑把它贡献给Flink的话。

类似资料：

如何在pyspark 2.0中不使用metastore读取ORC文件

我想使用pyspark 2.0读取一些ORC文件，但不使用metastore。理论上，这样做是可行的，因为数据模式嵌入在ORC文件中。但我得到的是：读取ORC文件的正确方法是什么？
如何使用ApacheFlink读取HDFS中的拼花文件？

我只找到TextInputFormat和CsvInputFormat。那么，如何使用ApacheFlink读取HDFS中的拼花文件呢？
如何在将小文件写入hive orc表的同时合并spark中的小文件

我正在从s3读取csv文件，并以ORC的身份写入配置单元表。在写的同时，它也在写大量的小文件。我需要合并所有这些文件。我设置了以下属性: 除了这些配置之外，我尝试了repartition(1)和coalesce(1)，这将合并到单个文件中，但它会删除配置单元表并重新创建它。如果我使用追加模式而不是覆盖模式，它会在每个分区下创建重复文件。在这两种情况下，spark作业运行两次，在第二次执行时失败
如何使用Python写入文件？

问题内容：我如何将分数写入文件？问题答案：您可以手动打开和关闭文件，但最好使用它，因为它可以为您处理关闭文件。表示追加到文件中，该文件不会覆盖以前的内容- 这可能是您想要的。据我所知，您将要在print语句之后或之前添加它。如果您不懂读写文件，则应查看此链接。
如何在PHP中写入文件？

问题内容：我在一个免费的支持PHP的服务器上安装了此脚本：它创建文件，但为空。如何创建文件并向其中写入内容，例如“猫追老鼠”行？问题答案：您可以使用更高级别的函数，例如，与调用，相同，然后依次将数据写入文件。
使用java.util.logging.Logger时如何在文本文件中写入日志

问题内容：我遇到一种情况，我想将我创建的所有日志写入文本文件。我们正在使用java.util.logging.Logger API生成日志。我试过了：但是仍然只能在控制台上获取我的日志。问题答案：试试这个样本。这个对我有用。在MyLogFile.log产生输出编辑：要删除控制台处理程序，请使用因为ConsoleHandler已向父记录器注册，所有记录器都源自该记录器。

如何在Apache Flink中使用BucketingSink写入ORC文件？

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档