当前位置: 首页 > 知识库问答 >
问题:

流文件接收器:跟踪零件文件何时完成

颛孙俊
2023-03-14

我的工作是使用StreamingFileLink将记录写入远程文件系统。我想建立一个索引,其中部分文件包含一个记录。有没有办法通过Flink API实现这一点?或者有没有办法知道一个零件文件已经完成,现在我可以脱机处理它以编制索引?

共有1个答案

松灿
2023-03-14

在Flink文档的日常构建中,详细描述了StreamingFileLink的部分文件生命周期。

简单的回答是,当可以安全地使用零件文件时,零件文件将被重命名——“安全”意味着文件已被关闭(不会发生进一步的写入)和检查点。此时,文件名将从part subtaskIndex partFileIndex更改。正在进行。uid零件子类Askindex零件文件索引。例如,名称可能会从part-1-0更改。正在进行。ea65a428-a1d0-4a0b-bbc5-7a436a75e575第1-0部分

请注意,要正确操作StreamingFileLink,需要启用检查点。

回到问题的第一部分——你能使用公共应用编程接口来确定哪个部分文件包含给定的记录吗?我相信这是由KeyGroupRangeAssignment.assignKeyToParallel操作员完成的。

有关键控状态的组织方式的解释,请参阅ApacheFlink中深入研究可重新缩放状态。

 类似资料:
  • 开发人员之间可以共享的主要内容是代码样式配置。因此,通过使用IDE自动重新格式化选项,所有团队都将遵循一致的风格。 除此之外,问题是还有哪些文件是建议被包括而不是忽略的?为什么? 回答:我碰到了这个:https://github.com/salarmehr/idea-gitignore

  • PhpStorm 2018.2中是否可以搁置未跟踪/新文件? 这似乎不是,但我找不到一个明确的答案,这个支持问题似乎表明,至少在过去是可能的。

  • 我正在用实时读取日志文件。这个效果很好。但每天都有一个日志循环,这意味着我的日志文件将被重命名,不再更改。将在同一位置创建新的日志文件。在我可以更改到新的日志文件之前,我需要完成当前日志文件的读取,使用没有问题,但是我如何才能发现文件名已更改? 我试着调用和,但这不起作用,因为-objects路径在创建后是固定的。 我还尝试使用WatchService,但附加到文件后也会导致ENTRY\u DEL

  • 我需要跟踪nodejs express提供的所有“静态”文件

  • 我正在使用SimpleHTTPServer的do_POST方法接收文件。如果我使用curl上传png文件,脚本工作正常,但每当我使用python请求库上传文件时,文件上传会损坏。这是SimpleHTTPServer代码 上传文件的客户端代码在这里 文件已成功上载,但已损坏。 python请求头 SimpleHTTPServer响应 使用curl[curl-F'file=@test.png'192.

  • 问题内容: 我有一个页面,允许用户下载动态生成的文件。生成需要很长时间,因此我想显示一个“等待”指示器。问题是,我不知道如何检测浏览器何时收到文件,因此可以隐藏指示器。 我正在以隐藏的形式发出请求,该请求会发布到服务器,并以隐藏的iframe作为结果。这样一来,我就不会用结果替换整个浏览器窗口。我在iframe上侦听“加载”事件,希望下载完成后将触发该事件。 我随文件返回一个“ Content-D