我已经看了官方的医生,但我仍然弄不清他们的区别。 此外,我试图编写一个Flink流作业,它接收来自Kafka的数据。在这种情况下,我应该使用哪种环境?
如果有人用下面给出的Apache flink给出usecase示例来解释每个水印API之间的差异,这将是有帮助的 周期水印- 标点符号水印-
像Storm和Flink这样的系统可以被视为DSMS,还是更普通的东西? 谢谢
我正在使用这两个实时数据流框架处理器。我找遍了所有的地方,但我找不到这两个框架之间有很大的区别。特别是,我想知道他们是如何工作的基础上的数据或拓扑等大小。
我想在Apache Flink中将非并行数据源转换为并行数据源。在伪代码中,它类似于以下内容: 我通过实现一个noop map函数来完成它,但我认为还有更优雅的方法。 谢谢
我尝试执行Flink(1.12.1)批处理作业,步骤如下: null 资料来源: 谢了!
Apache Flink 1.9.0于2019年8月22日发布。我尝试从Beam 2.15.0和Flink运行器“Beam-runners-flink-1.8”运行Beam单词计数示例,但似乎不起作用。对于1.9.0兼容的flink runner工件有一个eta吗? 我使用Maven依赖项构建了以下内容: 该错误提到作业图反序列化错误。
是否有一个地方我们可以快速引用和查看Apache beam和运行时环境(Flink、Spark等)之间的版本兼容性。我正在艰难地学习它:(.不确定我的问题有多少是由版本错误造成的。 目前我正在使用Beam 2.4.0并查看flink runner pom(https://search.maven.org/#artifactdetails%7corg.apache.Beam%7cbeam-runne
我试图通过在Local上连接两个数据流来运行Flink上的基本连接。源流的数据类型是相同的(Tuple4(String,String,Long,Long))。在多次运行下面提到的函数后,我随机收到了两个不同的输出(存储在下面的变量CollectTuple2Sink中,下面提到了相同的调试日志)。我尝试保持并行度1和最大并行度1,但问题仍然存在。 源函数和其他定义都来自本教程。还从Flink官方文件
我们计划使用Flink处理来自kafka主题的数据流(Json格式的日志)。 但是对于这种处理,我们需要使用每天都在变化的输入文件,其中的信息可以完全改变(不是格式,而是内容)。 每当这些输入文件中的一个发生变化时,我们必须将这些文件重新加载到程序中,并保持流处理继续进行。 重新加载数据的方式与现在相同: 但是到目前为止,我还没有找到例子,也没有想出一种方法来触发流处理作业中的重新加载。 作为额外
在ResourceManager节点上启动flink作业(查找配置文件) 从ResourceManager下载配置文件到本地。 我想,这两种方式都不太好。如何将作业提交到远程纱线集群。有没有合适的办法?
我正在从Kafka读取数据,并试图以ORC格式将其写入HDFS文件系统。我使用了他们官网链接中的以下链接参考。但是我可以看到Flink为所有数据编写完全相同的内容,并使得这么多文件和所有文件都可以103KB https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/connectors/streamfile_sink.html
我正在AWS EMR6.2上部署我的Flink应用程序 Flink版本:1.11.2 我用以下方法配置了该步骤: 如下所述:https://docs.aws.amazon.com/emr/latest/releaseguide/flink-jobs.html 我取出了应用程序中返回的类名,实际上它是。 应用程序本身作为本地应用程序在JobMaster实例上正常运行。
我试图输出到一个Kinesis流,或一个S3文件。什么都没有记录。 我还尝试写到一个HDFS文件。在本例中,创建了一个文件,但大小为0。我确信输入文件已经使用一个简单的检查进行了处理: 它生成了一个异常。 我在这里漏掉了什么?