这是关于一个flink作业,它有一个简单的源来从url中获取数据,然后过滤数据,然后在一个进程函数中收集数据一段时间(keyBy),最后在一个映射中处理收集到的数据。由于某些原因,即使flinkUI显示它正在运行,作业在几天后也会停止运行。有没有办法知道为什么会有这样的行为,也有没有办法知道一个作业实际上是否已经停止,即使UI显示它正在运行。
附言:我怎么知道工作已经停止了??答:它没有执行它正在执行的任务。我检查了日志,但它对我理解问题没有多大帮助。
听起来作业管理器和任务管理器仍在运行,因为至少正在传递心跳消息。
有许多指标可以帮助我们了解正在发生的事情:
如果作业使用事件时间,则可能是空闲源导致水印不再前进。通过查看源实例的numRecordsOutPerSecond和当前水印,您应该能够在度量中看到这一点。
如果您正在阅读Kafka(或Kinesis),请查看记录-lag-max(或millisBehindLatest)。
如果您启用了检查点,请查看它们是否仍然成功。
我正在kubernetes上试用最新版本的Flink1.5的flink工作。 我的问题是如何在上面的flink集群上运行一个示例应用程序。flink示例项目提供了如何使用flink应用程序构建docker映像并将该应用程序提交给flink的信息。我遵循了这个例子,只是把flink的版本改成了最新版本。我发现应用程序(example-app)提交成功,并且在kubernetes的pod中显示,但是f
问题内容: 我想创建一个Jenkins作业来启动其他Jenkins作业。那将非常容易,因为Jenkins模板项目插件允许我们创建一个类型为“使用来自另一个项目的构建器”的构建步骤。但是,使我的情况更难的是,我必须在其他计算机上开始Jenkins的工作。有什么标准方法可以做到吗? 问题答案: 万一您只想触发Job的新版本,您有多种方法可以完成它 您可以使用远程访问API并触发请求以从源Job构建目标
问题内容: 问题: 当我将作业提交到hadoop 2.2.0集群时,它没有显示在作业跟踪器中, 但是作业成功完成。 这样,我可以看到输出并且它正在正确运行,并在运行时打印输出。 我尝试了多个选项,但作业跟踪器看不到该作业。如果我使用2.2.0 hadoop运行流作业,它将显示在任务跟踪器中,但是当我通过hadoop-client api提交它时,它不会显示在作业跟踪器中。我正在查看端口8088上的
问题:当我向hadoop 2.2.0集群提交一个作业时,它不会显示在作业跟踪器中,但该作业成功完成了。通过这个,我可以看到输出,它正在正确运行,并在运行时打印输出。 etc/hadoop/core-site.xml
我刚刚尝试在Apple Mac Pro上运行Apache Flink的基本示例,新的M1处理器使用Rosetta 2兼容层。 不幸的是,它在以下堆栈跟踪中失败: 所以我的问题是,有人让它运行了吗?有可能在苹果硅上执行Flink工作吗? 编辑(13.04.2021)顺便说一句:使用Rosetta兼容层运行时发生此错误。因此,不幸的是,这并不能解决当前的问题。 编辑(2021年4月14日,回应理查德·
假设我在Hadoop环境中资源有限,我不想安排长时间运行的作业(即需要几天时间才能完成)。我正在分析大量过去的时间序列数据。我想安排一次需要一天数据的mapreduce作业(这需要一个小时来处理)。 那么,我如何安排,使新的工作提交后,前一个工作完成?