当前位置: 首页 > 知识库问答 >
问题:

如何为实时数据流配置Apache Flink Cluster(flink-conf.yml)

慕容坚
2023-03-14

请帮帮我,我有一个Apache Flink集群(2个作业管理器,3个任务管理器),但我不知道在Flink-conf.yml中为该参数设置哪些值:

jobmanager。堆大小

taskmanager。堆大小

taskmanager。TaskSlots数量

相似违约

任务管理器机器有:8CPU,32GB RAM
任务管理器机器有:8CPU,32GB RAM

我将计划在此群集上运行15。。20份Apache Flink工作。由于私有策略,我无法在这里编写java代码,因此我将尝试用文字来表达。

  • 1)我从Apache Kafka代理1读取数据(是JSON消息)
  • 2)POJO中字节的反序列化数组
  • 3)使用FilterFunction检查POJO事件中的一些字段
  • 4)通过id字段使用KeyBy运算符
  • 5)使用带有状态(value eState或mapState)和计时器的KeyedProcessFunction(我使用的是HDFS RocksDB状态后端)
  • 6)将POJO序列化为字节数组并发送到Apache Kafka代理2

预计每天将有5000多万场活动。所有作业都将有一个数据源。

共有1个答案

萧懿轩
2023-03-14

我会考虑使用资源管理器来喜欢纱线、Mesos或Kubernetes,以获得高可用性。简而言之,这就是他们为您所做的:

部署Flink应用程序时,Flink会根据应用程序配置的并行性自动识别所需的资源,并从资源管理器请求这些资源。如果发生故障,Flink将通过请求新资源来替换发生故障的容器。所有提交或控制应用程序的通信都是通过REST调用进行的。这简化了Flink在许多环境中的集成。

换句话说,他们可以将集群中需要的资源提供给链接引擎。而且,您在配置所需的参数时也会少一些麻烦。

 类似资料:
  • 登录数据流服务 登陆小米生态云,如下图,点击进入数据流服务 管理数据流 登陆后用户可以看到"数据流管理",这里面列出了用户所创建并迁移成功的所有 Topic,如下图可以看到我们在创建/迁移Topic中已经创建的Topic:'xiaoqiang_test_data' 配置Sink 如下图所示为 Sink 的配置,目前仅支持转储到FDS,对应于FDSSink,其左侧有一个方框,需要先勾选之后才能继续配

  • 我正在尝试在用户登录/登录其个人资料后在firebase中创建一个实时数据库。我做了身份验证火基,它向我表明用户在火库身份验证中。我尝试了很多教程,但没有任何效果。如何连接身份验证和实时数据库以生成用户配置文件。 规则: 用户类: 和UserDetails类: 我在DataSnapshot中删除了一些代码,因为它没有work.What我能做什么?我使用了很多教程,但数据库中没有编写任何内容。我想在

  • 不幸的是,Kafka Flink连接器只支持-csv、json和avro格式。因此,我不得不使用较低级别的API(数据流)。 问题:如果我可以从datastream对象中创建一个表,那么我就可以接受在该表上运行的查询。它将使转换部分无缝和通用。是否可以在数据流对象上运行SQL查询?

  • 我正在用Flink做一个实时项目,我需要用以前的交易丰富每一张卡的状态,以计算如下的交易特性: 对于每一张卡,我都有一个功能,可以统计过去24小时内的交易次数。另一方面,我有两个数据源: 在Flink流中使用静态数据集丰富数据流 任何帮助都是非常感激的。

  • 尝试使用Apache Flink从Cassandra获取数据,引用本文,我可以读取数据,但我不知道如何将其加载到DataStream对象中。代码如下: 我试过了 将变量中的数据加载到数据流中

  • 我试图用以下链接中提供的信息将Cassandra作为Flink中的数据来源: null 异常跟踪-->