我正在用纱线运行Flink(1.4.2)。我正在使用Flink纱线客户端将作业提交给纱线集群。
假设我有一个有4个插槽的TM,我部署了一个并行度为4、有2个容器的flink作业—1个JM和1个TM。每个并行实例将部署在TM中的每个任务槽中(每个槽运行的整个作业管道)。
我的作业进行连接(非键控流上的SQL时间窗口连接),并缓冲最后3小时的数据。根据Flink docs的说法,在不同的任务槽中运行的独立线程共享数据集和数据结构,从而减少了每个任务的开销
我的问题是运行在不同任务槽中的这些线程是否会共享为连接而缓冲的数据。所有数据在这些线程之间共享。
编辑
示例查询-
<代码>选择R.order\U id,S.order。restaurant\u id FROM awz\U s3\U stream1 R Internal JOIN awz\U s3\U stream2 S ON CAST(R.order\u id AS VARCHAR)=S.order\u id和R.proctime介于S.proctime-间隔“2”小时和S.proctime间隔“2”小时之间,按跃点分组(S.proctime,间隔“2”分钟,间隔“1”小时),S.订单。餐厅id
每个任务
都将接收自己的输入数据分离分区。在同一TaskManager
上运行的任务
共享的是服务和控制数据结构,如网络堆栈、网络连接、RPCendpoint、分布式组件之间的心跳等。
在配置spark应用程序时,我试图从集群中挤出每一点,但似乎我并没有完全正确地理解每一件事。因此,我正在AWS EMR集群上运行该应用程序,该集群具有1个主节点和2个m3类型的核心节点。xlarge(每个节点15G ram和4个vCPU)。这意味着,默认情况下,每个节点上为纱线调度的应用程序保留11.25 GB。因此,主节点仅由资源管理器(纱线)使用,这意味着剩余的2个核心节点将用于调度应用程序(
我有几个关于向HDFS提交作业和Hadoop中的YARN架构的问题: 所以我的问题是在HDFS中纱线的组成部分是如何协同工作的:? 因此,YARN由NodeManager和Resource Manager组成。在这两个组件中:NodeManager是否运行在每个DataNode上,而ResourceManager是否运行在每个集群的每个NameNode上?因此,当任务跟踪器(在每个DataNode
我想创建一个test React应用程序,但我在安装时遇到了困难:我使用npm安装了Thread,因为Thread msi没有启动,所以: 我读了这个错误消息: 纱线产生v0。15.1错误:找不到包。C:\Users***\React中的json(或bower.json)文件位于C:\Users***\AppData\Roaming\npm\node\u modules\yarnpkg\lib\c
我有两个集群,每个集群运行不同版本的Hadoop。我正在研究一个POC,我需要了解YARN如何提供同时运行多个应用程序的能力,这是用经典的Map Reduce框架无法实现的。 Hadoop Classic:我有一个wordcount.jar文件,并在单个集群上执行(2个映射器和2个简化器)。我并行地开始了两个工作,一个幸运的开始首先得到了两个映射器,完成了任务,然后第二个工作开始。这是预期的行为。
我在AWS EMR Spark上运行一个应用程序。这里,是spark提交作业- AWS使用纱线进行资源管理。我正在查看指标(下面的屏幕截图),对纱线“容器”指标有疑问。 这里,分配的容器显示为2。但是,我使用了4个节点(3个从1个主节点),所有8个内核CPU。那么,只有2个容器是如何分配的呢?
我正在使用spark submit执行以下命令: spark submit script\u测试。py—主纱线—部署模式群集spark submit script\u测试。py—主纱线簇—部署模式簇 这工作做得很好。我可以在Spark History Server UI下看到它。但是,我无法在RessourceManager UI(纱线)下看到它。 我感觉我的作业没有发送到集群,但它只在一个节点上