当前位置：首页 > 软件库 > 大数据 > 数据处理 >

Flink Remote Shuffle

Flink 任务间数据交换

授权协议 Apache 2.0

开发语言 Java

所属分类大数据、数据处理

软件类型开源软件

地区不详

投递者应和光

操作系统跨平台

开源组织无

适用人群未知

软件概览

Flink Remote Shuffle 是一种批场景下利用外部服务完成任务间数据交换的 Shuffle 实现，本文后续将详细介绍 Flink Remote Shuffle 研发的背景，以及 Flink Remote Shuffle 的设计与使用。

重要特性

存储计算分离：存储计算分离使计算资源与存储资源可以独立伸缩，计算资源可以在计算完成后立即释放，Shuffle 稳定性不再受计算稳定性影响。
支持多种部署模式：支持 Kubernetes、Yarn 以及 Standalone 环境下部署。
采用了类似 Flink Credit-Based 流量控制机制，实现了零拷贝数据传输，最大限度的使用受管理的内存 (managed memory) 以避免 OOM，提高了系统稳定性与性能。
实现了包括负载均衡、磁盘 IO 优化、数据压缩、连接复用、小包合并等诸多优化，实现了优秀的性能与稳定性表现。
支持 Shuffle 数据正确性校验，能够容忍 Shuffle 进程乃至物理节点重启。
结合 FLIP-187: Flink Adaptive Batch Job Scheduler[11] 可支持动态执行优化，如动态决定算子并发度。

设计思路与原理介绍

参阅此文章：https://www.oschina.net/news/171564/flink-remote-shuffle-open-source

使用案例

Flink Partitioning，不只是Shuffle

概念 Actually，在Flink中Shuffle的含义是很局限，并不似Spark中那么宽泛。在Flink中，数据从UpStream到DownStream的过程中，涉及到数据发往哪一个Subtask的问题。这个过程在Flink中统称为partitioning。概念是不是一目了然，是不是比Spark的Shuffle好懂？分类 partitioning操作具体有如下几种：操作操作方式 Shu
Flink操作——Batch - Blocking Shuffle

总览 Flink DataStream API 和 Table / SQL 都支持通过批处理执行模式处理有界输入。此模式是通过 blocking shuffle 进行网络传输。与流式应用使用管道 shuffle 阻塞交换的数据并存储，然后下游任务通过网络获取这些值的方式不同。这种交换减少了执行作业所需的资源，因为它不需要同时运行上游和下游任务。总的来说，Flink 提供了两种不同类型的 bloc
【Flink基础】-- Flink Application Mode

一、ApplicationExecution in Flink 二、Session Mode、Perjob Mode 和 Application Mode Session Mode Per-Job Mode Application Mode Application Submission Reducing Network Requirements
Flink Sort-Shuffle读简析

1、SortMergeResultPartition的创建使用首先是一个读过程的一个调用链 PartitionRequestServerHandler.channelRead0() ->CreditBasedSequenceNumberingViewReader.requestSubpartitionView() ->ResultPartitionManager.cr
Flink Sort-Shuffle写简析

1、配置 taskmanager.network.sort-shuffle.min-parallelism 核心配置。设置Hash Shuffle和Sort Shuffle的分界。并发数大于该值时，使用Sort Shuffle。默认是int最大值，即使用Hash Shuffle。 taskmanager.network.sort-shuffle.min-buffers 每个Sort Shuffle
【Flink】

Flink简介 Apache Flink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。Flink 被设计在所有常见的集群环境中运行，以内存执行速度和任意规模来执行计算。 Flink基石 Flink 之所以能这么流行，离不开它最重要的四个基石：Checkpoint、State、Time、Window。 Flink 部署及启动 Flink 支持多种安装模式: local（本地）—
Remote Shuffle Service简介及社区开发进展

External Shuffle Service存在的问题从社区的讨论看，目前的Shuffle架构（External Shuffle Service）主要存在以下几个问题。单点性能瓶颈当单台主机上运行较多的executor时，大量Shuffle File的并发读写速度将受制于单台主机磁盘和网络的速度，单点故障 Shuffle File存储在本地磁盘，没有备份。当所在主机故障时，所有Spar
【spark系列12】spark remote shuffle service(RSS)杂谈

背景对于spark remote shuffle service（以下简称RSS）,在社区其实早就有探讨SPARK-25299,只不过一直没有达成一致，且目前的内置的shuffle service 也能满足大部分的场景，也就被搁置了，但是由于kubernetes的越来越火热,spark 社区也慢慢的集成了spark on k8s，当然k8s社区也集成了spark,具体区别见spark on k8

Flink Remote Shuffle

重要特性

设计思路与原理介绍

同类工具

相关阅读

相关文章

相关问答

相关文档