我正在学习flink,试图理解一些概念。以下是几个问题:
keyby
对流的操作与从richparallelsourcefunction
像flinkkinesisconsumer
这样的儿童获取源代码有什么区别?这两个操作都分割流。DataStream input=env.fromelements(“1”,“2”,“3”,“4”,“5”,“6”).keyBy((keyselector
)value->integer.parseint(value)%2);DataStream parsed=input.map(新的MyMapper());DataStream parsedStr=input.map(新的MyStrMapper());parsed.print();parsedstr.print();Env.execute(“MyParser”);
但我得到的输出令人困惑:
3> 1
3> 2
3> 3
3> 4
3> 5
3> 6
3> I am 1
3> I am 2
3> I am 3
3> I am 4
3> I am 5
3> I am 6
这意味着在子任务3上执行的所有内容。有人能帮忙解释一下原因吗?
(1)使用keyby
和使用richParallelSourceFunction
之间的区别?
每次使用keyby
时,流记录必须经过序列化/反序列化,并且很可能通过网络发送。另一方面,源实例可以链接到后续操作,这意味着流记录只是作为java堆上的对象传递。
当你有像Kafka或Kinesis这样的多个源实例时,它们不会分割流。每个实例独立地连接到相关的代理/服务器,以处理分配给它们处理的分区/碎片的记录。因此,使用RichParallelSourceFunction
,可以实现性能更好的管道,同时减少序列化/反序列化和联网的开销。
您的keyselector
函数的结果是散列的,这些散列值取mod128(假设您没有重新配置键组的数量),以将每个键映射到一个键组。然后,Flink确定哪个子任务负责这些关键组。
如果您的key函数只能返回两个不同的值(0和1),那么您只会看到一个或两个不同的子任务在使用。显然,0和1都哈希到分配给子任务3的关键组。
只要有可能,最好有一个比集群的并行性大得多的密钥空间。
在C语言中,假设每个算法被赋予完全相同的一组进程,那么先到先得、最短作业优先和循环之间的周转时间是否相等?还是调度算法不同?
问题内容: 为了为 HTML5 Doctype 定义字符集,我应该使用哪种表示法? 短: 长: 问题答案: 在HTML5中,它们是等效的。使用较短的一个,更容易记住和键入。浏览器支持很好,因为它是为向后兼容而设计的。
连接的多个输入都相当于Yes的时候才会输出Yes。 用法 Your browser does not support the video tag. 案例:小闹钟 功能:今天15:10:00,响起猫叫声小闹钟 工作原理 当所有的输入都是Yes的时候,与节点才输出Yes。
问题内容: 似乎有三种 相同的 方法可以独立于平台获取依赖于平台的“文件分隔符”: 我们如何决定何时使用哪个? 它们之间甚至有什么区别吗? 问题答案: 可以通过调用命令行参数或使用命令行参数覆盖 获取默认文件系统的分隔符。 获取默认文件系统。 获取文件系统的分隔符。请注意,作为一种实例方法,在需要代码在一个JVM中对多个文件系统进行操作的情况下,可以使用该方法将不同的文件系统传递给代码(而不是默认
lxml requests
问题内容: 我今天刚刚与一些同事讨论了python的db-api fetchone vs fetchmany vs fetchall。 我确定每个应用程序的用例都取决于我正在使用的db-api的实现,但是总的来说,fetchone,fetchmany,fetchall的用例是什么? 换句话说,以下等效项是什么?还是其中之一比其他人更受青睐?如果是这样,在哪些情况下? 问题答案: 我认为这确实取决于