我打算使用apache flink将数据读/写到使用flink的cassandra中。我希望使用flink-connector-cassandra,但我没有找到关于连接器的好文档/示例。 你能给我指出正确的方式来读写数据从cassandra使用Apache Flink。我只看到了纯粹用于写作的sink示例?apache flink也是用来从cassandra读取数据的,是否与apache spar
我有两个简单的Flink流式作业,从Kafka读取,做一些转换,并将结果放入Cassandra sink。他们从不同的Kafka主题阅读,并存入不同的卡桑德拉表。 当我单独运行这两个工作中的任何一个时,一切都很好。检查点被触发并完成,数据被保存到Cassandra。 我找不到关于这个错误的很多信息,它可能是由下列任何一个引起的: Flink(V1.10.0-Scala2.12), Flink Ca
我的flink程序应该为每个输入记录做一个Cassandra查找,并根据结果做一些进一步的处理。 但问题是,每次查找需要将近10秒,换句话说,这个循环需要50秒来执行。 我如何加快这个操作?或者,在Flink中有没有其他的方法可以查到Cassandra呢?
我必须使用Flink作为流引擎处理来自Kafka的数据流。为了对数据进行分析,我需要查询Cassandra中的一些表。做这件事最好的方法是什么?我一直在Scala中寻找这样的例子。但是我找不到任何数据。如何使用Scala作为编程语言在Flink中读取来自Cassandra的数据呢?使用apache flink Java API将数据读写到cassandra中也有同样的问题。答案中提到它有多种方法。
我有一个时间窗口,我尝试确定我是否在一段时间内获得一个新的密钥。我正在通过kafka推送数据,当我调试它时,我看到数据到达方法,但它没有到达方法,并且没有被收集器收集。我正在使用来分配水印: 如有任何协助,我将不胜感激
Flink被比作Spark,在我看来,这是一个错误的比较,因为它将窗口事件处理系统与微批处理进行了比较;同样地,对我来说,将Flink与Samza进行比较也没有那么大的意义。在这两种情况下,它比较了实时事件处理策略和批处理事件处理策略,即使在Samza的情况下“规模”较小。但我想知道Flink与Storm的比较如何,它在概念上似乎更相似。 我发现这张(幻灯片#4)记录了Flink的“可调延迟”这一
我的flink作业到现在为止对客户端id执行KeyBy操作,并使用窗口操作符累积1分钟的数据,然后聚合数据。聚合之后,我们将这些累积的数据存储在hdfs文件中。唯一密钥(客户端id)的数量每天超过7000万。 问题是,当我们做keyBy时,它会在集群上分发数据(我的假设),但我希望数据在同一个插槽(或节点)上聚集1分钟,用于传入事件。 注意:在接收器中,我们可以在1分钟窗口内为同一客户端提供多个数
我有一个用于处理TumblingEventTimeWindows,其中我使用状态存储在多个滚动窗口中保存一些值。我的问题是,这个状态存储没有在滚动窗口中保存,也就是说,如果我首先在windows[0,999]中存储一些东西,然后从windows[1000,1999]访问这个存储,那么这个存储是空的。我知道这里所述的全局状态和每个窗口状态。我要使用全局状态。我还尝试创建一个最低限度的工作示例来调查这
我研究Flink已经一个多星期了。我们正在从Kafka消费事件,我们希望事件属于一个特定的对象id需要按照事件时间的顺序进行处理。到目前为止,我的研究告诉我,我应该使用keyby和timewinds,我的理解是正确的吗? 另一个问题是,当一个任务管理器关闭时,只有属于该任务管理器的事件才会被停止处理,直到该任务管理器启动?检查点机制是否知道未被处理的事件,它将如何请求Kafka关于这些事件? 下面
根据我的理解,Flink中的运算符有源运算符、转换运算符等。我对Flink中运算符的理解正确吗? 在运算符状态下,Flink是维护每个运算符的状态(如针对每个作业/任务的map(),reduce()等),还是维护一个完成的作业/任务的状态?还有,如果我的作业是以多个并行提交的,那么每个槽会有自己的状态吗?
我有一个数据流,有不同的字段,我想通过键来进行聚合计算(计数、平均、..) -字段1上键控的流 -字段2上键控的流
我们有两种消息向Flink传来 控制消息->仅滚动文件 数据消息->将使用接收器存储在S3中 我们可以看到LASTNAME值不正确,它会被每个记录的FIRSTNAME值替换