当前位置：首页 > 专题 >

《数据人的面试交流地》专题

清除数据流中的Flink水印状态
是否可以清除数据流中的当前水印？一个月长的水印不允许延迟的示例输入：通常，“2018年9月”的记录会因为时间太晚而被扔掉。当看到消息时，是否有方法以编程方式重置水印状态？
Kafka到Google云平台的数据流摄取
主题中的Kafka数据可以被流式传输、消费和吸收到BigQuery/云存储中，有哪些可能的选项。按照，是否可以将Kafka与Google cloud Dataflow一起使用 GCP自带Dataflow,它建立在Apache Beam编程模型之上。KafkaIO与Beam Pipeline一起使用是对传入数据执行实时转换的推荐方式吗？ https://beam.apache.org/releas
数据流大侧输入中的Apache波束
这与这个问题最为相似。我正在Dataflow 2.x中创建一个管道，它从Pubsub队列获取流式输入。进入的每一条消息都需要通过来自Google BigQuery的一个非常大的数据集进行流式传输，并且在写入数据库之前附加了所有相关的值（基于一个键）。问题是来自BigQuery的映射数据集非常大--任何将其用作侧输入的尝试都失败了，数据流运行程序会抛出错误“java.lang.IllegalAr
Flink:窗口不处理流末尾的数据
我有一个流（KafkaMSG流到一个主题上），有一个flinkKafka消费者，我注意到一个有趣的行为，我想解决这个问题。当数据正在流入时，如果它在窗口“完成”之前停止，或者如果数据结束（在几个窗口之后）并且没有到达窗口的末尾，则管道的其余部分不会触发。流程示例：我正在使用的Flink Kafka消费者010与env时间特性设置为事件时间。和consumer.assign时间戳和水印（新周期
kinesis数据流消费者的高可用性
我想制作下面的数据发送架构。生产商-- 消费者服务器可以关闭，因此我认为应该至少有两个消费者。是这样吗？当一个数据流有两个使用者时，是否有任何方法可以处理每个使用者一半的数据？正如我所知，这是不可能的。如果每个消费者都使用相同的数据，那就是浪费时间和成本。因为我只为高可用性提供了两个消费者。（用于故障切换）在web was体系结构中，ELB或L4可以通过负载平衡将一半数据发送到每个was服务
Apache Beam Kinesio Java-使用kinesis流中的数据
首先，我想说这对Beam世界来说是全新的。我正在处理一个以Apache Beam为中心的任务，我的主要数据源是Kinesis流。在那里，当我使用流数据时，我注意到当我重新启动程序（我的消费者应用程序）时，相同的数据集也会出现。这是我的代码，简单地说，我想要的是，我需要从我之前阅读的地方开始阅读数据。如果有人能提供一些资源，我真的很感激。我还发现了一个类似的问题，但它对我没有帮助-Apache
使用ApacheSpark和kfaka的实时数据库流
我正在用Kafka设计一个spark流媒体应用程序。我有以下几个问题：我正在将数据从RDBMS表流式传输到kafka，并使用Spark consumer来使用消息，并使用Spark-SQL进行处理问题：1。我将数据从表中流式传输到kafka as（键作为表名，值作为JSON记录形式的表数据）——这是正确的体系结构吗？这种数据库流的架构和设计是否正常，我如何解决转换问题中的转换？你好Piyus
同一数据流中的多个接收器
我有一条这样的小溪和两个水槽，但一次只使用一个：或我们使用哪个接收器是可配置的，但是如果我并行使用两个接收器怎么办？我该怎么做？我想到了水槽。合并，但它也需要合并策略，我不想以任何方式合并这些汇的结果。我真的不关心它们，所以我只想通过HTTP将相同的数据发送到某个endpoint，同时将它们发送到数据库。Sink combine与broadcast非常相似，但从头开始实现广播会降低代码的可读
AWS-识别Lambda从DynamoDB流读取的数据
我有一个启用/配置了TTL和DynamoDB Streams的DynamoDB表。我想实现一个lambda函数，该函数将从DynamoDB流中读取TTL删除的数据，并将其转发给Kinesis Firehose或S3（考虑到成本，我需要决定哪一个更好）。是否有任何标志/属性有助于识别TTL删除记录已被某些lambda函数读取/处理？例如，我在DynamoDB流中有10条记录，一个lambda函数
谷歌云数据流中的动态分区？
我正在使用dataflow处理存储在GCS中的文件，并写入Bigquery表。以下是我的要求：输入文件包含events记录，每个记录属于一个EventType；需要按EventType对记录进行分区；对于每个eventType输出/写入记录到相应的Bigquery表，每个eventType一个表。每个批处理输入文件中的事件各不相同；我正在考虑应用诸如“GroupByKey”和“Parti
使用ValueProvider格式化数据流中的BigQuery
...这不起作用，因为我在管道执行之前调用get（）。到目前为止，我还没有将为do_some_stuff函数所做的调整到“read”行任何关于如何进行的建议或解决方案都将不胜感激。谢了！
使用Spring云数据流的Spring批处理
顺便说一句：我的应用程序是一些REST控制器和一些批处理作业的组合。那么使用云数据流有意义吗？如果没有，那么是否有更好的控制台管理器用于批处理作业（如重新启动、取消作业门户）等？
使用Flink获取数据流的文件名
我有一个flink在单个路径中处理csv文件的流式处理。我想知道每个处理文件的文件名。我目前正在使用此功能将csv文件读取到路径（dataPath）中。并使用此函数获取TupleCsvInputFormat。进程运行正常，但我找不到方法来获取每个csv文件的文件名。提前谢谢
Spring云数据流应用中的App属性
根据Spring Cloud Data Flow(SCDF)的文档，只有前缀为“deployded”的属性。或者“应用程序”。在部署应用程序（无论是源、处理器还是接收器）时，都考虑作为流的一部分。我认为这种行为是故意的，但为什么呢？为什么不直接用适当的前缀提取用户定义的所有属性呢？谢谢你的支持。
Apache Flink作业中的多数据流支持
其他流式框架（如Apache Samza、Storm或Nifi）是否可以实现这一点？我们非常期待得到答复。

首页

27

28

29

30

31

32

33

34

35

尾页

最新发布

天翼云-技术支持一面我的面试经历 Minimax算法研发实习一面滴滴三面半凉经百度广告算法策略实习一面

推荐文章

算法是什么 java学习路线架构师需要哪些素质？C/C++进阶路线 JavaScipt进阶之路

相关问答

视频处理 - 如何使用VLC录制RTMP实时流并分块保存文件？javascript - vue3怎么遍历一个组件中的所有项？mysql添加联合索引之后排序发生变化？python - 求助：为什么whl包在容器环境安装失败？flutter - 如何在Flutter中实现隐私合规的权限调用流程？

推荐题库

小牛知识库超值大礼包总结C语言和Python区别 Python和C语言优劣势对比 JWT介绍？为什么JWT可以防止篡改？HBase数据表查询操作和获取多版本数据

工具软件

Spiped OPMS Apache Lucy JQuery4JSF react-native-context-menu-view IndieLib CLTableWithFooterViewController worktop

文档资料

Aurelia 中文教程 Java Web 从入门到精通 Apache Groovy 中文教程 FullCalendar 中文文档 ionic 2.0 文档中文翻译