我们的一些数据流作业在读取源数据文件时随机崩溃。 作业日志中写入了以下错误(workers日志中没有任何内容): 我们有时也会遇到这种错误(登录在工人日志中): 源数据文件存储在谷歌云存储中。 数据路径正确,作业通常在重新启动后工作。我们直到一月底才遇到这个问题。 使用以下参数启动作业:--tempLocation='gstoragelocation'--stagingLocation='Othe
我在创建用于聚合数据的SerDes时遇到了一些问题,需要通过“”发送到另一个主题。然而,我需要为窗口化数据创建一个SerDes,我不知道该怎么做。
目前,我们正在库伯内特斯上使用自己安装的气流版本,但想法是在云作曲家上迁移。我们使用Airflow运行数据流作业,使用DataFlowJavaoperator的自定义版本(使用插件),因为我们需要执行java应用程序,而java应用程序不是在jar中自包含的。因此,我们基本上运行一个bash脚本,该脚本使用以下命令: 所有jar依赖项都存储在所有辅助角色之间的共享磁盘中,但是在Composer中缺
我们的Google Cloud数据流管道程序调用了一些动态链接到*的库。所以要运行它,我需要设置linux环境变量LD_LIBRARY_PATH。有一种方法可以做到这一点:https://groups.google.com/forum/#!主题/综合。java。程序员/LOu18 OWAVM,但我想知道是否有一种方法可以在执行管道之前使用一些运行shell脚本的作业来实现这一点?
1流媒体和Kafka broker版本0.8.2.1,我在AWS上为spark和Kafka提供了单独的服务器。 使用直接进近,我希望从流媒体中获得30个字符串,但实际接收范围只有15-25个。交叉检查Kafka消费者在300秒内显示30个字符串。还有小溪。foreachRDD{rdd= 获取最终数据背后有什么问题。我正在使用火花会话创建sc和ssc。 谢谢你。
tl;dr Apache Beam管道步骤涉及构建docker图像;如何使用谷歌数据流运行这个管道?存在哪些替代方案? 我目前正在尝试使用谷歌的数据流服务和apache梁(python)迈出第一步。 简单的例子很简单,但当外部软件依赖性开始发挥作用时,事情就会让我感到困惑。似乎可以使用自定义docker容器来设置自己的环境[1][2]。虽然这对大多数依赖项来说都很好,但如果依赖项是docker本身
我试图将PipelineOptions接口传递给dataflow DoFn,以便DoFn可以配置一些它需要重新实例化的不可序列化的东西,但是当我告诉dataflow保存我的PipelineOptions子类的实例时,它似乎无法序列化DoFn。我需要对Options接口做什么才能使其正确序列化吗? DoFn定义 选项未标记时的序列化异常
我有一个表示为的自定义状态计算,当我的看到来自Kafka的新事件时,它将不断更新。现在,每次更新状态时,我都希望将更新后的状态打印到stdout。想知道怎么在Flink中做到这一点吗?与所有的窗口和触发器操作很少混淆,我一直得到以下错误。 我只想知道如何将我的聚合流打印到stdout或写回另一个kafka主题? 下面是引发错误的代码片段。
使用fromElements函数创建数据流时出错 下面是探险- 原因:java.io.IOException:无法从源反序列化元素。如果您使用的是用户定义的序列化(值和可写类型),请检查序列化函数。序列化程序是org.apache.flink.api.java.typeutils.runtime.kryo.kryoSerializer@599fcdda在org.apache.flink.strea
我想离开加入流到桌子上。 这显然是一个简化的演示场景。在使用更大的生产数据集之前,我想了解如何使用Flink API通过玩具数据集实现这一点。 表联接上的文档显示了如何联接两个表并取回另一个表,这不是我想要的: https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/tableApi.html#joins Dat
我正在尝试用Java创建一个PoC应用程序,以了解在使用Kafka进行消息发布时如何在Spring Cloud Stream中进行事务管理。我试图模拟的用例是一个接收消息的处理器。然后,它进行一些处理,并生成两条发送到两个不同主题的新消息。我希望能够将这两条消息作为单个事务发布。因此,如果发布第二条消息失败,我希望滚动(而不是提交)第一条消息。SpringCloudStream支持这样的用例吗?
我正在使用docker部署spring云数据流服务器。我在dataflow服务器内部创建了一个数据处理管道,通过部署两个spring boot应用程序作为源、处理器和接收器。为了访问每个服务的日志,我必须从docker continer(bash)内部跟踪它,或者将其从docker容器复制到本地磁盘。 我想使用log4j-kafka appender将这些日志推送给kafka以供以后分析。我已经为
在Room数据库中,我有一个id为“1”的对象(用户),并且我的DAO正在返回该对象的一个Flowable。订阅之后,我调用editUser()函数。 每当我对这个用户对象进行更改并在DB中更新它时,我不会收到任何回调(onNext或onComplete)。
我们在实验中发现,在DataFlow/Apache Beam管道中设置显式的输出碎片#会导致更差的性能。我们的证据表明,Dataflow在最后秘密地做了另一个GroupBy。我们已经转向让Dataflow自动选择碎片数(shards=0)。但是,对于某些管道,这会导致大量相对较小的输出文件(~15K文件,每个<1MB)。
原因:com.Google.API.client.googlejsonresponseException:403禁止{“代码”:403,“错误”:[{“域”:“全局”,“消息”:“项目尚未启用API。请使用谷歌开发人员控制台激活项目的'DataFlow'API。”,“原因”:“禁止”}],“消息”:“项目尚未启用API。请使用谷歌开发人员控制台激活项目的'DataFlow'API。”,“状态”:“