当前位置：首页 > 专题 >

《数据人的面试交流地》专题

故障云数据流管道的诊断
在大约14个工作小时后，我有一个云数据流管道失败，下面是一条神秘的日志消息：谢了！
谷歌云数据流实例的图像
当我运行Dataflow作业时，它会将我的小程序包（setup.py或requirements.txt）上传到Dataflow实例上运行。但是数据流实例上实际运行的是什么？我最近收到了一个stacktrace：但从理论上讲，如果我在做，这意味着我可能没有运行这个Python补丁？你能指出这些作业正在运行的docker图像吗，这样我就可以知道我使用的是哪一版本的Python，并确保我没有在这里找
批之间的流数据共享火花
Spark streaming以微批量处理数据。使用RDD并行处理每个间隔数据，每个间隔之间没有任何数据共享。但我的用例需要在间隔之间共享数据。 > 单词“hadoop”和“spark”与前一个间隔计数的相对计数所有其他单词的正常字数。注意：UpdateStateByKey执行有状态处理，但这将对每个记录而不是特定记录应用函数。间隔-1 输入：输出：火花发生3次，但输出应为2（3-1
使用熊猫的“大数据”工作流
在学习熊猫的过程中，我已经尝试了好几个月来找出这个问题的答案。我在日常工作中使用SAS，这是非常好的，因为它提供了非核心支持。然而，SAS作为一个软件是可怕的，原因还有很多。有一天，我希望用python和pandas取代SAS的使用，但我目前缺乏大型数据集的核心外工作流。我说的不是需要分布式网络的“大数据”，而是文件太大而无法放入内存，但又太小而无法装入硬盘。我的第一个想法是使用将大型数据集保
如何更新Kafka/Kafka流中的数据？
假设有Kafka主题顺序。数据以JSON格式存储：定义订单的状态（待定-1，已完成-2）。完成后如何在“已完成”上进行更改？正如我所知，Kafka主题是不可变的，我不能更改消息JSON，只需创建一个带有更改值的新消息，对吗？
Spring云数据流的好处是什么？
根据我所看到的，在Spring Cloud Dataflow（SCDF）中创建流将部署底层应用程序，绑定通信服务（如RabbitMQ），设置Spring Cloud stream环境变量，并启动应用程序。这一切都可以使用cf push命令轻松手动完成。同时，我在Spring Cloud Dataflow中遇到了一些缺点： SCDF服务器是PCF上的内存占用者（我有一个只有6个应用程序的流，但我需
Apache波束在数据流上的部署
嗨，我已经创建了一个apache beam管道，测试了它，并在eclipse内部运行了它，包括本地和使用dataflow Runner。我可以在eclipse控制台中看到管道正在运行。e.控制台上的日志。这是我在cmd提示符中使用的maven命令，这是我用来创建管道和设置选项的代码段。
数据流API中的Flink迭代-缺点
我们希望将迭代与Async IO运算符结合使用，为同一事件执行顺序API调用。但是，在回答我提出的另一个问题时，有人提到使用Datastreams唱迭代是个坏主意。管理使用大量内存的状态-从存储中查询有人能进一步解释一下吗？
流式数据上Flink的全局聚合
我目前正在使用Flink 1.0编写一个聚合用例，作为该用例的一部分，我需要获得过去10分钟内登录的api数量。这我可以很容易地使用keyBy（"api"），然后应用10分钟的窗口和doe sum（count）操作。但问题是我的数据可能会出现混乱，所以我需要一些方法来获取10分钟窗口内的api计数。。例如：如果相同的api日志出现在两个不同的窗口中，我应该得到一个全局计数，即2，而不是两个单
PolledProcessor在Spring云数据流上的问题
我正在使用PolledProcessor提出一个spring云数据流处理器。我遵循了下面的示例https://spring.io/blog/2018/02/27/spring-cloud-stream-2-0-polled-consumers。下面是我的代码。我将带有源管道的流部署到这个处理器（源polled-processor）到scdf，并让源发布一些消息。我确认处理器每秒轮询一次来自scdf
流数据到速度模板的飞行
有人能让我知道，如果有可能以某种方式打开速度Excel模板，并流到它的部分更大的数据量在飞行中？假设我想在一个循环中读取外部资源ArrayLists中的数据。一个列表，每个迭代有10,000个项目。在简单的迭代中，我想把列表推到Velocity Excel模板中，跳到下一个迭代时忘掉它。在数据处理结束时，我将对Velocity上下文和模板与所有数据进行最后的合并。 null
Apache Flink-svm对流式数据的预测
我使用Apache Flink来预测来自Twitter的流。代码是在Scala中实现的我的问题是，我从DataSet API训练的SVM模型需要一个DataSet作为predict（）方法的输入。我在这里已经看到一个问题，其中一个用户说，您需要编写一个自己的MapFunction，在作业开始时读取模型（参考：Flink中使用scala的实时流预测）但是我不能写/理解这段代码。即使我在St
数据流中的错误：io.grpc.StatusRuntimeException：不可用
基于Antlr的永续流数据解析
当“b”输入时-输入规则“fox” 然后是“roun”--什么都没有（2个代币在流中--他们中的任何一个都不为leser所知！）只有在'f'之后，侦听器才会访问第一个令牌:'quick' 谢了！
解压缩数据流中的.tar文件？
我的GCP云存储桶中有很多.tar文件。每个.tar文件都有多个图层。我想使用GCP数据流解压缩这些.tar文件，并将它们放回另一个GCP存储桶中。我找到了Google提供的用于批量解压缩云存储文件的实用工具模板，但它不支持.tar文件扩展名。也许我应该在上传到云端之前尝试解压文件，或者Beam中是否存在其他内容？每个tar文件未经压缩大约有15 TB。

首页

19

20

21

22

23

24

25

26

27

尾页

最新发布

天翼云-技术支持一面我的面试经历 Minimax算法研发实习一面滴滴三面半凉经百度广告算法策略实习一面

推荐文章

算法是什么 java学习路线架构师需要哪些素质？C/C++进阶路线 JavaScipt进阶之路

相关问答

视频处理 - 如何使用VLC录制RTMP实时流并分块保存文件？javascript - vue3怎么遍历一个组件中的所有项？mysql添加联合索引之后排序发生变化？python - 求助：为什么whl包在容器环境安装失败？flutter - 如何在Flutter中实现隐私合规的权限调用流程？

推荐题库

小牛知识库超值大礼包总结C语言和Python区别 Python和C语言优劣势对比 JWT介绍？为什么JWT可以防止篡改？HBase数据表查询操作和获取多版本数据

工具软件

Spiped OPMS Apache Lucy JQuery4JSF react-native-context-menu-view IndieLib CLTableWithFooterViewController worktop

文档资料

GitHub 漫游指南 Django Book 2.0 中文版 QAP 千牛开发者套件 Scrapy 中文文档 Rails 风格指南