当前位置：首页 > 专题 >

《雪花算法》专题

火花加入*无*随机播放
我正在尝试优化我的火花应用工作。我试图理解这个问题的要点:如何在唯一键上连接数据帧时避免混乱？ > 我已经确保必须发生加入操作的键分布在同一分区中（使用我的自定义分区程序）。我也不能做广播加入，因为我的数据可能会根据情况变大。在上面提到的问题的答案中，重新分区只优化了连接，但我需要的是无需切换即可连接。在分区内的键的帮助下，我对连接操作很满意。有可能吗？如果不存在类似的功能，我想实现像jo
火花流媒体Kafka vs Just Kafka
为什么以及何时会选择将Spark流媒体与Kafka结合使用？假设我有一个系统通过Kafka每秒接收数千条消息。我需要对这些消息应用一些实时分析，并将结果存储在数据库中。我有两个选择： > < li> 创建我自己的worker，该worker从Kafka读取消息，运行分析算法并将结果存储在DB中。在Docker时代，只需使用scale命令就可以轻松地在我的整个集群中扩展这个工作线程。我只需要确保
Storm不追上最大的花销
我已经创建了一个示例拓扑来测试设置max spout Expensing属性。这是一个简单的拓扑，有一个喷嘴和一个螺栓。喷口发出100000个元组，而螺栓在睡眠一秒钟后发出嘎嘎声。我已将“最大喷口支出”属性设置为10。我假设这意味着，如果一个喷口的未确认消息计数为10，那么该喷口将不会发出任何元组。但当我运行拓扑时，我可以看到喷口发出2160条消息，然后等待。我的理解是正确的还是遗漏了什么。我使用
用火花连接器填充Neo4j
我使用Spark2和neo4j3（安装在一个节点上），并使用这个spark/Neo4j https://github.com/neo4j-contrib/neo4j-spark-connector 我可以使用我的数据库。多谢帮忙。
未定义火花上下文“sc”
我是新的火花，我正在尝试安装PySpark通过参考下面的站点。 http://ramhiser.com/2015/02/01/configuring-ipython-totebook-support-for-pyspark/ 我尝试安装两个预构建包，也通过SBT构建Spark包。当我尝试在IPython笔记本中运行python代码时，我得到以下错误。在命令窗口中，我可以看到下面的错误。请注意
火花垃圾连接到主机
我正试图设置一个小型Spark集群进行测试。该集群由3名工人和一名师傅组成。我在每个节点上设置了Java、scala和Spark。配置文件如下：spark-defaults.conf： Spark-env.sh
地图中的Apache火花分区（）
谁能给我解释一下吗？然而，另一方面是，对于不能保证产生已知分区的转换，输出RDD将没有分区器集。例如，如果对哈希分区的键/值对RDD调用map（），则传递给map（）的函数在理论上可以更改每个元素的键，因此结果将不会有分区器。Spark不会分析函数以检查它们是否保留密钥。相反，它提供了另外两个操作，mapValues（）和flatMap Values（），它们保证每个元组的键保持不变。 Mate
火花数据帧范围分区
[新加入Spark]语言-Scala 根据文档，RangePartitioner对元素进行排序并将其划分为块，然后将块分发到不同的机器。下面的例子说明了它是如何工作的。假设我们有一个数据框，有两列，一列（比如“a”）的连续值从1到1000。还有另一个数据帧具有相同的模式，但对应的列只有4个值30、250、500、900。（可以是任意值，从1到1000中随机选择）如果我使用RangePartit
火花中的 Zip 2 列 [重复]
数据帧结构: 预期的数据帧结构： Code_1已尝试: 这也导致错误配对和重复。关于我应该调整什么以获得所需输出的任何建议。我还尝试在第一条select语句中使用多次爆炸，这将引发错误。 Code_2尝试：警告和错误：是的，我问了同样的问题，这个问题被关闭为重复，指向另一个解决方案，这就是我在片段2中尝试的。它也不起作用。任何建议都会很有帮助。
结构类型/行的火花UDF
我在火花数据帧中有一个“结构类型”列，它有一个数组和一个字符串作为子字段。我想修改数组并返回相同类型的新列。我可以用UDF处理它吗？或者有什么替代方案？似乎我需要行类型的UDF，类似这是有意义的，因为Spark不知道返回类型的模式。不幸的是，udf.register也失败了:
Cosmos Changefeed火花流随机停止
我有一个 Spark 流式处理作业，它读取 Cosmos 更改源数据，如下所示，在具有 DBR 8.2 的数据砖集群中运行。虽然作业正常工作，但偶尔，流会突然停止，并且在log4j输出中出现以下循环。重新启动作业将处理“待办事项”中的所有数据。以前有人经历过这样的事情吗？我不确定是什么原因造成的。有什么想法吗？
火花指数移动平均线
我也看过Pyspark中的加权移动平均线，但我需要一个Spark/Scala的方法，以及10天或30天的均线。有什么想法吗？
更好的蜂巢-火花连接？
我正在回顾一个旧的Spark软件，它必须并行运行许多小的查询和计数()并使用直接的hive-sql。在过去，该软件通过在shell()上直线运行每个查询来解决“并行化查询的问题”。我不能用现代新鲜的Spark，此刻只有Spark V2.2。下面的片段说明了完整的SQL查询方法。有一种“Spark方式”可以访问Hive并运行SQL查询，性能（略）更好，而且Spark配置的重用性更好？没有丢失纯
莲花多米诺骨牌脚本
我最近编写了一个Windows服务，它使用Exchange Web服务来监听一个特定的邮箱，然后当该邮箱收到新消息时，应用程序会向一组完全不同的用户发送一封电子邮件。我通过订阅服务做到了这一点，这样in就可以持续运行。我想重新创建这个应用程序，除了将它与Lotus Domino/Notes集成。我做了一些研究，并且知道Lotus C API（可能）以及Lotus Domino Designer（
同花顺一面二面hr面
#同花顺# 3.6 一面自我介绍实习经历、两段中主要做什么和收获什么时候开始想做前端的？主要怎么学习前端？实现了一个 mini-vue，难点、思考 HTTP2、HTTP、HTTPS？强缓存协商缓存˙ 会写一个技术学习的脑图吗？要学什么、计划图片懒加载，如何监听前端性能优化我主要从加载时优化和运行时优化两方面回答 HTTP1 能用 websocket 做聊天程序吗？没太听懂问题，

首页

21

22

23

24

25

26

27

28

29

尾页

最新发布

腾讯-游戏用户研究实习面经华为ICT服务类岗位2025秋招面试经验快手测开二面网易互娱游戏测试一面百度测开一面

推荐文章

算法是什么 java学习路线架构师需要哪些素质？C/C++进阶路线 JavaScipt进阶之路

相关问答

有没有开源的仓库管理系统，支持小程序或公众号的？go - Go 怎么基于 chan 实现低延迟队列？vue.js - KeepAlive和携带key属性的RouteView同时使用，routerView初始没有匹配路由，手动跳转页面为什么渲染失败？javascript - Vue3 中使用 import() 和模板字符串时为何找不到模块？前端 - uniapp 本地创建数据库并存储?

推荐题库

小牛知识库超值大礼包总结C语言和Python区别 Python和C语言优劣势对比 JWT介绍？为什么JWT可以防止篡改？HBase数据表查询操作和获取多版本数据

工具软件

gophernotes Instantbird Firebucket PhysicalMeasure ABPadLockScreen 2ine cirrus homebridge-texecom

文档资料

Effective Modern C++ 中文版（不完整）Knative入门构建基于 Kubernetes 的现代化 Serverless 应用 Hibernate 教程前端开发者手册 mpvue-weui 中文文档