问题：

将本地rdd写入本地Cassandra DB

陈斌

2023-03-14

当我从Cassandra加载数据以触发Rdd并在Rdd上执行一些操作时，我知道数据将分布到多个节点中。在我的例子中，我希望将这些rdds从每个节点直接写到它的本地Cassandra dB表中，无论如何都要这样做。

如果我进行正常的rdd收集，所有来自spark节点的数据将被合并并返回到带有驱动程序的节点。我不希望这种情况发生，因为数据流从节点返回驱动节点可能需要很长时间，我希望数据直接保存到本地节点，以避免数据跨spark节点移动。

共有1个答案

司空锋

2023-03-14

当Spark executor从Cassandra读取数据时，它会向基于不同因素选择的“最佳节点”发送请求：

当Spark与Cassandra并置时，Spark试图从同一个节点提取数据
当Spark位于不同的节点上时，它将使用令牌感知路由，并按照分区范围的定义并行地从多个节点读取数据。

当涉及到写入时，如果您有多个执行器，那么每个执行器将打开到每个节点的多个连接，并使用令牌感知路由写入数据，这意味着数据将直接发送到其中一个副本。此外，Spark试图将属于同一个分区的多行批处理到一个未记录的批处理中，因为它的性能更好。即使Spark分区与Cassandra分区同处，由于SCC使用一致性级别2进行写入，写入也可能涉及额外的网络开销。

类似资料：

如何通过Scala Spark-Shell将大型RDD写入本地磁盘？

通过Scala spark-shell，我可以使用ElasticSearch-Hadoop-5.5.0连接器访问Elasticsearch db。是否有一种方法可以增量地导出数据（例如，一次100k条记录），这样我就不会使系统内存过载？
将映像写入本地服务器

问题内容：更新资料去年接受的答案很好，但是今天我将使用其他所有人使用的软件包：https : //github.com/mikeal/request 原版的我正在尝试获取Google的徽标，并使用node.js将其保存到我的服务器中。这是我现在所拥有的并且不起作用：我该如何工作？问题答案：这里发生了一些事情：我假设您需要fs / http，并设置dir变量:) google.com
将本地向量转换为RDD[向量]

我是Spark和Scala的新手，我正在尝试阅读它在MLlib上的文档。关于 http://spark.apache.org/docs/1.4.0/mllib-data-types.html 的教程，不显示如何从本地向量列表构造RDD[Vector]（可变行）。例如，我已经在火花壳中执行（作为我探索的一部分）如果“合并”，它将看起来像这个矩阵那么，如何将矢量、转换为？
非本地包中的本地导入

问题内容：我知道应该避免本地进口，但是在这种情况下需要特殊情况。这是一个私有存储库，由于服务器上缺少私有密钥，因此与绝对URL一起使用时，heroku buildpack在该阶段失败。现在我得到这个错误。所有导入路径都已更改为本地版本，那么还有什么可以使软件包成为“非本地”文件呢？我该如何解决？问题答案：我修好了它。问题是root软件包在中。一旦我将软件包移到错误处，错误就消失了（因此，
使用Express从本地主机获取数据/将数据写入本地主机

本质上，它的工作原理是服务器在http://example.com/message上从Twilio接收一个POST请求，该请求包含文本消息的正文。它将它写入~/app/.data/color.tmp的临时文件，客户端通过对http://example.com/color的jQuery.get（）调用访问该文件，该调用返回所以问题来了：我有一个版本的应用程序在Glitch.me上工作，所以我知道这
读写本地文件

使用 electron 的一大好处是可以访问用户的文件系统。这使你可以读取和写入本地系统上的文件。为了避免 Chromium 的限制以及对应用程序内部文件的改写，请确保使用 electron 的 API，特别是 app.getPath(name) 函数。这个帮助函数可以使你获得指向系统目录的文件路径，如用户的桌面、系统临时文件等等。使用案例假设我们想为我们的应用程序提供本地的数据库存储。在这

将本地rdd写入本地Cassandra DB

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档