spark-cassandra-connector阅读器的工作原理

双元魁

2023-03-14

我有一个关于这个连接器的问题。如果我的Spark集群和Cassandra集群不在同一个集群上，读取如何工作？Spark是否将整个Cassandra表带入自己的集群并将其重新排列到Spark分区中？

共有1个答案

颛孙霖

2023-03-14

spark和cassandra之间的下推操作可用，只要您尽早筛选，cassandra将执行所有筛选，以便您通过网络传送已经筛选过的数据，请阅读：tips cassandra-spark

类似资料：

Spark cassandra connector Java API与Spark 2.0

是否可以将Spark cassandra connector Java API与Spark 2.0+一起使用？我看到spark-cassandra-connector-java2.11的最新版本是1.6.0-M1。有人知道连接器的Java API的未来吗？沙伊
为spark-cassandra-connector设置Cassandra属性

如何为版本设置以下属性：本质上，我想设置它，以便应该有0个连接到我的远程dc的客户端，也应该有0个读/写。一切都应该是我正在磨合的DC本地的。将设置为本地DC是否会达到相同的效果？
Spark Cassandra Connector in Action：如果Cassandra托管在不同的服务器上，它是如何工作的

场景：Cassandra托管在服务器上，spark运行在服务器上，比如。假设我想将数据从cassandra中的一个表（比如table）进行转换，并使用Spark将其重写到cassandra中的另一个表（比如tableNew），我编写的代码如下所示这里表示我所做的转换/过滤。我不确定Spark cassandra连接器在内部如何工作。这是我的困惑： 1：spark是否将数据从Cassandra源
spark-cassandra-connector性能：执行器似乎空闲

在我们的40个节点集群（33个spark Executors/5个节点cassandra）上，使用spark-streaming我们每分钟在cassandra表中插入大约20,000个（除其他外）(with)。我们得到的结果是：如果我理解正确的话，执行器、和75%的时间是空闲的，并阻止阶段完成······这样的资源浪费！和性能损失。以下是SparkContext的conf选项：
cassandra direct join的Spark流不工作

嗨，伙计们！我正在尝试开发火花流应用程序，但遇到了一些问题。一些细节：我们有Kafka主题，spark 3.2.1和Cassandra 4.0.4，带有datastax spark Cassandra连接器版本com.datastax.spark:spark-Cassandra-connector_2.12:3.1.0 我需要数据的下一条路线。获取 kafka 消息并在 Spark 中转换为数据
具有repartitionByCassandraReplica函数的cassandra-spark-connector错误

我试图使用1.2版本中的新联接功能，但在repl中的repartitionByCassandraReplica函数出现了一个错误。我尝试复制该网站的示例，并创建了一个cassandra表(shopping_history)，其中包含几个元素:https://github.com/datastax/spark-cassandra-connector/blob/master/doc/2_loadin

spark-cassandra-connector阅读器的工作原理

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档