当前位置: 首页 > 知识库问答 >
问题:

spark-cassandra-connector阅读器的工作原理

双元魁
2023-03-14

我有一个关于这个连接器的问题。如果我的Spark集群和Cassandra集群不在同一个集群上,读取如何工作?Spark是否将整个Cassandra表带入自己的集群并将其重新排列到Spark分区中?

共有1个答案

颛孙霖
2023-03-14

sparkcassandra之间的下推操作可用,只要您尽早筛选,cassandra将执行所有筛选,以便您通过网络传送已经筛选过的数据,请阅读:tips cassandra-spark

 类似资料:
  • 是否可以将Spark cassandra connector Java API与Spark 2.0+一起使用? 我看到spark-cassandra-connector-java2.11的最新版本是1.6.0-M1。 有人知道连接器的Java API的未来吗? 沙伊

  • 如何为版本设置以下属性: 本质上,我想设置它,以便应该有0个连接到我的远程dc的客户端,也应该有0个读/写。一切都应该是我正在磨合的DC本地的。 将设置为本地DC是否会达到相同的效果?

  • 场景:Cassandra托管在服务器上,spark运行在服务器上,比如。 假设我想将数据从cassandra中的一个表(比如table)进行转换,并使用Spark将其重写到cassandra中的另一个表(比如tableNew),我编写的代码如下所示 这里表示我所做的转换/过滤。我不确定Spark cassandra连接器在内部如何工作。这是我的困惑: 1:spark是否将数据从Cassandra源

  • 在我们的40个节点集群(33个spark Executors/5个节点cassandra)上,使用spark-streaming我们每分钟在cassandra表中插入大约20,000个(除其他外)(with)。我们得到的结果是: 如果我理解正确的话,执行器、和75%的时间是空闲的,并阻止阶段完成······这样的资源浪费!和性能损失。 以下是SparkContext的conf选项:

  • 嗨,伙计们!我正在尝试开发火花流应用程序,但遇到了一些问题。一些细节:我们有Kafka主题,spark 3.2.1和Cassandra 4.0.4,带有datastax spark Cassandra连接器版本com.datastax.spark:spark-Cassandra-connector_2.12:3.1.0 我需要数据的下一条路线。 获取 kafka 消息并在 Spark 中转换为数据

  • 我试图使用1.2版本中的新联接功能,但在repl中的repartitionByCassandraReplica函数出现了一个错误。 我尝试复制该网站的示例,并创建了一个cassandra表(shopping_history),其中包含几个元素:https://github.com/datastax/spark-cassandra-connector/blob/master/doc/2_loadin