问题：

使用spark-cassandra连接器的Cassandra插入器性能

西门逸仙

2023-03-14

import java.util.UUID

import org.apache.spark.{SparkContext, SparkConf}
import org.joda.time.DateTime
import com.datastax.spark.connector._

case class TestEntity(id:UUID, category:String, name:String,value:Double, createDate:DateTime, tag:Long)

object SparkConnectorContext {
  val conf = new SparkConf(true).setMaster("local")
    .set("spark.cassandra.connection.host", "192.168.xxx.xxx")
  val sc = new SparkContext(conf)
}
object TestRepo {
  def insertList(list: List[TestEntity]) = {
    SparkConnectorContext.sc.parallelize(list).saveToCassandra("testKeySpace", "testColumnFamily")
  }
}
object TestApp extends App {
  val start = System.currentTimeMillis()
  TestRepo.insertList(Utility.generateRandomData())
  val end = System.currentTimeMillis()
  val timeDiff = end-start
  println("Difference (in millis)= "+timeDiff)
}

谁能告诉我为什么火花连接器要花这么多时间插入？我在代码中做了什么错误吗？或者使用spark-cassandra连接器进行插入操作是否不可取？

共有1个答案

鱼浩荡

2023-03-14

看起来您在计时中包含了并行化操作。另外，由于您的spark worker运行在与Cassandra不同的机器上，saveToCassandra操作将是网络上的写操作。

尝试将系统配置为在Cassandra节点上运行spark workers。然后在单独的步骤中创建一个RDD，并调用count（）这样的操作将数据加载到内存中。另外，您可能希望persist（）或cache（）RDD以确保它在内存中进行测试。

然后只对缓存的RDD的saveToCassandra计时。

类似资料：

使用spark-cassandra连接器在cassandra中写入时间

我的要求是尽可能的实时，这似乎离得很远。生产环境大约每3秒有400个事件。是否需要对Cassandra中的YAML文件进行调优，或者对cassandra-connector本身进行任何更改
无法使用Spark Cassandra连接器1.5.0连接Cassandra 3.0

问题-无法使用Spark Cassandra连接器1.5.0连接Cassandra 3.0 根据DataStax Spark Cassandra Connector文档，它说Spark Connector 1.5可以从Spark 1.5.0/1.6.0用于Cassandra 3.0。你能告诉我我是不是漏掉了哪一步？尝试的方法在“pom.xml”中添加了单独的番石榴依赖项提前谢了。
Spark Cassandra连接器-perPartitionLimit

注意，这里是每个cassandra分区的限制，而不是每个spark分区的限制（连接器中现有的限制函数支持这一点）。 spark 2.0.1，连接器-2.0.0-M3
spark-cassandra连接器的Spark cassandra集成错误

我得到了一个错误：- 线程“main”java.lang.nosuchmethoderror：com.datastax.driver.core.queryoptions.setrefreshnodeintervalmillis（I）lcom/datastax/driver/core/queryoptions；**在com.datastax.spark.connector.cql.defaultCo
Datastax spark cassandra连接器-将DF写入cassandra表

我们最近开始了使用Scala、Spark和Cassandra的大数据项目，我对所有这些技术都是新手。我试图做简单的任务写到和读从卡桑德拉表。如果将属性名和列名都保留为小写或snake大小写（unserscores）就可以实现这一点，但我希望在scala代码中使用camel大小写。在Scala中使用camel case格式，在Cassandra中使用snake case格式，有没有更好的方法来实现这
Spark Cassandra连接器的正确使用

这是个好办法吗？我需要担心关闭会话吗？我在哪里/怎么做最好？任何指针都很感激。

使用spark-cassandra连接器的Cassandra插入器性能

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档