问题：

Datastax spark cassandra连接器-将DF写入cassandra表

皇甫飞光

2023-03-14

我们最近开始了使用Scala、Spark和Cassandra的大数据项目，我对所有这些技术都是新手。我试图做简单的任务写到和读从卡桑德拉表。如果将属性名和列名都保留为小写或snake大小写（unserscores）就可以实现这一点，但我希望在scala代码中使用camel大小写。在Scala中使用camel case格式，在Cassandra中使用snake case格式，有没有更好的方法来实现这一点。

我们正在使用

CREATE TABLE dev.castable (
id int PRIMARY KEY,
long_name text,
name text,
short_name text)

    val conf = new SparkConf()
        .setAppName("TestHelper")
        .setMaster("local")
        .set("spark.cassandra.connection.host","127.0.01")
    val sc = new SparkContext(conf)
    val sqlContext = new SQLContext(sc)

    println("writing data to cassandra")
    val df = sqlContext.createDataFrame(List(new MyRow(2,Option("long name"), "ss", Option("short name"))))
    df.write //*** this is not working
      .cassandraFormat("castable", "dev")
      .mode(SaveMode.Append)
      .save()

    println("reading data from cassandra") //*** This is working fine
    val rdd = sc.cassandraTable[MyRow]("dev", "castable")
    rdd.foreach(println)

Exception in thread "main" java.util.NoSuchElementException: Columns not found in table dev.castable: longName, shortName
at com.datastax.spark.connector.SomeColumns.selectFrom(ColumnSelector.scala:38)
at com.datastax.spark.connector.writer.TableWriter$.apply(TableWriter.scala:268)
at com.datastax.spark.connector.RDDFunctions.saveToCassandra(RDDFunctions.scala:36)
at org.apache.spark.sql.cassandra.CassandraSourceRelation.insert(CassandraSourceRelation.scala:67)
at org.apache.spark.sql.cassandra.DefaultSource.createRelation(DefaultSource.scala:85)
at org.apache.spark.sql.execution.datasources.ResolvedDataSource$.apply(ResolvedDataSource.scala:222)
at org.apache.spark.sql.DataFrameWriter.save(DataFrameWriter.scala:148)
at com.aktana.spark.util.LocalTestDriver$.main(LocalTestDriver.scala:38)

我读到spark-cassandra-connector自动进行这种转换，但它对我不起作用。datastax Spark-Cassandra-连接器

共有1个答案

况承福

2023-03-14

您的MyRow定义似乎与cassandra表定义不匹配。试试这个：

val df = List((1, "My Long Description", "My Name", "My Short Name")).toDF("id", "long_name", "name", "short_name")

类似资料：

使用spark-cassandra连接器在cassandra中写入时间

我的要求是尽可能的实时，这似乎离得很远。生产环境大约每3秒有400个事件。是否需要对Cassandra中的YAML文件进行调优，或者对cassandra-connector本身进行任何更改
Presto Cassandra连接器：连接数

Presto与Cassandra/ScylLadb的默认连接数是多少？如何设置此属性？谢谢
使用spark-cassandra连接器的Cassandra插入器性能

谁能告诉我为什么火花连接器要花这么多时间插入？我在代码中做了什么错误吗？或者使用spark-cassandra连接器进行插入操作是否不可取？
Spark cassandra连接器+连接超时

**dataframe2:从另一个来源获得的键的Dataframe（这些键是上表中ID列的分区键）-此表中不同键的数量约为0.15万** 现在，此代码总是导致“com.datastax.oss.driver.api.core.servererrors.ReadFailureException：在一致性LOCAL_ONE读取查询期间Cassandra失败（需要1个响应，但只有0个副本响应，1个失败）
Spark Cassandra连接器-perPartitionLimit

注意，这里是每个cassandra分区的限制，而不是每个spark分区的限制（连接器中现有的限制函数支持这一点）。 spark 2.0.1，连接器-2.0.0-M3
无法使用Spark Cassandra连接器1.5.0连接Cassandra 3.0

问题-无法使用Spark Cassandra连接器1.5.0连接Cassandra 3.0 根据DataStax Spark Cassandra Connector文档，它说Spark Connector 1.5可以从Spark 1.5.0/1.6.0用于Cassandra 3.0。你能告诉我我是不是漏掉了哪一步？尝试的方法在“pom.xml”中添加了单独的番石榴依赖项提前谢了。

Datastax spark cassandra连接器-将DF写入cassandra表

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档