CREATE TABLE my_table (key uuid PRIMARY KEY, value text);
sc.cassandraTable("my_keyspace", "my_table")
.select("value")
.where("key in ?", listOfKeys).collect()
val keys = sc.parallelize(listOfKeys)
val rowsRDD = keys.map(Tuple1(_))
.repartitionByCassandraReplica("my_keyspace","my_table")
.joinWithCassandraTable("my_keyspace","my_table")
Cassandra 2.1,Spark 1.1,Spark-Cassandra-Connector 1.1
我需要一个查询来列出 Spark 中唯一的复合分区键。 CASSANDRA: 中的查询非常快,但是将相同类型的数据过滤器放在 RDD 或 Spark 中.sql相比之下检索结果的速度非常慢。 例如 其中表格格式如下: Spark不是在其查询中使用cassandra优化吗? 我如何有效地检索此信息?
我正在使用Apache Spark 2.0、Apache Cassandra 3.7和Apache Spark Java Connector for Cassandra 2.11(2.0.0-M3)
我想根据RDD中的值从Cassandra查询一些数据。我的方法如下: 虽然Cassandra查询在Spark shell中工作,但当我在平面图中使用它时,它会引发异常: 我的理解是,我不能在另一个RDD内部产生一个RDD。 我在网络上找到的示例读取RDD中的整个Cassandra表并连接RDD(如下所示:https://cassandrastuff.wordpress.com/2014/07/07
我正试图从数据库表中检索最后一条记录。我的查询如下: MID是员工id代码,主键是id。 因为主键(在我的例子中)是整数,并且在每次插入记录时自动递增,所以我试图在主键的基础上获取最后一条记录,因为与其他记录相比,最后一条记录将具有最高值的主键。 但是我不能制定如何给出条件指定最高值的主键。我需要添加主键,如下所示:
我刚接触Cassandra Spark,并尝试使用Spark主集群将数据从文件加载到Cassandra表。我遵循以下链接中给出的步骤 http://docs.datastax.com/en/datastax_enterprise/4.7/datastax_enterprise/spark/sparkImportTxtCQL.html 在第8步,数据显示为整数数组,但当我使用相同的命令时,结果显示为