我正在尝试使用java类来映射cassandra表以触发rdd,为此我面临一个问题,即cassandra无法创建查询来获取数据。
根据这个链接https://github.com/datastax/spark-cassandra-connector/blob/master/doc/6_advanced_mapper.md,类必须是可序列化的,并且至少对要映射的表的主键列具有“getter”和“setter”。
所以我所做的是,我创建了一个java类,为每个字段创建了公共getter和setter,将该类映射到scala同伴对象,并在将数据检索到rdd时将其用于映射cassandra表。
我在图片链接中添加了代码。
当我使用scala类时,上述所有这些都可以无缝地工作
它在设计上不适合你——你提供的类没有你表中的任何字段。mapper类分析你的POJO类,提取所有getter和setter,并使用它们来查找数据库中字段的名称。mapper正在从方法名称中删除get/set/is
前缀,并将方法名称的其余部分小写,并将其用作字段名称。
您需要定义 POJO 类以使字段(和 setter/getter)格式化最少表的主键字段。
是否可以将Spark cassandra connector Java API与Spark 2.0+一起使用? 我看到spark-cassandra-connector-java2.11的最新版本是1.6.0-M1。 有人知道连接器的Java API的未来吗? 沙伊
我正在使用Apache Spark 2.0、Apache Cassandra 3.7和Apache Spark Java Connector for Cassandra 2.11(2.0.0-M3)
我在cassandra中有一个表,其中A(String)和B(int)是partiton键,我正在用spark sql编写sql查询 在解释计划中,它似乎是在执行批扫描,而不是在分区键上直接联接 Cassandra筛选器:[[“A”在(?,?,?,?),D],[“B”在(?,?,?,?,?,?,?,?,?),D]] 请求列:[A、B...] 另外,在文档中https://github.com/da
10凯瑟琳 我在本地运行start-all.sh启动了Spark 然后我创建了这个类“SparkCassandraconnector”,它有一个连接spark和Cassandra的命令。
如何为版本设置以下属性: 本质上,我想设置它,以便应该有0个连接到我的远程dc的客户端,也应该有0个读/写。一切都应该是我正在磨合的DC本地的。 将设置为本地DC是否会达到相同的效果?