请有人能帮我摆脱这个问题。
scala>val gscReadOptionMap = Map(
"url" -> "jdbc:postgresql://server-ip:5432/db_name",
"user" -> "user_id",
"password" -> "pwd",
"dbschema" -> "schema_name",
"dbtable" -> "table_name",
"driver" -> "org.postgresql.Driver"
)
scala>val gpdf = spark.read.format("greenplum").options(gscReadOptionMap).load()
scala>val gpdf = spark.read.format("io.pivotal.greenplum.spark.GreenplumRelationProvider").options(gscReadOptionMap).load()
以下错误:java.lang.IllegalArgumentException:''在“schema_name”.“table_name”表中不存在。“table_name”表在io.pivotal.greenplum.spark.greenplumRelationProvider.createrelation(GreenplumRelationProvider.scala:50)在org.apache.spark.sql.execution.datasources.datasources.resolverelation(Datasource.scala:318)在)在org.apache.spark.sql.dataframeReader.load(dataframeReader.scala:167)...49省略
您的GScreadoptionMap
中缺少PartitionColumn
选项。例如:
val gscOptionMap = Map(
"url" -> "jdbc:postgresql://gsc-dev/tutorial",
"user" -> "gpadmin",
"password" -> "changeme",
"dbschema" -> "faa",
"dbtable" -> "otp_c",
"partitionColumn" -> "airlineid"
)
有关更多细节,请查看文档。
问题-无法使用Spark Cassandra连接器1.5.0连接Cassandra 3.0 根据DataStax Spark Cassandra Connector文档,它说Spark Connector 1.5可以从Spark 1.5.0/1.6.0用于Cassandra 3.0。 你能告诉我我是不是漏掉了哪一步? 尝试的方法 在“pom.xml”中添加了单独的番石榴依赖项 提前谢了。
我有一个Cassandra节点集群,每个节点机器上都有Spark worker。对于通信,我使用Datastax Spark-Cassasndra连接器。Datastax连接器是否对同一台机器中的工作人员从Cassandra节点读取数据进行了优化,或者在机器之间存在一些数据流?
我正在尝试使用spark阅读Kafka,但我想我会遇到一些图书馆相关的问题。 线程“main”org.apache.spark.sql.AnalysisException中出现异常:找不到数据源:Kafka。请按照“结构化流媒体+Kafka集成指南”的部署部分部署应用程序。;在org.apache.spark.sql.execution.datasources.datasource$.lookup
问题内容: 我已经在带有Elasticsearch-Spark连接器的火花壳中进行了一些实验。调用火花: 在scala shell中: 它运作良好,结果包含myquery中指定的良好记录。唯一的事情是,即使我在查询中指定了这些字段的子集,我也获得了所有字段。例: 返回所有字段,不仅返回a和b(顺便说一句,我注意到大小参数都不考虑在内:result包含10条以上的记录)。也许添加字段是嵌套的很重要,
我们可以使用以下命令轻松地从 Spark 中的 Hive 表中读取记录: 但是当我连接两个表时,例如: 如何从上面的连接查询中检索记录?
我将DataGrip配置为使用spark安装文件夹中的JDBC库。