问题：

JDBC火花连接

国晟睿

2023-03-14

我正在研究建立一个JDBC Spark连接，以便从r/Python使用。我知道pyspark和sparkr都是可用的，但它们似乎更适合交互式分析，特别是因为它们为用户保留了集群资源。我在考虑一些更类似于Tableau ODBC Spark connection的东西--一些更轻量级的东西（据我所知），用于支持简单的随机访问。虽然这似乎是可能的，而且有一些文档，但（对我来说）JDBC驱动程序的需求是什么并不清楚。

既然Hive和Spark SQL通过thrift似乎紧密相连，我应该像我一样使用org.apache.Hive.jdbc.HiveDriver来建立Hive连接吗？我是否应该将配置单元连接（使用HiveServer2端口）所需的hadoop-common依赖项替换为某些Spark特定的依赖项（当使用Hive.server2.thrift.http.Port时）？

另外，由于大多数连接功能似乎都利用了Hive，导致Spark SQL代替Hive作为查询引擎的关键是什么？

共有1个答案

龙凯

2023-03-14

事实证明，我需要使用的URL与Ambari中列出的配置单元数据库主机URL不匹配。我在一个关于如何连接（具体到我的集群）的示例中遇到了正确的URL。给定正确的URL，我能够使用HiveDriver毫无问题地建立连接。

类似资料：

火花连接：括号问题

我要加入两个rdd。示例文件1数据: 示例文件2数据：下面是代码： o/p是k，(v)，我想在做进一步处理时去掉值两边的括号。我尝试了一些事情，包括我还保存了结果：不幸的是，结果总是以下格式：我希望他们：
用火花连接器填充Neo4j

我使用Spark2和neo4j3（安装在一个节点上），并使用这个spark/Neo4j https://github.com/neo4j-contrib/neo4j-spark-connector 我可以使用我的数据库。多谢帮忙。
火花垃圾连接到主机

我正试图设置一个小型Spark集群进行测试。该集群由3名工人和一名师傅组成。我在每个节点上设置了Java、scala和Spark。配置文件如下：spark-defaults.conf： Spark-env.sh
更好的蜂巢-火花连接？

我正在回顾一个旧的Spark软件，它必须并行运行许多小的查询和计数()并使用直接的hive-sql。在过去，该软件通过在shell()上直线运行每个查询来解决“并行化查询的问题”。我不能用现代新鲜的Spark，此刻只有Spark V2.2。下面的片段说明了完整的SQL查询方法。有一种“Spark方式”可以访问Hive并运行SQL查询，性能（略）更好，而且Spark配置的重用性更好？没有丢失纯
Cassandra火花连接器读取性能

我有一些Spark经验，但刚开始使用Cassandra。我正在尝试进行非常简单的阅读，但性能非常差——不知道为什么。这是我正在使用的代码：所有3个参数都是表上键的一部分：主键（group\u id，epoch，group\u name，auto\u generated\u uuid\u field），聚类顺序为（epoch ASC，group\u name ASC，auto\u generat
火花数据帧连接字符串

如何使用Spark-Scala连接日期和时间列（两个字符串）

JDBC火花连接

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档