问题：

从scala/spark-shell向hive表提供多个变量

邹嘉致

2023-03-14

我在scala/Spark-Shell中有4个变量。

S1 = (a string) = "age"
S2 = (another string) = "school"
D1 = (a double) = 0.50
D2 = (another double) = 0.75

我需要把这个喂到蜂巢桌子上，就像这样：

因子系数

val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)

hiveContext.sql("create table students_table (factor STRING, coeff FLOAT) stored as orc")

我肯定我错过了如何做到这一点的整个想法。

任何帮助都是真诚的感谢。

共有1个答案

秦鸿羽

2023-03-14

val input = sc.parallelize(Array((s1,D1), (s2, D2)))
case class StudentTable(factor : String, coeff : Double)
import sqlContext.implicits._
val df = input.map(x=>StudentTable(x._1, x._2)).toDF
df.saveAsTable("students_table", org.apache.spark.sql.SaveMode.Append)

类似资料：

Spark可以从pyspark访问Hive表，但不能从Spark提交访问

问题内容：因此，从pyspark运行时，我会输入（不指定任何上下文）： ..而且效果很好。但是，当我从运行脚本时，例如我把以下内容但这给我一个错误 pyspark.sql.utils.AnalysisException：u’未找到表：experian_int_openings_latest_orc;’ 所以它没有看到我的桌子。我究竟做错了什么？请帮忙 PS Spark版本在Amazon
Spark 2.0 Cassandra Scala Shell错误：NoClassDefFoundError

我已经将Spark2.0 shell配置为与datastax cassandra连接器一起运行。
Spark Hive表连接策略

我有一个140亿记录的Hive表（大约1TB大小）和另一个8亿记录的Hive表（2GB大）。我想加入它们，我的策略应该是什么？我有一个36节点集群。我使用50个执行器，每个执行器30 GB。据我所知，我的选择是：广播2 GB表只是盲目地连接2个表（我已经这样做了，需要将近4个小时才能完成）如果我将两个表重新分区并连接起来，会提高性能吗？我观察到在第二种方法中，最后20个任务非常慢，我希望它
从使用Spark连接Hive表读取记录

我们可以使用以下命令轻松地从 Spark 中的 Hive 表中读取记录：但是当我连接两个表时，例如：如何从上面的连接查询中检索记录？
Spark-sql读取hive表失败

我想通过配置单元jdbc连接将整个配置单元表加载到spark内存中。并且已经添加了配置单元站点。xml，hdfs站点。xml在我的项目中。spark已连接配置单元，因为已成功获取列名（例如role_id）。但是spark似乎将列名作为数据加载，并抛出异常。这是我的密码：和获取错误： JAVAlang.NumberFormatException：对于输入字符串：“t_leave_map_base.
Quarkus：提供多个OpenAPI/Swagger-UIendpoint

在我的项目中，我包含了openapi依赖项，并让Quarkus生成openapi定义。是否可以将版本0的endpoint分组为一个定义，其余的endpoint分组为另一个定义？我有一个设置，可以浏览到example.com/v0/docs/或example.com/v1/docs/。在不同版本中启动两个API实例很容易，但我认为不改变端口是不可能的。我希望所有endpoint都可以在同一个端口上

从scala/spark-shell向hive表提供多个变量

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档